🥨

データサイエンスで楽々ドイツ語学習 その2 単語リストの基礎分析

に公開

前回までのあらすじ

ゲーテの単語リスト(非構造データ)を最新のLLMで楽々?にCSVデータに変換した私。
この単語リストを今回は分析していきます。データサイエンスの基本ですね。

ゲーテの単語リスト(PDF)
前回の記事その1(非構造データをClaudeで構造データに変換)
前回の記事その0(なぜドイツ語とデータサイエンス?)

単語リストのレベル

この単語リスト、明確なレベル表記がないです。単語リストの参考文献には、"integration course"や"A1-C2"のような表記がありますが、Das Babyのようなかなり簡単な単語もたくさん含まれているため、C1/C2ではないだろうという印象。ただ、「Goethe Wordlist B2」とGoogle検索すると一番最初にこのリストが出てきたので、私はこれをB2対策の単語として使用していました。(「Goethe Wordlist C2」ってググっても、3番目に表示されるけれど…)
ただ、このスレッド見ると、B2以上のレベルの人が単語リストに頼るのはそもそも間違いで、自分で記事を読んで、単語を増やしていけ、みたいなことが書いてあるんですよね。

...正論むっか!!!そんなんわかっとるわい!!!こちとら、語学嫌いだし時間ないしコスパタイパ良く語学を身につけたいという無理難題に挑戦しているんだい!!!

とはいえ、このリスト誰向け?
という解を得るため、まず基礎分析してみます。

このワードリスト、何語あるかというと、2533語あります。
pdfファイルのままだと、これをカウントするだけで日が暮れますが、CSVになっているとすぐにわかっていいですね。

日本語で販売されているドイツ語の単語リスト1800は、初級~中級とあり、5000語くらいまで販売しているので、このリストはやはりB1くらいまでを想定していそうです。とはいえ、私はB2対策でこのリストを使って勉強し、そしてこの中の単語にも怪しいものがたくさんある中でB2合格しました。

学習アプリ「Lingvist」でも、5000語が上級としての目標レベル。3000語でシンプルな会話に困らないレベルという表記がされています。

なぜ私がこういった学習アプリを使用しないかの理由を詳しく書くと、本筋からそれるのですが、正直、今の世の中、完璧に書ける力いらないと思っているんですよね。でも某Lingvistとか某Duolingoとかいちいち完璧なスペルを要求してきませんか?今時、スペルミスとかPCでもスマホでも補正してくれるんで、別にいらないと思っています(超自論)。きちんと発音できて、理解できて、読めたら、それでいいのよ。99%を100%に近づけることに時間を割くのではなく、25%を50%にする努力を今しているのよ。細かいことにこだわっているうちに、モチベーションなくなるわ!スペルミスくらい正解にしろよ!と思うわけです。
私は理系人間です。言語学者じゃない。使えたらそれでいいのだ。超おおざっぱ人間です。

こういう私みたいな人のためのアプリなくないですか?
ということで、自分で作れないかなぁ、というモチベーションです。

単語の基礎分析

1. 頭文字別の数

まず、頭文字がどの単語が多いのか、見てみます。
(注)この単語帳における数なので、実際の単語数とは異なります。

「 s 」から始まる単語が1番多くて、2番目「 b 」、3番目「 e 」、4番目「 a 」だそうです。

ふーん。

だからなんだってわけではないですが、気づきがありました。
私、この単語PDFを普通に試験前に勉強するとき、馬鹿正直に1ページ目の「 a 」から順番に初めて、あまりの多さ&進まなさにくじけそうだったんです。「1時間も勉強しているのに、まだ「 b 」までしか来てない!」…と。多い単語数上位5個のうち、3個が[a,b,e]だということがわかっていれば、こんなことで無駄にくじけそうにならなくてよかったのになぁ、「単語数が多いから、最初は進捗が少なくて仕方ない」ということがあらかじめわかっていれば、気持ちの持ちようが全然違ったなぁ、と思います。

言語学習に一番大事なのがモチベーションの維持だと思っています。
なけなしのやる気を振り絞ってやっと単語勉強しようとしているのに、無駄にそのやる気が削がれることがあってはならない。
ということで、頭文字の数の情報は、私にとってはかなり大事な情報の一つでした。
知れてよかった。

2. 品詞別の数

次に、品詞別の単語数を見てみます。
(注・再)この単語帳における数なので、実際とは異なります。

2分の1強が「名詞」、4分の1が「動詞」、その次に「形容詞」「副詞」と続くことがわかりました。

これも、だから何、というか、予想通りの結果といえばそれまでですが、
ここでわけたのには、訳があります。
私単語覚えるのが、絶対的に苦手でして、特に、似たような単語なのに全然意味が違うの大嫌いなんです。中高の英語の授業で行ったように、文章を読んで、単語を覚えるということをコツコツ行いながら、頭の中に単語マップを作っていくほかないとはわかっているものの、ドイツ語に全く興味を持てない私は、その努力が行えない…時間も惜しい…どうにか少しでも楽をして単語を覚えたい…そんな方法はないものだろうか…
そんなこと考えていないで、さっさと単語の一つ二つ覚えたほうがいいのに、私は考え続けました。
そして思いついたのです。
「単語マップを一から自分の頭の中に作るのではなくて、もともとあるマップを視覚的に覚えることで、少しでも単語が頭に楽に入力されないだろうか!?!?!?」

自然言語処理分野でよく聞くWord2Vecや、Semantic Networkを、この単語リストでも作成することで、効率よく、仲間の単語を覚えていくのに役立てないかと思ったのです。
また、品詞別にわけて作成することもできるんではなかろうか…

イメージとして、私が作りたいのは、ゲーテの単語リストにおける、このような図です(引用[1]より)。

基礎分析していく中で、自分のやりたい分析方針が決まってきました。
もっと深堀して基礎分析してもいいのですが、時間の関係で少しだけになりましたが、ここまで。

次回は、いよいよ、Pythonを使ってSemantic Networkの単語地図を作ります。

脚注
  1. 引用 https://medium.com/@vespinozag/transform-any-text-into-a-semantic-network-with-nocodefunctions-app-in-just-4-steps-36621a354cae ↩︎

Discussion