- 文書を用意する
- 単語の単位を分析する
- 単語を分かち書き(単語間をスペースで区切る)にする
- 分かち書きした単語をワードネットライブラリに投げて画像生成
補足解説
-
単語の単位を分析するについて
日本語だと難しいです。英語だと単語がスペースで区切られているのですが、日本語は単語がスペースで区切られていないからです。
英語) I have an apple.
日本語) 私はりんごを持っています。
そこで形態素解析という文章を単語レベルに切り分ける技術(文書を解析する技術)を使います。
形態素解析
日本語) 私はりんごを持っています。
形態素解析後)私 / は / りんご / を / 持って / います / 。
日本語の形態素解析ではmecabというツールが一つとして有名です。
早速インストールしていきましょう。