🔥

mozc-utの公開の終了といろいろについての所感

2023/01/12に公開5

どういうことだってばよ

Linux 上の日本語入力システムで一番メジャーといえる mozc(Google 日本語入力のオープンソース版)向けの辞書として公開されていた、mozc-ut の公開を作者が終了してしまいました。それに伴ってディストリビューションにパッケージの公開をしている人に削除が求められています。自分の知る限りでは AUR でしかパッケージングされていないので、その部分の影響は少なそうですが、かなりメジャーな mozc の辞書として知られていたので、影響が大きそうだと思いまとめることにしました。(私事で恐縮ですが、mozc-ut を利用していたのでまあまあなショックがあります)

発端

山田ハヤオさんの 2 つのツイートが作者のサイトで原因としてあげられています。
https://twitter.com/Hayao0819/status/1433817801056088068
https://twitter.com/Hayao0819/status/1612375283457462272

作者は 1 つめのツイートについて

山田ハヤオさんが「UT 辞書はライセンスに問題があってまともではない」と書いている。

私は UT 辞書の公開をやめるときが来た、と思いました。

2 つめのツイートについて

山田さんは以前にも、法的な部分が怖いので UT 辞書は無理だと書いている。

と書いています。(元リンク)

すれ違いが起こっている?

山田さんのこれらのツイートはすべて「ディストロ開発者から見た場合」ということになります。どういうことかというと、UT 辞書は標準では複数の辞書(具体的には mozc 標準の辞書や neologd 辞書、地名用の辞書など)の組み合わせによって構成されています。これらは CC-BY-SA 3.0 と Apache 2.0 と 3 条項 BSD でライセンスされています。特に CC-BY-SA 3.0 は他の Apache や BSD ライセンスとの互換性がありませんので、単一パッケージとして配布すると問題が生じます。[1]また、「UT 辞書のライセンス」というものが存在しない(作者から明示されていない)ので、このライセンシングの問題について曖昧になっているのが現状です。この辞書について、それ自体を CC-BY-SA 3.0 で公開するという明示があればまた違ったのかもしれませんが...

ただ、私は個人の使用の範囲において全く問題となる仕様ではないと考えています。この UT 辞書はビルドされるときにそれぞれの辞書から単一の辞書を生成するようになっており、PKGBUILD では手元でビルドされるはずなので、標準状態でライセンスの問題は発生しないと考えられます。また、辞書をアップデートのたびにユーザにビルドさせるのが難しいディストリビューションの開発者は、CC-BY-SA 3.0 の辞書のみを無効化してビルドした辞書を Apache 2.0 ライセンスとして配布することでこの問題を回避することができます。

しかしながら、この複雑な問題を一発で理解するのは難しいですし、この辞書がビルドされるプロセスをも理解する必要があります。また、標準で搭載する辞書にこれを選ぶかと言うと難しいと言わざるを得ないので、特別な処置が必要なこの辞書についてについてディストロ開発者の目線から「法的な部分が怖い」「ライセンス的に微妙」という書き方になるのは致し方ないと思います。

ディストロ開発ではない文脈から見ると、ut 辞書をビルドするスクリプトなどのライセンスそのものに問題があるかのように見えるので書き方は良くなかったのかなとは思いますが。

この問題について、工藤 拓氏(形態素解析エンジン Mecab や 日本語係り受け解析器 Cabocha といった著名なライブラリの作者)は
https://twitter.com/taku910/status/1613373351820668930
のように述べていますが、私はこの問題について上記のことから「意味不明な根拠」とは言えないと思っています。

また、ディストロのパッケージメンテナに対し mozc-ut を削除するように呼びかけているのはどういう根拠なのかよくわかりませんでした。[2]

まとめ

辞書のメンテナンスがすごく難しいうえ、膨大な作業が必要で、開発者の負担が大きいことは理解します。しかし、UT の使っている辞書の一つ一つにも開発者がいますし、成果物をつかっている以上はライセンスに関して十分な説明が必要なので、曖昧ではいけないと思います。特にライセンスは、明確に OK と言えないと NG になってしまう部分もあります。これまでの UT 辞書のサイトにはライセンスについてもとの辞書についてのみ記載されていましたので、再配布に際し不安が出てくるのは当然だと思います。[3]

また、山田さんについては、あまりめげずにこれからも開発していただきたいと思っています。これがきっかけで開発者が減ってしまうのは工藤さんの本意ではないと思います。

著名な辞書の公開が終了してしまったことは非常に残念です。プロジェクトについて有意義な議論の上で改善して育てるためには、意見を投げる側も、受ける側もナーバスになりすぎない、萎縮しない環境が必要なのかなと思いました。

急いで書きましたので、乱筆、乱文についてお許しください。

追伸:早く日本語入力システムを公開しなきゃな〜と思いました。

脚注
  1. Apache ライセンスなどのゆるいライセンスの成果物に CC-BY-SA 3.0 などのコピーレフトなライセンスの成果物を含めることは基本的にできません。 ↩︎

  2. おそらく、これまでにリリースされた分の成果物のうち、フリーなライセンスで公開されたものについて強制力をもって削除を求めることはできないと考えられます。 ↩︎

  3. 今はこれらのライセンスの問題が解決されている場合、情報をいただきたいです。自分の探す限りでは、どのようにしてこれらのライセンスの問題が解決したのかの資料を見つけることができませんでした。 ↩︎

GitHubで編集を提案

Discussion

s.t.s.t.

工藤さんはmozcの中の人でもあるので、その立場で考えると「意味不明な根拠での難癖」という言い回しで不快感を示されるのも分からなくはないです。
多分ですけど、mozcがBSDでリリースされたOSSであるにも関わらず「MozcはGoogle依存(なのでまともではない(と読み取れる))」と表明してしまった山田さんへの不快感も込みでの発言なんでしょう。

開発者とパッケージャーの立場の違いによるすれ違いが残念なのは全く同意ですが。

将来仮にGoogleさんがGoogleIMEをやめてしまって(Googleさんの過去の動きを見てると十分有り得る話)も、コアのmozcは残り続けるし、なんなら誰かがフォークして継承することもできるし、utについても実体はダウンローダーなので、等価なものを誰かが作ることもできる(こちらはライセンスを考えると、ディストリ側の人がうまくまとめるのは難しいかもしれませんが、ダウンローダー+辞書ビルダー+辞書アップデーター、という形でデータ実体を外に出しちゃうのが一番簡単ですかね)わけなので、元ネタの辞書データが公開されている限りはやりようはあるよなぁ、と個人的には楽観視しております。

kkkk

どんな根拠や背景があったとしても、(それを説明せずに)「無理」とか「まとも」ではないといった物言いをするのは、褒められたことでしょうか。開発者から見れば、難癖や誹謗に見えて当然ではないでしょうか。「書き方は良くなかった」では、やさしすぎる表現のように思います。

KrisKris

MozcはGoogle依存だし(後略)のツイートをディストロ開発者目線と読むのは無理がありそう。

sakojunsakojun

意見を言ったら公開終了して悪者にするような流れに見えてしまいましたね。
そのようなやり方は健全ではないと感じます。
私的には「開発者としてライセンス的に使いづらい」以上の事は読み取れませんでした。