英文校正AIツールを機械学習を用いて作ったら精度良くできた話
英文校正AIとは
英文校正AIとは英文の校正、校閲を自動で瞬時に行うツールのことです。検索して調べてみるとわかりますが、現状主なツールとしては、GrammarlyとGingerがあります。ただ、redditなどの口コミや直接ユーザーに聞いたところでは、これら既存のAIに対する不満の声が上がっており、私が必要に駆られて使って見た際も質に不満があったため、英文校正AIを自作することにしました。私が作ったLapis AIと主要な英文校正ツールであるGrammarlyとGingerをデータをもとに比較検討し、どのようなレベル感の人が、どのシーンでどのツールを使うべきなのかを検証したいと思います。
また、検証の際、なぜその文で検証するのかの理由を明らかにして検証していきます。
最後に、質の良い機械学習システムを作る際、今回の教訓から得られたTipsを共有したいと思います。
英語中級者〜上級者向けの英文添削テスト
英語学習がある程度進み、英語に関しては中級者〜上級者になったという自覚がある方では、文法の明らかな間違いは減ってきて、より自然な英語を書きたいというニーズがあると思います。
そこで、 「英語上級者 フレーズ」で検索して2022年4月現在一番最初にヒットした、FluentUさんの記事から、最初の例をデータとして使うことにします。不自然とされているのは”invent an impact”、“create an impact”です。これを “make an impact”と修正できれば合格です。
さて、Grammarlyはどうでしょうか?
“We invent an impact.”、”We create an impact.”共にAIをパスしてしまい、添削されませんでした。
では、Gingerはどうでしょうか?
こちらも、“We invent an impact.”、”We create an impact.”共にAIをパスしてしまい、添削されないという結果になってしまいました。
それではLapis AIを試してみます。
こちらは、“We invent an impact.”の”invent”を”make”に、”We create an impact.”の”create”も”make”に無事サジェストすることができました。(こちらは有料版の機能です。)
誤 | 正 | Grammarly | Ginger | Lapis AI |
---|---|---|---|---|
invent an impact | make an impact | ✖️ | ✖️ | ○ |
create an impact | make an impact | ✖️ | ✖️ | ○ |
3つの英文校正ツールのうち、Lapis AIのみが、文法的には正しいけれど自然な英語でない文を校正できる能力があると言って良いかと思います。
日本人のようなノンネイティブがいつも自然な英語を思いつくとは限らないので、英語上級者に近づいたという感覚をお持ちの方なら、Lapis AIをお試しいただけるとお役に立てるかと思います。
英語初心者向けの英文添削テスト
英語初心者向けの場合はどうでしょうか?
文法の明らかな間違いを見抜けるかをテストしたいと思います。
今回は「英語初心者 フレーズ」のキーワードで検索した時2022年4月現在でトップに表示されるFluentUさんの記事から、「英語で雑談(スモールトーク)する」の項目の一番最初に表示される”How are you?”を変形して、”How is you?”と打ち込み、これを修正できるかを試したいと思います。
Grammarlyでは、きちんと”is”を”are”にサジェストすることができています。
Gingerでは、”is”のままで校正されませんでした。
Lapis AIでは、”is”を"are"に校正することができています。
これ以外でも、日本人が間違いがちな文法ミスとして、以下の項目があります。
誤 | 正 |
---|---|
make a friend with | make friends with |
explain you it | explain it to you |
Never I have thought of that | Never have I thought of that |
bought it to me | bought it for me |
let him does | let him do |
これらの文法ミスについて、現状の商品とLapis AIを比べたところ、以下のようになりました。
誤 | 正 | Grammarly | Ginger | Lapis AI |
---|---|---|---|---|
make a friend with | make friends with | ✖️ | ✖️ | ○ |
explain you it | explain it to you | ○ | ✖️ | ○ |
Never I have thought of that | Never have I thought of that | ✖️ | ✖️ | ○ |
bought it to me | bought it for me | ○ | ✖️ | ○ |
let him does | let him do | ○ | ✖️ | ○ |
細かい文法ミスについても、現状の商品では満足いく結果でなかったのに対し、Lapis AIではかなり文法ミスの修正が改善されていることがわかるかと思います。
次の章からはシーン別の活用例を見ていきたいと思います。
IT技術系の英文の場合
まずはIT技術系でよく使われる単語を認識できるのか試して見たいと思います。
業務でもよく使われるkubernatesを認識できるかを基準とします。
“We need kubernetis.”を”We need kubernetes.”に、“We need c8s.” を”We need k8s.”にそれぞれ修正できるでしょうか?
Grammarlyでは、
“We need kubernetis.”を”We need kubernates.”に直すことができましたが、
“We need c8s.”の方は修正がかからずパスしてしまいました。
Gingerでは、
“We need kubernetis.”は”We need cabinets.”に修正され、
“We need c8s.”はそのままパスしました。
Lapis AIでは、
“We need kubernetis.”を”We need kubernates.”に修正することができ、
“We need c8s.”は”We need cos.”と修正されました。
IT分野の専門用語の認識でいうと、Gingerは認識率が悪く、Grammarlyは一般的な技術系の単語は認識できるが略称になると修正できず、Lapis AIは略語も修正するが修正先を間違うことがあると言えそうです。
Lapis AIでは今後も専門用語の認識に力を入れていきます。
海外からの顧客対応で用いる英文の場合
次に海外からの顧客対応のシーンを考えてみます。
「海外 発送 英語」でトップページに出てきた、Tabby Englishの記事によると、“No overseas shipping is available.”は、”Not all products are available for shipping internationally.”とした方がベターなようです。このように修正できるでしょうか?
残念ながら、3つのツールとも“No overseas shipping is available.”をパスしてしまいました。
Lapis AIではこのようなシーンでも英文を修正できるようにアップデートをかけていきたいと思います。
研究職の英文の場合
次に研究職の人が使う英語論文などに使われる英語を認識できるかを見ていきたいと思います。
「研究職 英語」で検索してトップページに出てきたDMM英会話の記事によると、
“I do research involving the production process of biopharmaceuticals.”が例文として取り上げられています。この”biopharmaceuticals”のミススペルである”bioparmaceuticals”を修正できるかを試します。
Grammarlyは”biopharmaceuticals”と修正することができました。
Gingerでは修正されませんでした。
Lapis AIでは”biopharmaceuticals”と修正することができました。
以上の結果から、ITのシーンでも見たように、Gingerは専門用語に特に弱いことが見て取れます。
昔使われていた英文校正ハック
英文校正をする際、昔に研究されていた方法は翻訳を英日、日英と2回行うというものでした。これは今でも有効で、Google TranslateやDeepLなどの翻訳ツールを使えば、英日、日英と英文を翻訳することで擬似的な英文校正として機能します。ただ、この方法は英文を大きく変えられてしまうのが欠点と言えます。また、この方が自然な表現になるといった方向に修正されるのではと期待されるかもしれませんが、試してみるとそうはならないケースが多いです。
英語学習にも英文校正ツールは有効
英語学習には様々な方法や教材がありますが、英文校正ツールは英語学習にも有効だと考えています。瞬時にサジェストで指摘してくれるツールを使っていると、同じミスをしないようになってくるはずです。英語上級者に合うツールと初心者に合うツールは今のところ違うという結果が出たので、自分に合ったツールを使って英語力自体を伸ばしていくのが賢い使い方かなと思います。
滅多に英文チェックを行わない場合はネイティブの校正もあり
また、昔ながらの方法としてネイティブによる校正も方法としてはありで、かなり大胆な修正を可能にします。この方法は時間とお金を必要としますが、滅多に英文校正しない場合はありだと思います。ただ、私の実体験では、ネイティブの校正が間違っていて、後で修正しなければいけないこともありましたので、完全に頼ってよいとは言えません。ですので私は良い英文校正会社に出会っていません。
金額感
プライシングについてまとめると
Lapis AIには無料プランがあり、有料プランは$5/月。
Grammarlyには無料プランがあり、有料プランは$12/月。
Gingerは利用無料。
となっております。
質の良い機械学習システムを作るために - Tips 1
質の良い機械学習システムを作る際、機械学習モデルの改善が欠かせません。
機械学習システムに限らず、良いシステムとは修正が容易なシステムだと考えていますが、特に機械学習システムの場合、パラメーターをいじる場合が多いと思います。
その場合、学習のためのモデル構築部分のスクリプトにパラメーターが散らばっている状況だと、パラメーターの状態が一目でわかりづらいという問題があります。
これを params.py などとして別ファイルに切り出すようにするだけで、パラメーターの改善がしやすくなるためおすすめです。
質の良い機械学習システムを作るために - Tips 2
ユニットテストを活用してテストドリブンにシステムを評価していくのもおすすめです。機械学習システムは行き当たりばったりの改善が行われることが多いですが、なるべく初めからpytestなどでユニットテストを用意して、何%パスしているのかを確認しながらモデルをアップデートしていくと行き当たりばったりの開発を避けられると思います。
まとめ
英文校正AIの比較を行いましたが、まとめると
英語中〜上級者に関してはLapis AIが唯一自然な表現をサジェストしてくれる。
英語初心者に関してもGrammarlyよりLapis AIの方が文法エラーを拾う可能性が高い。
専門用語を使う際にはGingerは使わない。
となるかと思います。
Lapis AIは2022年3月に正式リリースしたばかりのツールで、これからも日々改善していきます。
Discussion