- 英文の学習コーパスを機械翻訳したときの出力の確認
- LLMによる機械翻訳の性能を目視で簡易的に調査する
 検証データ
 検証モデル
 webbigdata/ALMA-7B-Ja-V2(2023)
https://huggingface.co/webbigdata/ALMA-7B-Ja-V2
- 英日翻訳を得意とするLLM
- ライセンス: LLaMa2
- 
A PARADIGM SHIFT IN MACHINE TRANSLATION: BOOSTING TRANSLATION PERFORMANCE OF LARGE LANGUAGE MODELS(arXiv,2023,Johns Hopkins University, Microsoft)で提案されたALMAという手法で学習されたニューラル翻訳モデル
 staka/fugumt-en-ja(2020)
https://huggingface.co/staka/fugumt-en-ja
- 英日翻訳を得意とする多言語翻訳モデル
- 
Marian-NMTを利用して作成
- 手法はTransformer + sentence piece
- データセットは作者が自前で構築
- 対訳ページをクロール
- 
Universal sentence encoderで文章をベクトル化しcosine類似度の高い文対を対訳とみなして220万対を収集
- 学習データは計660万対収集
 
- ライセンス: CC BY-SA 4.0
- 商用利用可能
- 改変可能
- 表示必要
- ライセンスの継承必要
 
 cyberagent/calm2-7b-chat(2023)
https://huggingface.co/cyberagent/calm2-7b-chat
 cyberagent/calm2-7b-chat-dpo-experimental(2024)
https://huggingface.co/cyberagent/calm2-7b-chat-dpo-experimental
- チャット用途に特化したLLMに、嗜好データセットを追加でLoRAチューニングしたモデル
 google翻訳
https://translate.google.co.jp/?hl=ja
 deepl翻訳
https://www.deepl.com/ja/translator?referrer=https%3A%2F%2Fwww.google.com%2F
 実験結果
 翻訳例
| 1.原文 | Provide a brief description of the given image. | 
| deepl翻訳 | 与えられた画像について簡単な説明をしてください。 | 
| google翻訳 | 指定された画像の簡単な説明を入力します。 | 
| fugu_mt | 与えられた画像の簡単な説明を提供します。 | 
| ALMA-7B-Ja-V2 | 与えられた画像についての簡単な説明をしてください。 | 
| calm2-7b-chat | 与えられた画像について簡潔な説明を提供してください。 | 
| calm2-7b-chat-dpo-experimental | 与えられた画像について短く描写してください。 | 
| 2.原文 | olive oil is a healthy ingredient used liberally . | 
| deepl翻訳 | オリーブオイルはたっぷりと使われる健康的な食材だ。 | 
| google翻訳 | オリーブオイルは健康に良い食材としてたっぷり使われています。 | 
| fugu_mt | オリーブオイルは、リベラルに使用する健康成分です。 | 
| ALMA-7B-Ja-V2 | オリーブオイルは、健康的な成分で、多用されている。 | 
| calm2-7b-chat | オリーブオイルはたくさん使われている健康的な成分です。 | 
| calm2-7b-chat-dpo-experimental | オリーブオイルは、豊富に使われる健康的な成分です。 | 
| 3.原文 | Write a terse but informative summary of the picture. | 
| deepl翻訳 | 写真について、簡潔だが有益な要約を書く。 | 
| google翻訳 | 画像の簡潔だが有益な要約を書きます。 | 
| fugu_mt | 写真の簡潔だが有益な要約を書きなさい。 | 
| ALMA-7B-Ja-V2 | 写真の概要を短くしつつ詳しく記載してください。 | 
| calm2-7b-chat | 画像について簡潔かつ正確な概要を作成してください。 | 
| calm2-7b-chat-dpo-experimental | 短いが詳細な概要を作成する。 | 
| 4.原文 | 3d vector deluxe alphabet of randomly rotated thin golden symbols . | 
| deepl翻訳 | ランダムに回転した薄い金色のシンボルの3Dベクターデラックスアルファベット 。 | 
| google翻訳 | ランダムに回転した薄い金色のシンボルの 3D ベクトル デラックス アルファベット。 | 
| fugu_mt | ランダムに回転した薄い黄金のシンボルの3dベクトルデラックスアルファベット。 | 
| ALMA-7B-Ja-V2 | 3Dベクトル デラックス アルファベット ランダムに回転する細い金色のシンボルで構成されています。 | 
| calm2-7b-chat | The 3D vector deluxe alphabet is a type of design that uses 3D vectors to create a unique and intricate alphabet. The vectors are randomly rotated, creating a sense of movement and depth in the design. The symbols used in the alphabet are often thin golden ones, giving the design a luxurious and elegant feel. | 
| calm2-7b-chat-dpo-experimental | 3Dベクトルデラックスアルファベット、ランダムに回転した金色の小さな記号の配列。 | 
| 5.原文 | Share a concise interpretation of the image provided. | 
| deepl翻訳 | 提供された画像の簡潔な解釈を共有する。 | 
| google翻訳 | 提供された画像の簡潔な解釈を共有します。 | 
| fugu_mt | 提供された画像の簡潔な解釈を共有します。 | 
| ALMA-7B-Ja-V2 | 画像の説明を短くして共有してください。 | 
| calm2-7b-chat | 提供されたイメージの簡潔な解釈を共有してください。 | 
| calm2-7b-chat-dpo-experimental | 提供された画像について簡潔な解釈を共有してください。 | 
| 6.原文 | weathering -- the physical & chemical breakdown of rocks . | 
| deepl翻訳 | 風化--岩石の物理的・化学的な分解. | 
| google翻訳 | 風化 - 岩石の物理的および化学的分解。 | 
| fugu_mt | 風化 --岩石の物理的および化学的破壊。 | 
| ALMA-7B-Ja-V2 | 酸化は、岩石の物理的・化学的崩壊を意味します。 | 
| calm2-7b-chat | ウェザリング - 岩の物理的な化学的分解 | 
| calm2-7b-chat-dpo-experimental | 天候変化 - 岩の物理的・化学的分解。 | 
| 7.原文 | Relay a brief, clear account of the picture shown. | 
| deepl翻訳 | 映し出された写真について、簡潔明瞭に説明しなさい。 | 
| google翻訳 | 示されている写真について、短く明確な説明を伝えます。 | 
| fugu_mt | 表示された写真の簡潔で明確なアカウントを中継します。 | 
| ALMA-7B-Ja-V2 | 映像の内容を簡潔してわかりやすく伝える。 | 
| calm2-7b-chat | 見せてくれた絵について短く明瞭な報告を伝えなさい。 | 
| calm2-7b-chat-dpo-experimental | 写出的有关情况简明清晰的介绍。 | 
| 8.原文 | fans interferes with # on a ball hit by # of sports team scoring runs in the eighth inning during game | 
| deepl翻訳 | 試合中、8回に得点したスポーツチームの#の打球をファンが#に妨害した。 | 
| google翻訳 | 試合中、8回に得点を記録したスポーツチームの数が打ったボールをファンが妨害した | 
| fugu_mt | ファンは、試合中に第8回イニングでスポーツチームのスコアリングランの#でヒットしたボールに#を干渉します | 
| calm2-7b-chat | 8th inning of the sports team scoring runs in the game. | 
| calm2-7b-chat-dpo-experimental | あるスポーツチームの選手が、8回表での得点につながるボールを打ち、そのボールが # を通過したのに対し、ファンたちが妨害行為を行った。 | 
| ALMA-7B-Ja-V2 | ファンがボールを攻撃した#の野球チームが得点した8回の攻撃中に#を妨害 | 
| 9.原文 | Render a clear and concise summary of the photo. | 
| deepl翻訳 | 写真の概要を明確かつ簡潔に説明する。 | 
| google翻訳 | 写真の明確かつ簡潔な要約をレンダリングします。 | 
| fugu_mt | 写真の明確で簡潔な要約をレンダリングします。 | 
| ALMA-7B-Ja-V2 | 写真の内容を明確で簡潔な形でまとめる。 | 
| calm2-7b-chat | 写真はクリアーで簡潔なサマリーを作成してください。 | 
| calm2-7b-chat-dpo-experimental | 写真を明確かつ簡潔に要約してください。 | 
| 10.原文 | train that takes you around the perimeter | 
| deepl翻訳 | 周遊列車 | 
| google翻訳 | 周囲を一周する電車 | 
| fugu_mt | 周囲を周回する列車は | 
| ALMA-7B-Ja-V2 | 周囲を走る電車 | 
| calm2-7b-chat | あなたが周囲を囲むための列車 | 
| calm2-7b-chat-dpo-experimental | あなたが周囲を回るためのトレイン\n\nこれは、周囲を囲むように運行する列車という意味です。 | 
 所感
- 主観でのランキング
- 
deepl翻訳>google翻訳>fugu_mt>=ALMA-7B-Ja-V2>calm2-7b-chat>calm2-7b-chat-dpo-experimental
 
- 
webbigdata/ALMA-7B-Ja-V2もstaka/fugumt-en-jaも、google翻訳とdeepl翻訳には劣る
- 
webbigdata/ALMA-7B-Ja-V2は単語レベルの訳から離れることが多く、文章全体の意味が通じれば良いという訳文を生成するように感じた。
- 
staka/fugumt-en-jaは、単語レベルで翻訳してくれるし、特殊文字の表記も崩さない事例が確認できたが、慣用句や熟語の訳が誤っている例が確認された。(例: clear acconunt)
- 
calm2系は応答文の制御が上手く行かないことが多かった。dpoモデルはそもそも用途が異なるため性能が低いわけではない。
 参考文献
 webbigdata/ALMA-7B-Ja-V2
 staka/fugumt-en-ja
 日本語のMachine Translationモデルの比較
 cyberagent/calm2-7b-chat
 cyberagent/calm2-7b-chat-dpo-experimental
Discussion