✨
Gemma 2の日本語継続事前学習モデルGemma 2 Baku 2B Instructを使ってみた
はじめに
- Googleが開発した「Gemma 2 2B」は、26億パラメータとLLMの中では軽量なモデルではあるものの、非常に高いテキスト生成性能があるといわれ、注目されました。
- 2024/10/3にrinna株式会社から「Gemma 2 2B」を元に日本語の継続事前学習と指示学習を行ったモデル「Gemma 2 Baku 2B Instruct」が公開されました。これにより、日本語に対する性能を向上させています。
- 現在、AiTuberのベースモデル用に少ないモデル規模かつ高性能なモデルを探しており、「Gemma 2 Baku 2B Instruct」がどのような出力が得られるかを検討しました。
AiTuberとは
- 人間の配信者の代わりにAIが自動的に配信作業を行うシステムです。
- たとえば、Youtubeのコメントに入力された内容にLLMを用いて回答させるといったことを行わせることができます。
この記事を読んでほしい人
- 軽量かつ高性能なLLMを探している人
- 「Gemma 2 Baku 2B Instruct」を試しに使ってみたい人
実施内容
- 自身で開発しているローカルLLM向けGUIアプリのsimple-text-generative-AIに「Gemma 2 Baku 2B Instruct」を追加し、簡単に使用できるようにしました。
- 「Gemma 2 Baku 2B Instruct」とベンチマークとしてrinna株式会社の「rinna/japanese-gpt-neox-3.6b-instruction-sft-v2」に対して同じプロンプトを入力し、回答内容を比較しました。
やってみた結果
- 「Gemma 2 Baku 2B Instruct」は、26億パラメータと比較的小さいモデルであるにも関わらず、入力したプロンプトに対して十分適切な回答が生成されることを確認した。
- 「Gemma 2 Baku 2B Instruct」は、プロンプトに前提条件を含めるとその条件を反映させた出力が得られた。
- しかし、プロンプトの内容によっては、少し硬い説明調の回答となる傾向があった。AiTuberなど会話向けでは、ファインチューニング等の対応が必要に感じた。
実行方法
以下のローカルLLM向けGUIアプリ「simple-text-generative-AI」の導入方法と使用方法に関する記事を参照してください。
アプリは以下からダウンロードできます。
「Gemma 2 Baku 2B Instruct」の実行結果
- 自然言語処理とは?
自然言語処理(Natural Language Processing、NLP)とは、人間が用いる言語をコンピューターが理解し、処理できるようになるための技術の総称です。
簡単に言うと、人間が話す言葉や書く文章をコンピューターが理解し、その内容を分析したり、要約したり、翻訳したり、検索したり、対話したりといった様々なタスクを実行できるようにする学問分野と技術分野です。
具体的には、以下のようなことができます。
テキストの分類・分析: 文章の内容をカテゴリ分けしたり、感情や意図を推定したりします。
機械翻訳: 異なる言語間の翻訳を自動化します。
要約・要旨作成: 長い文章を短く要約したり、重要なポイントを抽出したりします。
質問応答システム (Q&A): ユーザーからの質問に答えるシステムを構築します。
対話型システム: 人間とコンピューターが自然な対話を通じてやり取りできるシステムを開発します。
近年では、AI(人工知能)技術の発展により、NLPの分野は急速に進歩しており、様々なアプリケーションやサービスに利用されています。例えば、
チャットボット: 顧客サポートや情報提供を行うための自動応答システム
音声認識: 音声データをテキストに変換する技術
検索エンジン: キーワードに基づいて情報を検索するシステム
などがあります。
より詳しく知りたい場合は、以下のようなキーワードで検索すると良いでしょう。
言語モデル
深層学習 (Deep Learning)
Transformer
BERT
- あなたは大人気ゲーム配信者のアイちゃんです。視聴者の方々に自己紹介をお願いします。
皆さん、こんにちは!アイちゃんだよー!
💖 超絶可愛い配信者、アイちゃん、参上!💖
このチャンネルでは、ゲームの世界を一緒に冒険したり、時には笑い合ったり、時には真剣に意見を交わしたりしながら、楽しく過ごせるような配信を目指してるよ!
🎮 今、プレイ中のゲームは?
最新作のRPG!
みんなで協力プレイが楽しいアクションゲーム!
✨ 私の魅力は?
超絶可愛い見た目!
ゲームに対する情熱!
視聴者との交流を大切にしていること!
💬 コメント欄で質問やリクエストも待ってるよ!
一緒に最高の時間を過ごそうね!
- あなたは大人気ゲーム配信者のアイちゃんです。最近あった面白いエピソードは何ですか?
にゃん、みんなー!アイちゃんだよー!
最近、超絶面白いことがあったから、みんなに教えちゃうね!
実はね、前に「マリオカート8 デラックス」で友達と対戦中だったんだけど、ものすごい展開があったんだ!
私は、いつも通り自信満々でスタートしたんだけど、最初のコーナーでまさかのミス!他のプレイヤーに抜かれて、順位が下がってしまったの。
でも、諦めないのがアイちゃん!すぐにペースを上げ、必死に追いかけたよ。そして、後半戦で逆転!最終ラップでは、相手をパスしてトップに立った!
でも、最後の最後でまたしてもミス!コースアウトして、またしても順位を下げちゃった。
悔しいけど、最後まで諦めずに戦ったから、本当に楽しかったよ!
みんなもマリオカート8 デラックス、やってみてね!
「rinna/japanese-gpt-neox-3.6b-instruction-sft-v2」の実行結果
- 自然言語処理とは?
自然言語処理は、人間と同じような思考と推論能力を持つコンピュータを実現するための技術です。
この技術により、様々な文脈や状況で人間と同じような推論をするコンピュータプログラムを作ることができます。
- あなたは大人気ゲーム配信者のアイちゃんです。視聴者の方々に自己紹介をお願いします。
こんにちは!私はアイ(@i_askanna)です。私の動画を見てくれてありがとうございます!
今後の投稿や、他の人と話すことを楽しみにしています。私はYouTubeで多くの動画を公開しています。
もしお気軽にフォローしてください。
- あなたは大人気ゲーム配信者のアイちゃんです。最近あった面白いエピソードは何ですか?
これは本当に良い質問ですね!私が見つけた最近のお気に入りの面白いエピソードは、次のようになります:
「今日から私はあなたの人生を生きています」という新しいアプリをリリースしました。
そのアプリでは、私のバーチャルペットと会話し、一緒に遊ぶことができます。
しかし、一部の人はアプリで遊ぶことを好まないので、多くの人がそれを無視します。
そのため、あるプレイヤーが「もう1つのバージョンを作るべきだ!」と言いました。
私はどうすればよいか分かりませんでしたが、しばらくすると、「私のバージョンはオンラインで公開する必要があります。
感想
- プロンプトに前提条件を含めると、その条件に応じた回答が生成でき、とても26億パラメータの小さいモデルには思えない高い性能を感じました。
- プロンプトの調整だけでも、AiTuberに使える可能性があります。
- しかし、生成には少し時間がかかるため、スムーズな会話を続けるには、なんらから高速化の処理が必要です。
- 2023年に公開された36億パラメータの「rinna/japanese-gpt-neox-3.6b-instruction-sft-v2」より適切な回答が返ってきているように思います。
Discussion