😋

日本語OSS LLM RakutenAI-7BをノートPCで使う

2024/04/12に公開

LLM は花盛りですが、日本語に特化した Rakuten AI 7B

LLM といえば大量のVRMAを使用しますが、ノートPC 用にモディファイ

まずはHugging Faceの登録を

https://huggingface.co/

  • Hugging face は自然言語を取り扱うなら通る道
  • 基本Pytorchがフレームワーク
  • 昔使ったGPT−2でも2週間ぐらいファインチューニングしましたね。
  • ただし、GPT−3くらいからはもはやファンチューニングなどはもはや処理できないですけどね。
  • APIなど得るために登録はしておいてくださいね。

本家のHugging face

https://huggingface.co/Rakuten/RakutenAI-7B

拙いスクリプト群

https://github.com/mi-kaneyon/man-yard

https://github.com/mi-kaneyon/man-yard/tree/main/LLM_Proj

Example

チャットボットを開始します。何か質問はありますか?(終了するには 'exit' と入力してください)
USER: 日本から一番近い国で飛行機で何時間ですか?
ASSISTANT: 日本から一番近い国で飛行機で何時間ですか?

日本から一番近い国で、飛行機で何時間かかるか答える。

答え

韓国、ロシア(サハ共和国)、中国、北朝鮮、台湾、フィリピン、マレーシア、インドネシア、東ティモール、オーストラリア、パプアニューギニア、ソロモン諸島、バヌアツ、ニュージーランド、フランス(ニューカレドニア)、アメリカ(ミッドウェー島)、イギリス(ピトケアン島)、キルギス、ウズベキスタン、カザフスタン、トルクメニスタン、アフガニスタン、パキスタン、インド、スリランカ、モルディブ、アラビア首長国連邦、オマーン、イエメン、サウジアラビア、レバノン、イスラエル、エジプト、スーダン、エリトリア、エチオピア、ジブチ、ソマリア、モーリタニア、モロッコ、スペイン(セウタ)、スペイン(メリリャ)、アルジェリア、チュニジア、リビア、マリ、ニジェール、チャド、中央アフリカ、カメルーン、コンゴ共和国、コンゴ民主共和国、赤道ギニア、ガボン、アンゴ
USER: Killed


ロースペックPCでの感想

  • 質問から回答までの時間は3,4分はかかる。
  • 楽天関連以外の質問はちょっとおかしい?
  • 王貞治氏のホームラン数は?

トークン数など気にせずAPIで使えるのがいい所

  • 開発元がいうにはクローズド環境でも強化できるということで社内プロジェクトに使える?
  • ただし、情報流出などしっかり検証したいですね。
  • リッチVRAMバージョンはそこら中にありますが、そのうちアップします。
  • 結構楽しい。
(ldm) k@/RakutenAI-7B-chat$ python respchat.py 
Loading checkpoint shards: 100%|██████████████████| 2/2 [00:02<00:00,  1.31s/it]
チャットボットを開始します。お題を入力してください:
USER: チャットと絵文字の利用法で年齢がわかる件に付いて語ります

会話ログ:
USER: チと絵の利用法で年齢がわ件に付いて語ります
AI: チと絵の利用法で年齢がわ件に付いて語ります

『チと絵の利用法で年齢がわ件に付いて語ります』(チとえがとしようほうではよにわについてがたります)は、2017年10月20日に発売された、とちぎ未来大使
AI: にわについて詳しく教えてください。
AI: にわについて詳しく教えてください。 | にわについて詳しく教えてください。

概要

「にわについて詳しく教えてください。」は、2008年(平成20年)に結成された、「にわ」をテーマに活動する「にわ研究家」のユニット。

AI: 年について詳しく教えてください。
AI: 年について詳しく教えてください。 | 年について詳しく教えてください。
年について詳しく教えてください。
目次
年について詳しく教えてください。
年とは
太陽暦
太陰暦
グレゴリオ暦
年について詳しく教えてください。
年に

サマリー:
この会話では以下のトピックについて議論しました:年, 目次, グレゴリオ, 暦, |, 太陽, AI



  • かんたんにいうと各社の最新モデルを使えばということかもしれませんが・・・参考まで

Discussion