👋

ローカルLLM向けのGUIアプリを作成した 2【会話編】

2024/01/28に公開

はじめに

この記事では、simple-text-generative-AIの概要と導入方法をまとめています。

以降では、simple-text-generative-AIの使い方としてモデルの読み込みと会話までの流れを説明します。

モデル設定のUIの全体画面は以下の通りです。基本的には、プルダウンやチェックボックス、ボタンに記載されている番号順に操作を行うとモデルの設定ができます。

使用するモデルのグループを選択します。今回は、試しに"line-corporation-instruction-model"を選択します。モデルによって適切なプロンプトが異なるため、この操作で自動的に決まります。

このプルダウンを設定した理由

ローカルLLMは、現在様々な企業や組織が開発し、公開しています。simple-text-generative-AIに登録しているモデルの数が多くなると、選択時のプルダウンが長くなります。そこで、モデルの整理を行うため、一旦このプルダウンを設定しました。モデルの検索機能のようなものです。

使用するモデルを選択します。
使用したい具体的なモデルを選択します。今回は、"line-corporation/japanese-large-lm-1.7b-instruction-sft"を選択しました。1で設定したグループに含まれるモデルのみがプルダウンで表示されるようにしています。

"line-corporation/japanese-large-lm-1.7b-instruction-sft"とは

LINEヤフー株式会社（元LINE株式会社）が作成した日本語に特化したローカルLLMです。
パラメータ数は1.7億パラメータであり、比較的小規模なモデルになります。パラメータ数が少ないため、必要なGPUメモリは少ないですが、生成精度があまり高くありません。
Instruction Supervised Fine-Tuning（指示文付きの教師あり学習）を行ったものであり、入力された質問に対する回答を生成できます。

使用するプロセッサを選択します。文章の生成をGPUもしくはCPUの両方もしくはどちらかを使用するか設定します。今回は、"auto"を選択しました。特別な理由がない場合は、"auto"の使用を推奨します。
チェックボックスに表示される項目は、使用しているPCの環境に応じて自動的に設定されるようにしています。

"auto"とはどのような機能?

GPUとCPUのどちらを使うべきか?

OSと使用できるプロセッサの関係

モデルをロードする際のビットサイズを選択します。今回は、float32を選択しました。使用するPCのメモリに余裕があれば、float32で良いですが、足りない場合は、bfloat16や8bit量子化を選択します。
全ての選択を行った後、モデルデータの送信ボタン(5. submit model data)をクリックし、設定を読み込ませます。初めてのモデルを使用する場合は、ダウンロードが行われるため、読み込みまでに時間がかかります。進捗は、ターミナルの方を確認してください。
右のテキストボックスに、ログとしてモデルの情報が表示されます。"Model loading is complete. Let's start a conversation."が表示され、モデルの読み込みが完了するまで待ちます。以下の画面は、読み込み完了後の状態です。
モデルの読み込みが完了しました。