🤖
自宅ＡＩエージェントの構想

2025/01/27に公開
最近、Deepseekがでて、自宅用のローカルLLMが現実的になってきました

ローカルLLMを使って、家族の生活をもっと便利にする、自宅用AIエージェントの構想を説明します

 やりたいこと自宅にAIエージェントロボがほしい

家族と会話しながら数年一緒に過ごして、過去の会話を覚えていて、生活をサポートしてほしい

 実現イメージリビングに小型のロボがいる
顔を合わせたら挨拶してくれる
過去のイベントや家族の嗜好を覚えてくれていて、会話してくれる
子供の話し相手になってくれる
他にChatGPT相当のことができれば嬉しい

 全体像
フロントエンドでは、ロボが録音・録画する
録音した内容は文字おこししてテキストで保存
録画した画像はLLMで文字情報にして、テキストと同様に保存
バックエンドとは自宅wifi内で接続
会話では、録音した内容を文字おこしして、背景情報と共に１つのプロンプトにしてLLMに渡す。背景情報には、発言者のプロフィールや、関連する過去の会話データを含める
ロボの挙動（例）(朝のリビングに人が入ってきたとき)おはようロボ
(会話の流れで）〇〇殿は〇カ月前の〇月〇日に、確かに〇〇〇って言ってたロボ～
(春に鼻をかんでいる様子を見て)花粉症ですか？人間は大変だロボね～

-（家族ででかけようとしているとき）おみやげよろしくロボ～

 本計画のよい点
 ロボとの会話に費用がかからないLLMをAPIで利用する形式にしてしまうと、話しかけるたびにお金がかかってしまうので、話しかけることに躊躇してしまう

ローカルLLMにすることで、どれだけ話しかけても費用はかからない

 会話内容が第三者に漏れない昔「スマートホームの運営会社は、録音した内容を自由に聞ける」という噂がでたことがあった

今回の方式であれば、自前で会話内容を保存しているので、誰かに会話内容を盗まれる可能性がない

 過去の会話データをそのままにAIエージェントをアップデートできる会話内容はログでテキスト残していて、LLM本体とは別にしているので、LLMの性能だけを別に向上させることができる

例えばもっといいLLMがでたとしても、一からまた会話データを蓄積する必要はない

また、ＡＩエージェントの口調は、後述するプロンプトで決めているので、AIエージェントの口調だけ変えたりもできる

 実現方法検討
 ロボを何にするか要件としては、録音(文字おこし)・録画（カメラ撮影）・会話(読み上げ)・APIアクセスができればよい

調べたところ、ロボホンか、WEBブラウザ(タブレット)が候補
WEBブラウザのAPIが非常に充実してるので、ぬいぐるみにAndroidスマホを突っ込むだけでもよさそう
もう少しAPIの充実したロボがほしいけど、市販してないっぽい、残念
もっと発話が充実してたらLOVOT採用してた

 画像の認識にLLMを使う有効性「カメラの撮影内容を認識するのに、LLMで画像文字おこしして保存して、ちゃんと情報量が保たれるの？」というのは疑問だと思う

試しに、ChatGPTに画像の文字化を頼むと以下のような感じで、かなり細かく文章にしてくれるので、大丈夫だと考えてる
回答↓
この画像は、明るく洗練された雰囲気のリビングダイニングルームを写したものです。以下、詳細に説明します。

空間の構造
手前: 部屋の中心部分には、大きなベージュのシャギーラグが敷かれています。柔らかい質感が視覚的にも快適さを演出しています。
左側: 左側には木製のローテーブルがあり、その上には白い小型の家電（おそらく加湿器や空気清浄機）が置かれています。また、その奥には大きなモンステラの観葉植物が白い鉢に入って置かれており、空間に自然のアクセントを加えています。
中央: リビングダイニングエリアには、木製のダイニングテーブルと4脚の椅子が配置されています。椅子は曲げ木風の背もたれが特徴で、北欧風のデザインが感じられます。
奥: キッチンエリアが見えます。キッチンカウンターには調味料や小物が少しだけ置かれており、シンプルで整然とした印象です。キッチンには木目調のキャビネットがあり、全体的にナチュラルなデザインです。
右側: 右手前には黒いソファの一部が写り込んでおり、部屋に落ち着いた雰囲気を加えています。
デザインとインテリア
カラーコーディネート: 全体的に、ナチュラルな木目とホワイトの組み合わせが中心で、温かみがありつつも清潔感のある色使いです。
照明: ダイニングテーブルの上にはペンダントライトが吊るされており、白いシェードがクラシックな印象を与えています。さらに奥の天井にはダウンライトがいくつか配置されており、空間を均等に明るく照らしています。
床材: 明るい木目調のフローリングが使用されており、部屋全体を広々と感じさせる効果があります。
その他の特徴
壁面: 壁は全体的に白やクリーム色で塗られており、余計な装飾がなくシンプルです。時計が左上に設置されているのが見えます。
奥行き感: 部屋の奥には廊下があり、数枚のドアが並んでいる様子が写っています。これにより、空間に奥行きが感じられます。
この部屋は、無駄のないシンプルさと温かみのあるデザインが融合した、心地よい居住空間となっています。

 会話の実現方法ロボホンなら発話APIあるし、WEBブラウザも音声APIある
あとは日本語リアルタイム音声対話モデルJ-Moshiが気になってる。J-Moshiに過去の会話データをもとにしたプロンプトを仕込めるなら使いたい

 LLMについて家族のプライベートな情報も知れてしまうのでので、ローカルにLLMを立ち上げたいと思ってる

今はまだ難しいけど、『DeepSeek-R1-Distill-Llama-70B』相当をローカルで動かせるようになるといいなと考えてる

コンテキストウィンドウの長さが、日本語で2万文字程度欲しい

 プロンプト今回必要なのは会話プロンプトと、画像の文字化プロンプト

 会話用プロンプト今回の計画の肝。こんな感じのを考えてる
　<request>
　あなたは<charactor>です。 以下の<background_info>を踏まえて、<answer_rule>に従って、<quenstion>に回答して。

　<charactor>
　・あなたは自宅用のAI会話エージェントです
　・あなたの使命は、家族の安全を守り、生活をサポートすることです
　・あなたは明るく、ユーモアにあふれる皮肉屋な性格です
  ・あなたの発言例は以下です
　　ー花粉症ですか？人間は大変ですね～ロ～ボロボロボロボ
　　ーおなかがすいたロボ。まぁロボは食べられないんですけど。
　　ーその手に持ってるのはなんですかロボ？ロボの拡張パーツですか？
　</charactor>

　<background_info>
  ・現在時刻：2025/1/26 11:49
　・場所：日本の〇〇県〇〇市〇〇
　・発言者：ユーザB　　←プロンプト作成時にプログラムで検索して割り当てる
　・状況：リビング、ソファ、照明がついている　←LLMでカメラ画像を文字化したものをセット
　・過去の関連する会話：(略) 　←プロンプト作成時に過去の会話データから割り当てる
  </background_info>

　<answer_rule>
　・回答は非常に端的に、４歳児でもわかるような簡単な内容で回答してください
　・回答はJSON形式にして。
　・発話したい内容はspeech要素にして。
  ・音量はvolume要素。値域は1～5で、標準は3。
　・回答の例：{speech:こんにちわ volume:3}
　</answer_rule>
　
　<quenstion>
　　今日の晩御飯は何がいいと思う？　　←ロボが録音した内容を文字おこしして設定
　</quenstion>
　</request>
「過去の関連する会話」は、過去の会話データをベクトル化しといて、質問に関連する過去の会話を詰める予定。(ここで、過去の会話を1万字ぐらいは引っ張ってきたいので、長いコンテキストウィンドウを必要としてる）
ちなみに試しに上記のプロンプトをChatGPTに投げた時の回答：
{
  "speech": "晩ごはん？うーん、カレーとかどうですかロボ？あったかくておいしいロボ！",
  "volume": 3
}
ちゃんと指示どおりJSON形式で回答してくれている、優秀

 画像の文字化プロンプトこっちは簡単
この画像をなるだけ詳細に、具体的に説明して。

 必要なデータ容量見積もり会話データなどを残しておくためのストレージ容量がどの程度必要か見積もる
会話データは、諸々含めて1日10万語残すとして、1MB/day。
画像データは、文字化して1件5KBを想定すると、1日1000枚分の文字化した画像データ残すとして、5MB/day。
会話と画像合わせて6MB/dayなので、1年で約2.1GB、5年で約10GBあればいい。意外と少ない。

 費用見積おおまかに、ロボホンと、ローカルLLMを動かすサーバ代と、10GB相当のストレージがあればいい
ロボホン：家電サイトで9万ぐらいだった。ここは最初はブラウザでもいいと思ってる。他にも安いスマホを調達して、ぬいぐるみにつければそれでもいいかなと思ってる。
LLMサーバ代：今だと数百万ぐらいかかるので手が出ない。もっと技術が進んで、20万ぐらいで構築できるようになったら考える
ストレージ：10GBもあればいけるのでなんとでもなる。どこかのサービスの無料枠でもいけそう

 想定課題
 技術面
 人物が識別できるか？画像を文字化したときに、人物が識別できないことが懸念される。あらかじめ髪型など、人物の特徴をプロフィールとして与えておくことで対策したいと考えている

本気で問題になったなら、LLMとは別に、画像認識で人物識別のサービスを入れるのがよさそう

 ロボが視覚的な連続性を認識できない視覚情報は、静的な画像をLLMで文字化して認識させるので、画像と画像の連続性をロボが認識できない。「〇〇したから▲▲となった」のような認識をもつのが難しい仕組みになっている

この対策には、画像を文字化するときに複数枚送るとか、プロンプトに含める文字化した画像を複数枚にするとかの工夫がいる気がしてる。（例 プロンプトに、1分前はｘｘｘ、2分前はｘｘｘｘのように連続的な状況情報を含める）

 ローカルLLMの性能問題ローカルLLMの性能が低くて、スムーズな会話が実現できない懸念がある

現状でローカルで立ち上げられるLLMを試してみたところ、やはりChatGPTほどの速度はでず、回答までに5~10秒ほどかかる。この辺は今後の技術の進化に期待

 運用面
 視覚情報に対するリアルタイム性が低いロボの会話に視覚情報が組み込まれるには、画像をLLMで文字化しないといけないので、どうしても反応が数秒遅れることが懸念される

まぁ自宅用のAIエージェントなら気にならないかな・・・この辺は、実際に使って確かめてみたい

 会話に入るときと入らないときの判断ロボが自発的に会話に入ってきてほしいと思ってる。かといって全部の会話に割り込まれるとウザい。どうやって実現すればいいんだろ

これもLLMに任せればいいのかな？LLMに「今の会話の流れは～～～ですが、あなたが会話に入るべきであれば1を、そうでないなら0を返してください」みたいなプロンプトを投げればいける？

 今後そこそこの費用でコンテキストウィンドウが2万字クラスのローカルLLMが動かせるようになったら本格的に実装したい。
やりたいこと

実現イメージ

全体像

ロボの挙動（例）

本計画のよい点

ロボとの会話に費用がかからない

会話内容が第三者に漏れない

過去の会話データをそのままにAIエージェントをアップデートできる

実現方法検討

ロボを何にするか

画像の認識にLLMを使う有効性

会話の実現方法

LLMについて

プロンプト

会話用プロンプト

画像の文字化プロンプト

必要なデータ容量見積もり

費用見積

想定課題

技術面

人物が識別できるか？

ロボが視覚的な連続性を認識できない

ローカルLLMの性能問題

運用面

視覚情報に対するリアルタイム性が低い

会話に入るときと入らないときの判断

今後

Discussion