M5Stack LLM 座談会#02 をNotebookLMでまとめてみた
初めに
NotebookLMがいろいろ捗るのでためしてみた。
サンプルとして先日実施したM5StaclLLM座談会#02というオンラインイベントを取り上げた。
@youtube
ソース
ソースにはyoutubeのアーカイブ動画、LT資料、youtubeアーカイブのチャット欄コメント、オンライン会場でのチャット欄コメントを使用した。
利用内容
イベントの分析
NotebookLMのチャット機能でいくつかの角度からイベントを分析してもらった。
⇒チャットテキストなど明確なエビデンスから分析してるので自分の感じた空気感とは異なる客観的な評価ができてる。ただしチャットのタイミングと動画のシーンを関連付けられてないと思われるので、「すごい」とか「888888888」とかテキストからだけでは意味が類推できない内容は分析に使えていない気がする。
まとめ動画作成
@GOROman さんに倣って、Studio機能で音声まとめ出力⇒Vrewで動画化。
5分で、って言っても13分になったり。時間しては効果無い模様。
Vrewの無料枠使い切ったけど、課金する価値十分あると思う。
学習ガイドとブリーフィング・ドキュメント
学習ガイドという機能を使うと、学習結果確認用の設問と答えが用意される。
職場の研修とかする時にいいのかもしれない。
ブリーフィング・ドキュメントは簡単なまとめ。
イベントの分析結果
M5Stack LLM 座談会 #02
M5Stack LLM座談会#02を中心に、ローカルLLM環境構築の試行錯誤が共有されています。 GOROMan氏のLLMCardputer製作、necobit氏のModule LLM活用、motoh氏のAIスタックチャン実装など、多岐にわたるプロジェクトが議論されています。AXERAチップのPulsar2ツールを用いたモデル変換や、Buildrootを用いたOSカスタマイズも取り上げられています。イベント参加者のチャットログからは、技術的な質問や活発な意見交換の様子が窺えます。
M5Stack LLM 座談会 #02 での中心的な技術的課題、進歩、将来的な方向性は何ですか?
M5Stack LLM座談会 #02における中心的な技術的課題、進歩、将来的な方向性は、以下の通りです。
•ローカルLLMの活用と性能向上:
◦M5Stack社が出したLLM用モジュールを使用し、ネットなしで手のひらの上で動くローカルLLMチャットコンピュータ「LLMCardputer」が紹介されています。
◦AXERA社のAX630Cチップを搭載したModule LLMを使用し、大規模言語モデルが利用可能になっています。ただし、大規模言語モデルの使用は難しいようです。
◦NPU(Neural Processing Unit)を活用してニューラルネットワークの処理を高速化しています。NPUでの推論はCPUでの推論に比べて80倍から180倍高速になることが示されています。
◦課題:LLMの反応でnullが出やすい、エラーコードが不明 。
ハードウェアとソフトウェアの融合:
◦M5CardputerとModule LLMを組み合わせたLLMCardputerの作成方法が紹介されています。
◦課題:Module LLM基板をケースに入れるために、ニッパーやカッターでケースを加工する必要がある 。超音波カッターの使用が推奨されています。
◦課題:IR LEDが外れるとCardputerの画面がずれる問題が発生する。
◦CardputerとLLM Moduleを接続するために、M-BUSピンからGROVEコネクタを生やす方法が提案されています。
•AIサービスの統合とカスタマイズ:
◦AI StackChan Exは、ChatGPTやModuleLLMなどのLLM、Google Cloud STTやModuleLLM ASRなどのSTT、VOICEVOXやModuleLLM TTSなどのTTSを組み合わせたAIサービスを利用可能です。
◦ChatGPTのFunction Callingやgpt-4oへのカメラ画像入力も可能です。
◦課題:ModuleLLM ASRとTTSは、現在は英語と中国語のみ対応。
◦課題:応答のテキストが細切れで返ってくるため、結合する必要がある。
•開発環境の整備と効率化:
◦UIFlow2やArduino IDEなどの開発環境が利用可能です。
◦StackFlowは、ネットワーク越しにLLMシリーズを利用するためのフレームワークとして紹介されています。
◦Pulsar2ツールが、onnxモデルをaxmodelに変換するために使用されています。
◦課題:AXDLツールがWindowsのみで利用可能。
◦課題:APIの仕様が不明確、応答がない、エラーが異なるなどの問題。
•コミュニティとエコシステムの拡大:
◦M5Stack LLMに関する情報共有や意見交換が活発に行われています。
◦LLM Moduleのアドベントカレンダーが作成され、多くの記事が集まりました。
◦ユーザーによる3Dプリント済みケースの提供や、公式の開発開始が示唆されています 。
これらの情報から、M5Stack LLM座談会 #02では、ローカルLLMの性能向上、ハードウェアとソフトウェアの融合、AIサービスの統合、開発環境の整備、そしてコミュニティの拡大が中心的なテーマであったと考えられます。
LTのどのあたりが盛り上がっていたか教えてください
LT(ライトニングトーク)で盛り上がっていた点について、複数の情報源から詳細をまとめました。
•LLMCardputer の登場:
◦M5CardputerとModule LLMの融合により誕生したLLMCardputer。
◦1分でわかるLLMCardputerの作り方。
◦ケースの加工:ニッパーやカッターを使ったケースの加工、超音波カッターの使用が推奨された。
◦はんだ付け:Cardputerとの接続。
◦プログラミング:サンプルコードのコピー&ペーストによる簡単なプログラミング。
•Module LLM の活用:
◦M5Stack LLMモジュールが、AIチップを開発しているアクセラ社の製品であることが紹介された。
◦NPUの利用による高速化。
◦課題:LLMの反応でnullが出やすい。
◦解決策:2、3回起動するか、デベロッパーブランチを使用。
•AI スタックチャンの実装:
◦Module LLMによるAIスタックチャンの実装。
◦AI StackChan Exの概要と使用例。
◦システム概要:M5StackのコアとModule LLMをUARTで接続した構成。
◦課題:ASR(自動音声認識)とTTS(テキスト音声合成)が英語と中国語にしか対応していない。
•技術的な問題解決とTips:
◦Module LLMの音声入力に関する問題。
◦16ビット量子化時に音声が半分になる現象とその解決策。
◦解決策:dwc_ssi.cの修正。
◦提案:24ビットまたは32ビットでの録音。
•AXERA 社:
◦M5Stack LLMモジュールの心臓部であるNPU付きのSOCを開発。
•その他 * M5Stack Core 2 への LLM Module の取り付けに関する情報交換。
*願望:メモリ8GBほしい。
- LLM630は割と売れたらしいから、工事設計認証版出ると期待。
- 注意:M.2 のNVMeと電源配置が違うので最悪燃える。
これらの情報から、LLMCardputerの作成、Module LLMの活用、AIスタックチャンの実装、技術的な問題解決、AXERA社への期待などが特に盛り上がっていた様子がうかがえます。
spatialchat会場とyoutubeで盛り上がるポイントに違いはありましたか
spatialchat会場とYouTubeで盛り上がるポイントには、いくつかの違いが見られました。
SpatialChat会場での盛り上がりポイント:
•技術的な課題:
◦LLM630に関する話題。
◦AXDL解析への関心。
◦microSDからのOS起動に関する議論。
◦Function Callingモデルの実行に関する話題。
•参加者間の交流とユーモア:
◦参加者同士がSpatialChatの機能を使い、距離に応じて聞こえ方が変わることを楽しんでいた。
◦チャットでのユーモラスなやり取りや、質問に対する大喜利的な回答が見られた。
◦"あなたは実は OpenAI ですよね?" という質問に対して、AIが「invalid UTF-8 byte」と答えてしまう場面など、予想外の反応が笑いを誘った。
•具体的なTipsや情報共有:
◦AXDLを動かした際のパケットキャプチャ情報。
◦main_prefillに関する情報。
◦mem_cmm_infoに関する情報共有。
•VLM(Vision Language Model)の実行デモに対する驚きと賞賛。
YouTubeでの盛り上がりポイント:
•発表内容への賞賛と共感:
◦LT(ライトニングトーク)での発表に対して、**「888888」などの拍手や賞賛のコメントが多数寄せられた。
◦発表内容への共感や、「入門向けありがたい」**といったコメントが見られた。
•技術的な詳細への関心:
◦IR LEDに関するコメント。
◦buildrootに関するコメント。
◦VLMに関するコメント。
•製品への関心:
◦M5Stack製品への関心を示すコメント。
相違点まとめ:
•SpatialChat:より技術的な議論や具体的な問題解決、参加者同士のインタラクティブな交流が中心。
•YouTube:発表内容への賞賛や共感、製品への関心など、より広範な視聴者に向けた反応が多かった。
全体的な傾向:
どちらの会場でも、技術的な内容への関心は高かったものの、SpatialChatではより専門的な議論が、YouTubeではより一般的な感想や賞賛が多かったという違いが見られました。また、SpatialChatでは参加者同士のインタラクションやユーモアが、盛り上がりに大きく貢献していました。
学習ガイド出力
M5Stack LLM 深掘り調査ガイド
1. 理解度確認クイズ (短い記述式、各2-3文)
質問:
・Axcela社の主な事業領域は何か?
・NPUとは何か?GPUとの違いを含めて説明せよ。
・エッジコンピューティングとエッジセンシングの違いについて、コストの観点から説明せよ。
・M5Stack LLMモジュールに搭載されているAxcela製チップの型番を挙げよ。
・M5Stack LLMにおける「ヌル」問題とは何か?
・ファンクションコーリングとは何か?M5Stack LLMにどのように応用できるか?
・パルサー2とは何か?
・M5Stack LLMの音源入力を使用する際に問題となる事象について述べよ。
・プロトペディアとは何か?
・M5Stack が提供している LLM 関連ツールで、GUI ベースで操作できるものは何か。
2. 解答キー
・Axcela社は主に監視カメラ向けのスマートビジョンプロセッシングと車載向けAIソリューションを提供している。将来的にはHAIやLLMにも注力し、市場拡大を目指している。
・NPUはニューラルネットワークの処理に特化したプロセッサであり、GPUよりも特定の用途に最適化されている。NPUは、AI推論に特化することで、GPUよりも電力効率が高い場合がある。
・エッジセンシングは安価で大量に設置されることを想定したデバイスであり、エッジコンピューティングはより高性能で高機能なデバイスを指す。コスト面では、エッジセンシングの方が低コストである。
・M5Stack LLMモジュールには、AX630CなどのAxcela製チップが搭載されている。
・M5Stack LLMにおける「ヌル」問題とは、チャット機能を使用する際に「ヌル」という応答が頻繁に返ってくる現象である。これはトークナイザーの読み込みに時間がかかっていることが原因である可能性がある。
・ファンクションコーリングとは、LLMが外部の関数やAPIを呼び出す機能のことである。M5Stack LLMにファンクションコーリングを実装することで、ローカルLLMだけでスマートホーム的な操作を実現できるようになる可能性がある。
・パルサー2は、ONNX形式の機械学習モデルをAxcelaチップのNPUで動作するように変換するためのツールである。量子化やコンパイルを行い、AXモデルという形式に変換する。
・M5Stack LLMの音源入力を使用する際には、16ビット量子化の際に音程が半分になるという問題がある。
・プロトペディアは、自作の作品を掲載・共有できるサービスプラットフォームである。
・M5Stack が提供している LLM 関連ツールで、GUI ベースで操作できるのは UIFlow 2 である。
3. 論述問題 (解答は含まず)
・M5Stack LLMモジュールの活用事例について、創造的なアイデアを3つ提案せよ。それぞれのアイデアについて、実現可能性や課題についても考察せよ。
・Axcela社のようなAIチップメーカーが、今後の組み込みAI市場で成功するために重要な要素は何か?技術的な優位性だけでなく、ビジネス戦略やエコシステム構築の観点からも論じよ。
・M5Stack LLMモジュールの登場は、エッジAI開発にどのような影響を与えるか?技術的なハードル、開発コスト、セキュリティなどの観点から考察せよ。
・ローカルLLMの利用は、プライバシー保護の観点からどのようなメリットがあるか?クラウドベースのLLMと比較して、具体的な事例を交えて説明せよ。
・M5Stack LLMのようなエッジAIデバイスの普及は、社会にどのような変化をもたらす可能性があるか?ポジティブな側面とネガティブな側面の両方を考慮して論じよ。
4. 用語集
LLM (Large Language Model): 大規模言語モデル。大量のテキストデータを学習した、自然言語処理に優れたAIモデル。
NPU (Neural Processing Unit): ニューラルネットワークの処理に特化したプロセッサ。
GPU (Graphics Processing Unit): 画像処理に特化したプロセッサだが、汎用的な計算にも利用される。
エッジコンピューティング: データ処理をクラウドではなく、デバイスに近い場所で行うこと。
エッジセンシング: センサーから得られたデータを、デバイス上でリアルタイムに処理する技術。
ONNX (Open Neural Network Exchange): 様々な機械学習フレームワークで構築されたモデルを共通の形式で表現するためのオープンな標準。
AXモデル: Axcela社製のNPUで動作するように最適化された機械学習モデルの形式。
パルサー2: ONNXモデルをAXモデルに変換するためのAxcela社のツール。
量子化: モデルのパラメータ(重みやバイアス)を、より少ないビット数で表現すること。モデルサイズを削減し、推論速度を向上させる。
ファンクションコーリング: LLMが外部の関数やAPIを呼び出す機能。
トークナイザー: テキストデータを単語や記号などの最小単位(トークン)に分割する処理。
UIFlow 2: M5Stackデバイス向けのGUIベースのプログラミング環境。
プロトペディア: 自作の作品を掲載・共有できるサービスプラットフォーム。
Alsa: Linux のサウンドカードドライバインタフェース。
リテック: 技術基準適合証明のこと。
ブリーフィング・ドキュメント
M5Stack LLM 座談会 #02 ブリーフィングドキュメント
全体のテーマ
この座談会では、M5Stack LLMで利用されているAXCELA社のAIチップに関する詳細な情報が議論されています。特に、チップの性能、用途、市場における位置づけ、そしてローカルLLMをデバイス上で動作させるための具体的な方法や課題が中心的なテーマです。
主要なアイデア・事実
AXCELA社のAIチップの用途と市場:
・主な用途は監視カメラのスマートビジョンプロセッシングであり、車載分野への応用も視野に入れています。
・GII(汎用人工知能)の市場は現状では大きくなく、エンベデッドAI、特にマイコンがAIチップに置き換わるような市場に注力しています。
・同社は中国のADAS市場でトップ2に入るほどの成長を遂げています。
"主な あの え あの 我々 の チップ の 使い道 は まあ 1番 は ま 監視 カメラ で ま スマート ビジョン プロセ シン グっ て 呼ん でる ところ です ね で ま もう 1 つ 大きな 今 軸 に なり つつ ある の が 車載 で"
NPU (Neural Network Processing Unit) について:
・GPUよりも用途が特化しており、ニューラルネットワーク専用のプロセッサです。
・AXCELA社のNPUは、サーバーで使われるようなハイパフォーマンスなものではありませんが、コストパフォーマンスに優れ、推論に十分な性能を持っています。
・NVIDIAのチップと比較して、電力効率が10倍という性能が出ているとのことです。
"npu っていう 言葉 が ま 最近 増え て き て は いる と 思う ん です けど ま 要 は あの ま GPU GPU より も さらに あの 使い道 が 特化 し て い て ま ニューラル ネットワーク 専用 の プロセッサー を ま npu って いう 風 に 呼ん で い ます ね"
ISP (Image Signal Processor) について:
・カメラ用のイメージプロセッシングプロセッサも重要な軸であり、従来の信号処理にAI処理を組み合わせています。
・ノイズリダクションが強みで、夜間でも明るく撮影できるような機能を提供しています。
"もう 1 つ の 大きな 軸 で ある ISP の 方 も あの 普通 の あの 従来 から ある 伝統 的 な 信号 処理 も もちろん やっ て いる ん です けど ま それ と その AI の あの 処理 を 組み合わせ て あの 例えば ま ま 1番 の 売り は やっぱり ノイズ リアクション で あの 夜 で も こんな に 明るく 取れ ます と か"
M5Stack LLM で利用されているチップ:
・M5Stack LLMには、AX6209とAX620/630シリーズが利用されています。
・より高性能なチップを求める声がある一方で、顧客はより安価なものを求めているため、コストダウンが課題となっています。
・高性能なAX650シリーズの後継機種は2026年Q2頃にリリース予定です。
"今 あの そう スタック あの M 5 スタック LM に あの 使わ れ てる の は ここ の あの 6209-212 npu と し て パフォーマンス が 高い やつ の シリーズ と えっと そう です ね あの シリーズ と ま エッジ センシング の シリーズ の 日本 建て で やっ て い て"
ローカルLLMの現状と課題:
・手軽にLLMを試せるデバイスですが、実用度はまだ高くありません。
・トークナイザーの問題や、リソースの制約など、解決すべき課題がいくつかあります。
"手 の ひら で チャット GPT の しょぼい やつ が 動く みたい な イメージ です あの 世間 一般 で は ローカル llm と いっ て やつ です ね 一応 チ 日本 語 で も チャット でき ます ね ま 正直 実用 度 ほぼ ない ん です けど ま ロマン は ある なっ て いう うん 手 の ひら で こう 動 くっ て いう の で"
Cardputerとの融合:
・CardputerとLLMモジュールを組み合わせて、より高度なローカルLLM環境を構築する試みが紹介されています。
・ハードウェアの改造、ハンダ付け、ソフトウェアプログラミングなど、DIY精神が必要とされます。
"今回 は カード あの ピューター と モジュール LM の 融合 です ね はい で LM カード フュ が 爆弾 し た げ です ね じゃ 今 から あの 1 分 で 分かる よう に 作り 方 を 説明 し たい と 思い ます"
ビルドルートの利用:
・AXCELAチップ搭載デバイス向けに、必要なソフトウェア環境を自動構築するツールです。
カーネル、ブートローダー、ライブラリなどを簡単にまとめ、イメージファイルを作成できます。
"ビルド ルート と いう の は 何 か と いう こと です と 説明 し ます と 組み込み 向け の リッス システム を 簡単 に 構築 する ため の ツール です ね はい カーネ と か ブート ローダー と か クロス コンパイラー と か ライブラリー と か ま いろんな もの を さっ と まとめ て え 焼き込み こと が できる イメージ ファイル 1 個 に ペロン と 出し て くれ よ と 非常 に 単純 な システム です"
音源の問題:
・音源が16bitでしか動かない問題がある。24bitまたは32bitに変更すれば解決する。
この問題はドライバのコードを修正してビルドすることで解決する可能性がある。
結論
M5Stack LLMは、エンベデッドAI市場において重要な役割を果たす可能性を秘めたデバイスです。AXCELA社のAIチップは、特に低消費電力で効率的な推論処理を実現できるため、様々なエッジデバイスへの応用が期待されます。しかし、ローカルLLMの実用化には、ソフトウェア、ハードウェア両面での改善が必要であり、コミュニティによる活発な開発と情報共有が不可欠です。
Discussion