🤖

LLMの取り巻く環境について+AI活用関するメモ

2024/09/22に公開

LLM が取り巻く環境について調査して、思ったことのメモ

LLM の利用状況に関して

現在、LLM(大規模言語モデル)の活用方法として、次のようなアプローチがあるかなぁっと思ってます。

  1. 一般ユーザー向けのサービスを利用(OpenAI, Claude3, Copilot など)
    → 大手の LLM プロバイダーが提供する Web サービスやツールをそのまま使う方法。すぐに使えて設定も簡単。

  2. 自作の WebGUI + LLM チューニング + 大手 LLM の API 利用
    → 自分で Web インターフェースを開発し、背後で OpenAI や Anthropic の API を使う形。柔軟性が高いが、技術的なスキルが必要。

  3. Dify や LangChain などの LLM 統合プラットフォームを利用 + 大手 LLM の API 利用
    → LLM マネージャーを使って、大手 LLM の API を簡単に呼び出し、より複雑なワークフローを管理する方法。

  4. Dify や LangChain などの LLM 統合プラットフォームを利用 + ローカル LLM をホスティング
    → 大手の外部 API を使わず、ローカルで LLM をホスティングし、自由に管理する方法。コストを抑えつつデータプライバシーを確保。

  5. 自作の WebGUI + ローカル LLM ホスティング
    → Web インターフェースも LLM も全て自前で運用。最大限の自由度とプライバシーを確保できるが、管理の難易度は高い。

以下、各項目に関して、思うことのメモ

一般ユーザー向けのサービスを利用

これに関しては、もうみんな使っていると思うので、そこまで触れることはないです。強いて言うなら、ここの活用が一番進んでいる気がします。

自作の WebGUI + LLM チューニング + 大手 LLM の API 利用

リテラシーが高い人たちはもうここに取り組んでいるという印象です。ただ、成果がイマイチ出せてないと印象も持っています。
個人的には思うこととしては

  • RAG 活用が難しい

    • RAG をやるためには 2 つの壁を越えなければならないなぁっと思っています。1 つ目はドキュメントの整備、2 つ目は検索エンジンの用意。この壁を乗り越えれたら、RAG ができるようになりますが、この 1 と 2 のサイクルを回せるような企業がほとんどいないのでは?というのが所管。あと単純に費用対効果が出ないようにも思える。
  • 経済的に難しい

    • API 安くないです。一回あたりしっかり課金されるため、収益化がうまくいかず、やめてしまうような印象を受けます。この手の個人開発者は、請求に怯えながら、開発している印象があります。

自分が思うこととしては、PoC に関しては、いきなりここに着手するよりも、3 を経由する方が PDCA サイクルが回しやすいのでは?という印象を持っています。

Dify や LangChain などの LLM 統合プラットフォームを利用 + 大手 LLM の API 利用

https://dify.ai/jp

Dify は最近触ってみたのですが、これなかなかやりますねぇという感じです。触ったことない人は、雑にログインして、雑にぽちぽちしてみるといいと思います。

月 200 メッセージという制限はあるものの、アプリ公開は即できるので、一旦外部に公開してかまわない情報だけをぶち込んで PoC をやってみるのが良いのかと思いました。
その後は Dify を git で clone して、社内ネットワークのみの活用するなり、EC2 でデプロイするなどして、さらに本格的に活用していけばいいのかなぁっと思いました。

前にもちょっと触れていますが、LLM 活用に関しては PDCA をクルクル回す必要があるにもかかわらず、一回目の Plan、Do までのリードタイムが長すぎて、一回の DO で「なんか微妙だなぁ」となって、なんとなく下火になる印象を持っているので、RAG 活用やろう!となった場合、次の日には、最初のプロダクトを Dify でデプロイしているぐらいの温度感がないと難しいのかなぁと思っています。

別に Dify でなくてもいいです。Bedrock のナレッジデータベスでもなんでも良いですが、自分がここで指摘したいのは、
「一般ユーザー向けのサービスを利用」を利用して、「LLM ええやん!」ってなった人たちが、「自作の WebGUI + LLM チューニング + 大手 LLM の API 利用」をやろうとして、Plan、Do までのリードタイムが長すぎて、結果が微妙で、「LLM 活用って難しいやなぁ」ってなるパターンが多いのでは?っと思っています。もしそうだとしたら、「一般ユーザー向けのサービスを利用」を利用後、ええやんってなった場合は「Dify みたいな UI カチカチサービス」を利用して、LLM 活用自体の PDCA サイクルを回すべきなのでは?という指摘ですね。このLLM 活用自体の PDCA サイクルが軽視されているように思えていて、「API 叩いて、自社サービスに組み込んだらなんかいい感じになるやろ!」という粒度で始めるパターン多すぎないか?っというのが今回思ったところです。

あくまでも個人の感覚で、自分の知らないところでもうすげー LLM 活用ができているところもあるかもしれないので、そうだった場合はすいません。

Dify や LangChain などの LLM 統合プラットフォームを利用 + ローカル LLM をホスティング

ローカル LLM って知らぬ間に日進月歩しているなぁっと思っていまして、

https://ollama.com/

というアプリが登場してます。これ本当にすごくて、これをインストールするだけで、簡単に local LLM が動きます。

https://zenn.dev/michy/articles/1dfddbcf88c80e

上記の Dify と組み合わせることにより、大手の LLM API なんて叩かなくても、かなり楽にローカル LLM アプリを開発する時代が来ました。これは革命だと思います。

ただ、自分も少し phi3.5 を試しましたが、gpt4 とかに慣れている人であれば、「あぁ、ちょっとまだ実用は難しいんだなぁ」っと思うかもしれないです。というか私は思いました。しかしながら、ここまで簡単にローカル LLM を動かせるのは本当にすごいと思うので、チャックすべき情報かと思いました。

あくまでも、大手の LLM API であっても、情報を出すわけにはいかない人向けな印象です。

自作の WebGUI + ローカル LLM ホスティング

自分は正直ここを目指していますが、なかなか難しいようですね。
壁としては、

  • LLM 活用自体の PDCA サイクルを回せていない
  • ローカル LLM の性能がまだ物足りない

といったところですね。

そもそも AI 活用ってどうなってんの?

LLM をはじめ、AI 活用に関してはまだまだ難しいと思っています。
現在、社会実装できているのは、

  • 顔認識
  • ベクトル検索
  • レコメンドエンジン
  • 画像識別
  • LLM Chat

ぐらいでは?と言うのが自分の認識です。
つまり、これ以外のタスクにトライしようとするのは、基本的には無理筋な気がします。
なので、かなり腰を据えてトライする必要があるのでは?と思っています。

画像生成はかなり進んでますが、活用するにあたってはまだまだ限定的で細かな制御はできない印象です。
LLM の RAG に関しては、社内ドキュメント整備と検索エンジン構築が終わった組織から、少しづつ生産性が伸びていくのでは?という印象です。

議事録に関しては、かなりの高難易度タスクなので、ブレイクスルーを待ってから取り掛かるのが良いと思ってます。

自分の当たり障りのない AI 活用の結論としては、

  • 「こんなブルシットジョブしたくない、こんな作業、自分のキャリアに一ミリも貢献しない、文字通りブルシットジョブだわ」という仕事、というか仕事の中の一部作業をヒアリングして、切り出して、上記の既に活用されている技術をいい感じに利用して解決でいないか模索する(多分ラベリング系、識別系、異常検知系が良い?)

  • 社内ドキュメントを整備して、優秀な RAG システムを少しづつ構築する努力をする

以外は基本的には厳しい戦いになるのでは?と言うのが 2024 年 9 月段階の結論になります。

AI 活用ツール作ったからといって、みんなが使ってくれるかは全くの別問題なので、あくまでも「AI 活用ツールを作る」のは手段であって、目的ではないことに注意しましょう(自分に言ってる)。

GitHubで編集を提案

Discussion