OSS版Deep researchをローカルで動かしてみた!
はじめに
最近時deep researchというワードを聞きませんか?
これはopenAIが言い始めたサービスの総称で、AIエージェントの仕組みを活用したメカニズムになっております。今回は、OSSを活用してテストしてみたいと思います。
環境
HPワークステーション
Windows OS
Python3.11.0
AzureOpenAI GPT4oでテスト
AIエージェントというトレンド
LangchainのOpenDeepReseachのOSS(gihubはこちら)を今回は活用しました。OSSも2024年末から一気に流行りましたね、LLMだけでなくAIエージェントのOSSも出てきました。
Langchain以外ですと、HuggingfaceやManusも有名ですよね。今回のLangchainはHuggingfaceやManusとは異なり、どちらかというと検索に特化したAIエージェントと言えるでしょう。
ちなみに、2025年のトップトレンドテクノロジーと巷では言われています。注目して損はないでしょう。
OpenDeepResearchのメカニズム
- アーキテクチャ概要
- アーキテクチャ詳細
ざっくりワークフロー的には、
①ユーザーがトピックを与える
②プランニングモジュールがトピックを要素に分解し、レポートの骨格を作る
③ユーザーがそのレポートの骨格の承認もしくはリクエストを行う
④②レポートの結果を承認状況に応じてユーザーへ再度提示する
⑤②の結果を元に検索モジュールが、各要素ごとにクエリーを生成し検索を行う
⑥検索結果を元にライディングモジュールがレポートの生成を行う
⑦⑥までのループを何回か行い、最終レポートとする
ざっくり上記のような仕組みです。
人間が今までやってた作業をまさにやっているのやうな仕組みですね。シンプルながらよくできています。
従来RAGとの比較
検索特化型AIエージェントということで、従来のRAGと比較してみましょう。RAGも広義の意味ではAIエージェントと言えるかもしれませんが、あえて比較してみます。
1. 検索の主体の違い
RAGとDeep researchの大きな違いは、やはりユーザー主体で検索するのか、AI主体で検索で検索するのか?という点でしょう。クエリーをいちいちユーザーが考える必要がありません。
したがって、ユーザーが特定の分野について深く知らない情報も知ることができる可能性があります。
2. 2つ以上の要素を含む質問に対する回答
技術的に優れている箇所はそれ以外にもあります。RAGはユーザーの質問を基本的にはそのままベクトル化しデータベースとのマッチングを行うのですが、ユーザーの質問が同時に2つの要素を含んでいた場合には、一気に検索の精度が落ちてしまう点が挙げられます。一方で、Deepreseachについては、プランニングモジュールで要素を分解してくれるため、質問内容が2つの要素を含んでいた場合に関しても回答が可能になります。結果的に、Deepresearchについては、ユーザーが検索クエリーを正確に知らなかったとしても、得たい回答を得られる可能性があります。
3. リアルタイム性
調査したい内容がリアルタイム性を要求する場合に関してもDeepresearchの方が優れています。RAGの場合は、あらかじめ準備されたコーパス(いわゆるインデックス)が必要になるので、今すぐというリアルタイム性にはどうしても欠けます。一方で、準備されたコーパスが不要なDeepresearchはリアルタイム性に強くなります。
テスト結果
OSSを活用し、DukDucGoのAPIを叩いて、レポート結果を見てみます。今回は検索したいだけなので、人間による承認(=リフレクトモジュール)は飛ばしています。
👇が結果ですが結構いい感じです!
※検索の深さはAPIレートリミットを下げるために1度のみにしてます。
Deepseekの最新技術
DeepSeekの技術に関するこの報告では、主にDeepSeek-AIの背景とその位置づけ、最新のDeepSeek-V3の特徴、そして米国AI市場への影響について考察します。DeepSeekは、AI産業における急速な技術進化を背景に、競争力を強化し続ける企業であり、AI開発をより経済的に実現する革新的な技術を提供しています。特にDeepSeek-V3は、コスト効率の高さと高性能を両立させることができるモデルとして注目されています。この報告は、AI市場の多様性を促進し、技術革新のペースを加速させるDeepSeekの役割を探求します。
DeepSeek-AIとその背景
DeepSeekは、AI業界における急速な変化を象徴する存在として注目されています。同社は、AI技術の進化に伴い、新しいソリューションや市場の動向、そして競争環境を深く理解する必要があることを示しています。AIのトレーニングコストが低下する中で、DeepSeekは競争力を強化し、業界内での地位を確立しています。これにより、AI市場における革新の一翼を担い、多くの企業がDeepSeekの技術を活用し始めています。
DeepSeekは、競合他社と比較して多様性とエッジコンピューティング能力、倫理的なAIの実践を組み合わせたユニークなプラットフォームを提供しています。OpenAIやGoogle AI、Microsoft Azure AIほどのブランド認知度はまだないものの、事業者や開発者にとってアクセスしやすく革新的な選択肢として強い存在感を示しています。これにより、AI技術の発展を加速させるだけでなく、AIを活用した新たなビジネスモデルの構築にも寄与しています[1]。
DeepSeekは、2024年末にリリースされたVersion 3 'classic' LLMでAI開発者の注目を集めました。このモデルは、数学、コンピュータコーディング、テキスト理解の標準的な性能ベンチマークで良好なスコアを記録し、多方面での評価を得ています[2]。
Sources
[1] DeepSeek AI vs. Competitors: Which AI Platform Comes Out on Top?: URL [2] How DeepSeek has changed artificial intelligence and what it means for ...: URL
DeepSeek-V3の特徴
DeepSeek-V3は、AI開発における経済性を飛躍的に向上させる技術革新を実現しています。このプラットフォームは、他の米国競合企業と比較してコスト効率が高く、先進的な性能を提供しています。独自のモデルアーキテクチャによって、従来のAI開発と比較して大幅なコスト削減を実現しつつ、高い性能を維持しています。インフラストラクチャへの支出は約10億ドルと見積もられており、これはAI開発における大きなブレークスルーとされています[1]。
さらに、DeepSeek-V3の性能は、特に機械学習の効率性と精度の面で卓越しており、これが市場での競争力を高めています。このような技術革新により、DeepSeekはAI分野でのリーダーシップを強化し続けています。DeepSeek V3は、既存のソリューションを大幅に下回る価格設定で、エンタープライズグレードのAIを提供することにより、AIのアクセス性を根本的に変革しています。
Sources
[1] DeepSeek V3 API: The Most Cost-Effective AI Solution on the Market: URL
米国AI市場への影響
DeepSeek-V3は、AI業界で注目を集めている革新的な技術を持つモデルです。特にその開発プロセスは、通常非常に高額なAIモデルのトレーニングを、スタートアップの予算内で実現した点で特筆すべきです。この技術的進歩により、米国AI市場における競争が激化しています。小規模な企業でも高性能なAIモデルを開発できるようになり、AI市場への新規参入が容易になりました。これにより、市場の多様性が増し、革新のペースが加速しています。[1]
Sources
[1] DeepSeek's Technological Innovations: URL
結論
DeepSeekの最新技術は、AI分野における顕著な進歩を示しています。DeepSeek-AIは、多様性とエッジコンピューティング能力を持つプラットフォームを提供しており、Version 3 'classic' LLMのリリースを通じて、AI開発者から高い評価を得ています。DeepSeek-V3は、コスト効率の高いAIソリューションとして、競争激化する米国AI市場でのリーダーシップを強化しています。これにより、スタートアップ企業でも高性能なAIモデルの開発が可能となり、市場への新規参入が容易になりました。これらの要素を基に、DeepSeekはAI技術のさらなる革新と市場の多様性を推進しており、企業や開発者にとっての価値を提供し続けています。
次のステップとして、DeepSeekは更なる技術革新を目指し、AI市場での地位を一層強固なものとすることが期待されます。
もうちょっと詳細を見てみましょう
①プランニングモジュール
まさに、ユーザーが与えたトピックに対し、要素ごとに分解していることがわかります。
②検索モジュール&ライティングモジュール
要素に対し、検索した結果を整理しています。
③まとめモジュール
結論を書くモジュールなどがすべての結果をマージし、レポートにします。
追加テスト
そのほかにAPIだけでなくRSSなども追加して、本日@4/1のAIニュースについても調査してみます。
こちらもいい感じです👇。毎日調べるのが楽になります。このまま使えそうです。
4/1のニュース
4月1日のニュースは、AI技術の進化とその応用に焦点を当てています。Apple Intelligenceの日本での導入は、オンデバイスAIの利便性を最大限に活用し、ユーザーに新たな価値を提供することを目指しています。また、生成AIのビジネスシーンでの活用事例として、サイバーエージェントの取り組みが紹介され、AIが業務効率化にどのように貢献しているかが示されています。さらに、AmazonやOpenAIによる最新のAIモデルの発表は、AI技術の進化を加速させ、画像生成AIの進化も新たな基準を打ち立てています。これらのニュースは、AIが私たちの生活やビジネスにどのように影響を与えるかを考察するための重要な情報を提供します。
Apple Intelligenceの概要
Apple Intelligenceは、オンデバイスAIの利便性を最大限に活用し、ユーザーに新たな価値を提供します。 4月1日から日本で広く利用可能となったApple Intelligenceは、特に要約機能が注目されています。この機能は、長い文章や情報を簡潔にまとめることで、ユーザーの情報取得を効率化します。オンデバイスAIの特性により、データのプライバシーが保たれ、インターネット接続が不安定な環境でもスムーズに動作します。
Apple Intelligenceの最大の特徴は、長期間の使用を通じてその価値が明らかになる点です。初期の使用では気づかない利便性が、時間とともにユーザーにとって不可欠なものとなります。さらに、オーデバイスAIの進化により、個々のデバイスが独自の学習を行い、ユーザーのニーズに応じたパーソナライズされた体験を提供します。
このように、Apple Intelligenceは、ユーザーの生活をより便利にし、情報の取得と処理を効率化する新しいAI技術として期待されています。
Sources
日本でも公開された「Apple Intelligence」 キモは“要約”にあり オンデバイスAIだからできること: https://www.itmedia.co.jp/news/articles/2504/01/news114.html
生成AIの活用事例
生成AIはビジネスシーンでの効率化と革新を推進しています。 サイバーエージェントは、生成AIを活用して7000人以上のAI活用を支援しています。特に、生成AIコンサルタントが企業内のAI活用推進者に対して、具体的な活用法を提供しています。これにより、企業はAIを活用した業務効率化を実現し、競争力を高めています。
生成AIの具体的な活用例として、サイバーエージェントの「Dify活用術」が挙げられます。この手法は、エグゼクティブやインフルエンサーが生成AIを利用して、業務の効率化や新たなビジネスチャンスの創出を支援するものです。生成AIは、データ分析やマーケティング戦略の策定においても重要な役割を果たしています。
以下は、生成AIの活用における主な利点です:
効率化: データ分析や業務プロセスの自動化により、時間とコストを削減。
革新: 新たなビジネスモデルやサービスの創出を支援。
競争力強化: 市場の変化に迅速に対応し、競争優位性を確保。
Sources
7000人以上のAI活用を支援――サイバーエージェントのAIコンサルタントが語る“Dify活用術”とは: https://www.itmedia.co.jp/aiplus/articles/2504/02/news008.html
AIモデルの最新動向
AmazonとOpenAIが最新のAIモデルを発表し、AI技術の進化が加速しています。 Amazonは、Webブラウザ内でのアクション実行に特化したAIモデル「Amazon Nova Act」を発表しました。このモデルは、開発者向けにSDKも提供され、Webアプリケーションの自動化を促進します。一方、OpenAIは、言語モデル「オープンウェイトモデル」を公開予定で、推論機能を強化しています。これは、2019年の「GPT-2」以来の大規模なオープンモデルのリリースとなります。
また、OpenAIはAIエージェント開発のための新しいツール「Responses API」と「Agents SDK」を発表しました。これにより、AIエージェントの開発がより効率的に行えるようになります。これらの技術革新は、AIの応用範囲を広げ、より高度な自動化を可能にします。
Amazon Nova Act: Webブラウザ内でのアクション実行に特化
オープンウェイトモデル: 言語モデルの推論機能を強化
Responses APIとAgents SDK: AIエージェント開発を効率化
Sources
Amazon、Webブラウザで動作するAIモデル「Amazon Nova Act」とそのSDKを発表: https://www.itmedia.co.jp/aiplus/articles/2504/01/news105.html
OpenAI、オープンなAIモデル公開へ 推論機能あり、「今後数カ月以内」とアルトマンCEO: https://www.itmedia.co.jp/aiplus/articles/2504/01/news098.html
OpenAI、AIエージェント構築ツール「Responses API」「Agents SDK」を発表: https://atmarkit.itmedia.co.jp/ait/articles/2504/01/news081.html
AIの生成能力の発展
GPT-4oとGemini-2.0は、画像生成AIの新たな基準を打ち立てました。 OpenAIのGPT-4oは、DALL·E 3シリーズを超えるフォトリアリスティックな画像生成を可能にし、画像を入力として変換する能力を持っています。これにより、より美しく、実用的な画像生成が実現しました。一方、GoogleのGemini-2.0は、制御性と品質の面でこれまでの画像生成AIを凌駕する進化を遂げました。これらのモデルは、画像生成の精度と多様性を大幅に向上させ、クリエイティブなプロジェクトにおいて新たな可能性を提供しています。
GPT-4o: フォトリアリスティックな画像生成、画像変換機能
Gemini-2.0: 高度な制御性と品質、クリエイティブな応用
これらの進化は、AIがクリエイティブな分野でどのように活用されるかを再定義し、将来的にはさらに多くの分野での応用が期待されます。
Sources
GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか: https://zenn.dev/discus0434/articles/gemini-2-0-mm
Introducing 4o Image Generation: https://openai.com/index/introducing-4o-image-generation
AIとインフラの最適化
AIの活用により、半導体製造工程の効率化が劇的に進化しています。 名古屋大学や理化学研究所、グローバルウェーハズ・ジャパン、アイクリスタル、ソニーセミコンダクタマニュファクチャリングは、シリコンウエハーからCMOSイメージセンサー製造までの工程をAIで最適化し、従来の1000分の1の時間で完了することに成功しました。この事例は、AIが工業分野でどのように役立つかを示す具体的な例です。
AIの導入により、製造プロセスの各段階でのデータ分析が可能となり、リアルタイムでの品質管理や不良品の早期発見が実現します。これにより、製造コストの削減や生産性の向上が期待されます。また、AIは複雑な製造工程の最適化を自動化し、人間の介入を最小限に抑えることで、より効率的な生産ラインを構築します。
このようなAIの活用は、半導体業界に限らず、他の製造業にも応用可能であり、今後の産業界全体の効率化に寄与することが期待されます。
Sources
AIで半導体の製造工程を最適化 ウエハーからデバイスまで一気通貫で: https://eetimes.itmedia.co.jp/ee/articles/2504/01/news058.html
結論
このレポートでは、4月1日のニュースを通じてAI技術の進化とその応用について考察しました。以下に各セクションの主要ポイントをまとめます。
セクション 主なポイント
Apple Intelligenceの概要 オンデバイスAIの利便性とプライバシー保護を強調し、要約機能が情報取得を効率化。
生成AIの活用事例 サイバーエージェントの事例を通じて、生成AIが業務効率化と革新を推進。
AIモデルの最新動向 AmazonとOpenAIの新技術がAIの応用範囲を拡大。
AIの生成能力の発展 GPT-4oとGemini-2.0が画像生成AIの新基準を確立。
AIとインフラの最適化 半導体製造工程の効率化にAIが貢献し、産業界全体の効率化が期待される。
これらの技術革新は、AIが日常生活やビジネスに与える影響を再定義し、今後のさらなる発展が期待されます。次のステップとして、これらの技術をどのように実際の業務や生活に取り入れるかが重要な課題となります。
上記はtextをべた貼りしていますが、表の生成などもうまくいってました👏
まとめ
テストした結果、想像よりいい感じの結果が得られました。社内向けのAIエージェントを開発する場合も、OSSをベースに開発するのは結構アリなのではないでしょうか。Langchainはライブラリの依存関係も結構わかりやすい構成でした。APIさえあればどれだけでも調べる範囲を拡張できる点は良いですね。今後はOpen Manusなども触っていきたいと思います。
では!!
Discussion