SUMO.aiに参加してきました
こんにちは、Gen-AX AIエンジニアの中尾です。
先日、SUMO.aiというマルチモーダルAI技術に関するイベントに参加してきました。とても意義深い取り組みだと感じましたので、このブログでレポート記事をまとめたいと思います。
SUMO.aiとは
「SUMO.ai」(Society for Uniting Multimodal and Open Artificial Intelligence)は、多彩な専門領域の研究者やエンジニアが集い、AI技術の可能性を幅広く探求する場です。
本イベントでは、自然言語・音声・画像・機械学習など、複数の情報源を統合するマルチモーダルAIに注目し、学術研究からビジネス応用まで多角的に議論を行います。最先端の事例紹介やオープンな知見共有を通じて、参加者同士が高度な知識を深め合うことを目指します。
また本コミュニティは、AI技術のさらなる発展と社会実装への貢献を念頭に、国内外より幅広いバックグラウンドの方々の参加を歓迎いたします。コミュニティを通じて、新たな研究テーマの発掘や事業連携の機会創出、所属組織や専門領域を跨いだネットワーキングにも力を入れたいと考えています。
公式サイト: https://sumo-ai.connpass.com/
近年、生成AIや大規模言語モデル(LLM)の進化により、テキストだけでなく画像・音声・動画など複数の情報源を統合して理解・生成する「マルチモーダルAI」が急速に注目を集めています。
公開当初はテキストのみであったChatGPTも、画像入力やリアルタイム音声会話機能を追加しており、ユーザビリティ観点でのマルチモーダル対応の重要性がうかがえます。
こうした背景から、以下の点で今まさにマルチモーダルAIのイベントが重要だと考えています:
- 技術進化のスピードが加速し、最新動向をキャッチアップする必要性が高まっている
- 産業応用や社会実装の現場で、マルチモーダルAIの知見が求められている
- 異分野の専門家が連携することで、新たな価値創出やイノベーションが期待できる
そのため、SUMO.aiのような場で専門家が知見を持ち寄ることが、より一層重要になってきています。
発表の感想
各登壇者の発表内容は こちら をご覧いただくとして、私の感想を書いていきます。
まず、全体を通して感じたのは、マルチモーダルAIの研究や応用が非常に活発であり、各分野の専門家が集まることで新たな知見や技術の発展が期待できるということです。セッション1では特に多くの質問が寄せられており、参加者の関心の高さがうかがえました。SUMO.aiという新しいイベントがこのように好調にスタートできたのは、参加者のマルチモーダルAIへの関心の高さが要因だと考えています(もちろん牛久氏の素晴らしい発表とトーク力と、彼を招待した運営陣の努力も大きいです!)。
栗田氏が登壇されたセッション2では、VLM(Vision-Language Model)×ロボットという非常に興味深い分野についての話を聞くことができました。AIの話題はどうしてもWeb系に偏りがちで、ロボット分野の研究者と話す機会はなかなかないため、とても貴重でした。現在、身近なロボットといえばお掃除ロボットや配膳ロボットなどが主流ですが、私は家事をサボりがちなので、早くさまざまなことができるロボットが普及してほしいと思っています。
LTセッションでは、AI模擬面接の話があり、実際にAIを使った対話システムの開発に取り組んでいる方々の生の声を聞くことができました。特に、自然な対話を実現するための工夫や課題についての話は、私も似たような取り組みをしているため、とても共感することができました。
もう一つのLTでは、LINEヤフーにおけるマルチモーダルAIの取り組みについての発表がありました。LINEヤフーのような大規模かつ複数のサービスを展開している企業ならではの取り組みを聞くことができ、非常に勉強になりました。GoogleやMetaなどのビッグテックがマルチモーダルAIに注力している中で、国内企業であるLINEヤフーがこのように積極的に取り組んでいるのは、とても心強く感じます。
最後のスポンサーLTでは、代表の島岡氏が登壇されて驚きました。その後、LINE WORKSの同期入社だった中込さんも登壇し、大阪万博におけるLINE WORKSのAI技術の活用について話していました。万博のような一大イベントでのデモは大変だったと思いますが、無事成功したようで何よりです。また、LINE WORKSのAI戦略についても話しており、今後の展開が楽しみです。
懇親会
懇親会では、参加者同士の交流が活発に行われていました。特に、AI技術に関心のある多様なバックグラウンドを持つ方々と直接話すことで、新たな視点やアイデアを得ることができました。私自身も、今後どのようなサービスが出てくるか、どのようにマルチモーダルAIを活用していくかなどの面白い議論をすることができ、とても有意義でした。
知らない人とうまく交流できるか不安でしたが、ピザやお酒を囲んでのカジュアルな雰囲気のおかげで、リラックスして話すことができました。特に、三木さんが持ってきた焼酎が美味しかったです。懇親会の後も二次会に参加し、今まで接点のなかった人々と話せて良い刺激を受けたり、業界の裏話的な話題でもりあがったりしました。
マルチモーダルAIの未来と私たちの取り組み
今回のイベントを通じて、マルチモーダルAIの可能性と課題について深く考える機会を得ました。特に印象的だったのは、セッション1でのVisual Question Answering(VQA)の話です。VQAがもともと機械学習ではなく、ユーザーインターフェースの分野で始まったという話は新しい発見でした。これは、技術の発展において、異なる分野からのアプローチがいかに重要かを示しています。
また、AI模擬面接のLTでは、人間との対話をいかに自然にするかという課題に取り組んでいる話がありました。これは、私が現在開発しているリアルタイムAPIを活用した対話システムとも密接に関わっています。自然な対話を実現するためには、テキストや音声、映像などの情報源をうまく統合することが不可欠であり、まさにマルチモーダルAIの真価が発揮される分野だと感じました。
Gen-AXが開発している「X-Ghost」も、こうしたマルチモーダルAI技術を活用したソリューションです。音声対話技術により人間らしい自然な対話を実現し、コンタクトセンターの課題解決に取り組んでいます。SUMO.aiでの議論を通じて、私たちの取り組みが業界全体の動向と合致していることを確認でき、今後の開発に向けてさらなる自信を得ることができました。
おわりに
SUMO.aiの運営チームの皆様、素晴らしいイベントを企画・運営していただき、ありがとうございました。マルチモーダルAIに関する知見を深めることができただけでなく、多くの方々と交流できたことに心から感謝しています。今後もこのようなイベントが継続され、さらに多くの人々が参加できることを願っています。
会場と飲食物を提供していただいたLINE WORKS株式会社の皆様にも感謝申し上げます。会場に延長コンセントが用意されているなど、配慮が行き届いていると感じました。LINE WORKSのAIを用いたサービスの展開についても、今後の発展が楽しみです。
次回のSUMO.aiも楽しみにしています!
宣伝
現在私は、OpenAIのRealtime APIを使用した音声×言語のマルチモーダルシステムの開発に取り組んでいます。今回のSUMO.aiでのセッションやLTを通じて、マルチモーダルAIの重要性とその可能性について改めて深く考えさせられました。
特に、異なる情報源を統合して自然なインタラクションを実現するという点で、私たちの開発している技術と今回のイベントで紹介された研究・開発事例には多くの共通点があることを実感しました。このような技術交流の場があることで、より良いサービスの開発につながると確信しています。
Gen-AXでは、マルチモーダルAIを活用して社会の課題解決に取り組む仲間を募集しています。もしこの分野に興味をお持ちの方がいらっしゃいましたら、ぜひお気軽にお声がけください。一緒に未来の技術を創っていきましょう。
採用ページはこちら:https://www.gen-ax.co.jp/recruit/
Discussion