🚀

Google I/O 2024の新AI技術 24選【Gemini / Gemma / Veo】

2024/05/15に公開

はじめまして、ますみです!

株式会社Galirage(ガリレージ)という「生成AIに特化して、システム開発・アドバイザリー支援・研修支援をしているIT企業」で、代表をしております^^

自己紹介.png

Googleの勢いがすごい!!!

本日(2024年5月15日、日本時間)に発表された「Google I/Oの新AI技術」について解説します!

https://youtu.be/XEzRZ35urlk

※ 以前より、発表されていた技術を一部含みます。

1. AI Overviews

Googleで検索したときに、「生成AIによる質問回答」をしてくれます◎

「SGE(Search Generative Experience、AIまとめ)」の新バージョンです!

https://blog.google/products/search/generative-ai-google-search-may-2024/

2. Ask Photos

Googleフォトの新機能で、チャット形式で質問をして、写真を検索したりできます!

裏側は、GeminiのAIモデルが使用されているそうです!

https://blog.google/products/photos/ask-photos-google-io-2024/

3. Gemini 1.5 Pro(1M)

これまで、Gemini 1.5は、一部のユーザーしか利用できませんでした。

そのGemini 1.5が、ついに一般公開(GA)されました!

100万トークンも扱えるのが、一つの特徴です◎
(ちなみに、GPT-4oは、12.8万トークン)

https://blog.google/intl/ja-jp/company-news/technology/gemini-model-february-2024-jp/

4. Gemini Advanced

Googleの公式ウェブアプリであるGemini上で、Gemini 1.5 Proを利用できる「Gemini Advanced」が発表されました🎉

Google OneのAIプレミアムプラン(¥2,900 / 月)に入ると利用できるそうです!

https://gemini.google.com/advanced?hl=ja

5. Gemini 1.5 Pro(2M)

200万トークンのGemini 1.5 Proが、Private Previewとして、発表されました!

100万トークンのモデルは、一般利用できるようになりましたが、こちらは一部のユーザーのみ利用できる形になります!

https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

6. Gemini for Workspace

メールにおける機能が強化されて、「領収書を整理して」と指示をして、受信箱に入った領収書の添付ファイルをまとめてくれるデモがされました!

これも、業務効率化にめちゃくちゃ役立ちそう🚀

https://support.google.com/a/answer/13623623?hl=ja

7. Gemini 1.5 Flash

Gemini 1.5の軽量モデル(1M)です!

「高速」かつ「安価」に利用したときに適したモデルで
す。

GoogleのクラウドであるGCPの中の「Google AI Studio」と「Vertex AI」で、利用可能です!

https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

8. RT-2

RT-2とは、画像と文章から、ロボットの動作を生成する技術(Robotic Transformer)です 🤖

https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/

9. SIMA

SIMAとは、複雑な3D環境において動作するエージェント技術(Scalable Instructable Multiworld Agent)です 🎮

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

10. AlphaGemometry

AlphaGemometryとは、複雑な数理問題を解く技術です 🧮

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

11. GNoME

GNoMEとは、新素材を発見する技術(Graph Networks for Materials Exploration)です 💎

https://deepmind.google/discover/blog/millions-of-new-materials-discovered-with-deep-learning/

12. Project Astra

GoogleのDeepMindという研究所が行なっている「AI Assistantのプロジェクト」です!

この動画見るとわかる通り、すごい精度と応答速度(リアルタイム性)で、タスクをさばいていて感動的🥺

https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

13. Imagen 3

「文章から画像を生成できるモデル」の最新バージョンです!

テキスト画像の生成精度が上がったりしています✍️

https://deepmind.google/technologies/imagen-3/

14. Music AI Sandbox

特定の音声に指示を加えて、アレンジをしてくれたりします!

デモ動画では、特定のフレーズを、Brazilianにするように指示していて、本当にそれっぽくなっていて、感動的✨

https://blog.google/technology/ai/google-generative-ai-veo-imagen-3/

15. Veo

「最新の動画生成AI」です📹

OpenAIのSoraの対抗モデルです!

1080p Full HDで生成できる上、めちゃくちゃ生成が速いらしいです!

https://deepmind.google/technologies/veo/

16. Trillium

「TPU(Tensor Processing Unit)の最新バージョン」です⚡️

TPUは、機械学習のワークロードなどに特化した、Googleの開発しているチップです。

今回、従来のv5eよりも、4.7倍の性能改善をしました!

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus/

17. Google Lensにおける動画検索機能

「動画と文章を入力して検索する機能」が発表されました🔍

身の回りの困りごとは、大体これで解決しそう😆

https://x.com/Google/status/1790440001156583712

18. Gemini Live

OpenAIが、昨日発表した「GPT-4o」の対抗したモデルですね、、、バチバチすぎる笑

「リアリタイムでAIと対話する機能」で、今年の夏に発表されるそうです!

https://blog.google/products/gemini/google-gemini-update-may-2024/

19. Gems

OpenAIの「GPTs」の対抗機能です!

あらかじめ、カスタムプロンプトなどを裏側で仕込むことができる、「カスタムAI」です!

https://blog.google/products/gemini/google-gemini-update-may-2024/

20. Circle to Search

モバイルやタブレットなどで、画像の中の特定の領域を囲って、検索をできます!

いうなれば、囲って検索機能です!

Pixelなどのハードウェアも持っているGoogleならではの機能という感じですね!

Appleもこういう機能、そのうち出してきそうですね 🍎

https://youtu.be/IM4-pPmZyHA

21. PaliGemma

ついにきました!!!

「ビジョン対応したGoogleのOSSモデル」です!

これまでのGemmaという「OSSの文章生成AI」が出ていたのですが、そのモデルが画像にも対応しました🥳

https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/

22. Gemma 2

Gemmaという「OSSの文章生成AI」の最新バージョンです!27Bのパラメータまであるそうです!

インフラの構築はそれなりに大変だが、これくらいのパラメータ数があれば、実用性高そうですね🌟

https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/

https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/

23. SynthID

地味に大事な「電子透かし」の技術がアップデートしました!

これまで、AI生成された「画像と音声」に対する処理はできたのですが、今回「文章と動画」にも対応しました!

https://deepmind.google/technologies/synthid/

24. LearnLM

Geminiを「学習用にチューニングしたAIモデル」です!

言うなれば「最強のAI先生」です📖

https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/

最後に

最後まで読んでくださり、ありがとうございました!
この記事を通して、少しでもあなたの学びに役立てば幸いです!

宣伝:もしもよかったらご覧ください^^

AIとコミュニケーションする技術(インプレス出版)』という書籍を出版しました🎉

これからの未来において「変わらない知識」を見極めて、生成AIの業界において、読まれ続ける「バイブル」となる本をまとめ上げました。

かなり自信のある一冊なため、もしもよろしければ、ご一読いただけますと幸いです^^

参考文献

https://io.google/2024/intl/ja/

Discussion