🦆

AIサービスの新機能とか眺める

2025/04/27に公開

 なぜ作成したのかXでが画像・生成系AIの新機能をまとめられてるのを見かけたので調べる

 見かけたサービス

サービス名
公式サイト
機能概要
最近の画期的アップデート（公開日）
運営者（会社）
国／本社所在地


Grok Vision
https://x.ai
Grok LLM にリアルタイム画像理解を付加。スマホカメラを向けた物体や文書を即座に解析し、質問に答えるマルチモーダル機能。
iOS 版アプリで「Grok Vision」正式公開（2025-04-22/23）​TechCrunchBusiness Today
xAI（Elon Musk）
米国

Genspark AI Slides
https://www.genspark.ai
エージェントが資料構成・デザイン・図表生成まで自動化するスライド作成 SaaS。
「Genspark AI Slides」ローンチ（2025-04-23）​AIbase
Genspark AI Inc.（本社 Palo Alto）​Reuters
米国

SkyReel V2
https://www.skyreels.ai
無限長生成も可能な拡散×AR 方式のテキスト-to-ビデオ基盤モデル。
SkyReels-V2 720p モデルとコードを OSS で公開（2025-04-24）​GitHubarXiv
Skywork AI Pte. Ltd.（シンガポール）​LinkedIn
シンガポール

Dia 1.6B
https://github.com/nari-labs/dia
1.6 B パラメータの対話特化 TTS。感情・ノンバーバル表現も生成可能な完全 OSS。
Nari Labs が Dia 公開（2025-04-22）​VentureBeatInstagram
Nari Labs（韓国スタートアップ）​Instagram
韓国

Tavus Hummingbird-0
https://www.tavus.io/post/introducing-hummingbird-0-a-leap-in-lip-sync
音声＋短い参照動画から高精度リップシンクを行うゼロショットモデル。
Hummingbird-0 研究プレビュー公開（2025-04-24）​The OS for Human-AI Interaction
Tavus Inc.（San Francisco）​The OS for Human-AI Interaction
米国

OpenAI gpt-image-1
https://openai.com/index/image-generation-api
テキスト／画像入力対応のマルチモーダル画像生成モデル。
Images API で一般提供開始＆Figma 連携開始（2025-04-23）​OpenAI
OpenAI（San Francisco）
米国

ChatGPT Deep Research Mini
https://chat.openai.com
既存 Deep Research を軽量化し、無料層でも月5タスク利用可能にしたリサーチ特化モード。
「Deep Research Mini」提供開始（2025-04-24）​The Verge
OpenAI
米国

Dreamina Seedream 3.0
https://dreamina.capcut.com
ByteDance系 CapCut が提供する高解像度テキスト-to-イメージ生成。
Seedream 3.0 モデル公開（2025-04-24）​スレッズ
ByteDance / CapCut
中国

Perplexity Assistant
https://www.perplexity.ai
音声操作でリマインダーや予約まで行えるモバイル AI アシスタント。
iOS 版に音声アシスタント機能追加（2025-04-23）​The Verge
Perplexity AI Inc.（San Francisco）
米国

Pika Pikaffects
https://pika.art
Pika 1.5 に搭載された物体変形エフェクト群（explode/melt 等）をワンクリック付与できる生成動画向け特殊効果。
「Pikaffects」追加アップデート（2024-10 & 2025-03 以降順次、最新は 2025-03 の新4種）​VentureBeat
Pika Labs Inc.（Palo Alto）​VentureBeat
米国


 アップデートピックアップ
 1. Grok Vision (xAI)Breakthrough – Grok-1.5 V adds full‐image input to the Grok LLM, beating GPT-4V and Gemini 1.5 Pro on xAI’s new RealWorldQA benchmark and matching or exceeding them on MM-benchmarks such as MMMU and AI2D. (Grok-1.5 Vision Preview | xAI)

Why it matters



従来の Grok-1.5
新 Grok-1.5 V


入出力
テキストのみ
テキスト ＋ 画像

物理世界理解
―
RealWorldQA 68.7 %（GPT-4V 61 %）

ユースケース
Q&A
コード生成 from diagrams・現場写真の判断 等

競合優位: GPT-4V は長文読解・OCRは強いものの、実写の奥行き判断や俯瞰写真からの空間推論では Grok-1.5 V が高精度。

 2. Genspark AI SlidesBreakthrough –4/23 公開の “AI Slides” は、資料構成→調査→デザイン→校正をエージェントが一括実行。PDF/Excel を drag-drop するだけで引用付きスライドを生成。 (Genspark AI Slides Tool Launched: Revolutionizing Professional ...)

優位性

完全自動: Gamma, Beautiful.ai は雛形作成後の手作業が必要。

非構造データ対応: 論文や請求書内の表を読み取り自動で図表化。

バックエンド LLM 選択: 社内 Llama 3 でも OpenAI でも走る BYO-model 設計で機密文書を閉域処理できる。

 3. SkyReel V2 (Skywork AI)Breakthrough – 4/24 に 720 p の Diffusion-Forcing 14B 重みを OSS 公開。無限長オートレグレッシブ生成と I2V/T2V を一つのモデルで実現。 (GitHub - SkyworkAI/SkyReels-V2: SkyReels-V2: Infinite-length Film Generative model)

優位性

オープンウェイト: Sora・Veo などクローズド競合と対照的。

長尺: 1 分超の 24 fps ビデオが 1 GPU で出力可能。

拡張性: Camera-Director / Prompt-Enhancer など周辺 OSS が順次追加予定。

 4. Dia 1.6 B (Nari Labs)Breakthrough – 1.6 B パラメータの対話特化 TTS を5日前 OSS 公開。非言語音も一括生成し、Emotion-Prompt に対応。 (Dia-1.6B TTS : Best Text-to-Dialogue generation AI model - Medium)

優位性



ElevenLabs v2
Dia 1.6 B


料金
SaaS 従量課金
無償・自前 GPU

話者追加
要クローン料
音声 or テキストだけで即

非言語音
制限あり
laugh / sigh / cough などタグで制御


 5. Tavus Hummingbird-0Breakthrough – ゼロショット高精度リップシンクを API で提供開始。参考動画数秒＆音声だけで人物そのままに口パクを合わせる。 (Introducing Hummingbird-0: A Leap in Lip Sync)

優位性

学習不要: Fine-tune が要る Wav2Lip 系より導入が容易。

一貫性: 頬や輪郭を崩さないため企業用トレーニング動画でも違和感なし。

コスト: 1 分 $1.50 はポストプロダクションの再撮コストを桁違いに削減。

 6. OpenAI gpt-image-1Breakthrough – Images API が開放され Figma でライブ編集可能に。テキストを画像に正確に描写し、背景拡張・要素削除まで一括。 (Introducing our latest image generation model in the API - OpenAI)

優位性

文字レンダリング: DALL·E 3 比 2× 誤字率低減。

編集モード: レイヤー保持で再生成せず微修正できるのは Midjourney にはない。

API 提供: Adobe Firefly など他社製品にも実装開始。 (Adobe and Figma tools are getting ChatGPT's upgraded image generation model)

 7. ChatGPT Deep Research MiniBreakthrough – 高負荷だった Deep Research を o4-mini ベースに軽量化し、無料枠（月5件）で公開。 (ChatGPT is getting a ‘lightweight’ version of its deep research tool | The Verge)

優位性

計算コスト 50 %↓ でほぼ同精度の長文調査出力。

裾野拡大: Free→Team→Enterprise が同一 UX を共有でき社内展開しやすい。

 8. Seedream 3.0 (ByteDance Seed)Breakthrough – 4/15 公開の次世代 T2I。「Sparse Bit-Token」表現で解像度と構図整合性を大幅改善。 (ByteDance Seed)

優位性

8 K 相当の詳細度 でも破綻しにくい（Imagen2 同等、速度は 1.4×）。

アジア系データ強化: 人物生成バイアスが低く、中国市場の広告素材需要に直結。

 9. Perplexity Voice Assistant (iOS)Breakthrough – 4/25 アプリ更新で音声アシスタントが iOS へ拡張。自然言語から Uber 予約や OpenTable 予約を一気通貫。 (Perplexity Changelog)

優位性

マルチアプリ実行: Siri はリンク手前で止まる操作でも実タスク完了まで自動。

継続対話: バックグラウンドに回しても会話維持。Android 版同等機能を Apple エコシステムでも実現。

 10. Pikaffects (Pika 1.5)Breakthrough – 「crumble / dissolve / deflate / ta-da」など新 4 種エフェクトを追加（6 か月前～3 月にかけ順次）。 (Pika 1.5 adds new Pikaffects: crumble, dissolve, deflate, ta-da!)

優位性

ワンクリック物理演算: Runway Gen-2 では再生成だが、Pikaffects は既存クリップに局所適用。

モバイル同時対応: iOS からも同エフェクトを直ちにプレビューでき、ショート動画制作が高速。

 アップデートまとめ各アップデートは「入力モードの拡張」「オープン化」「ゼロショット性能」「運用コスト削減」という４つの軸で既存プロダクトに優位性をもたらしています。

 導入検討時のチェックポイント対応プラットフォーム / ライセンス形態 / TCO（Total Cost of Ownership） で整理しました。
TCO の考え方

SaaS / API → 月額または従量課金 + チーム人数

OSS → ライセンス料 0 円だが GPU/HW・運用要員・クラウド転送コストを加算

ハイブリッド (SaaS + ローカル推論) → 上記の合算


#
サービス
対応プラットフォーム
ライセンス形態
想定コスト (小規模チーム/⽉)
コストの内訳・留意点


1
Grok Vision
iOS (単独アプリ) / X Web
商用 SaaS (X Premium/Premium+)

無料 (10msg/2h 制限)〜 約 $50/ユーザ (Premium+ 2025.02 値上げ)  (X's Grok AI chatbot is now available to all users, X doubles its Premium+ plan prices after xAI releases Grok 3)
Free 版でも画像入力可。Premium+ は広告ゼロ＋API 優先枠で Vision 無制限。

2
Genspark AI Slides
Web (Chrome/Safari), PPTX DL
Freemium SaaS
Free (200クレ/日)〜 $25/ユーザ Pro  (The Complete Guide to Genspark Super Agent: Mastering the AI ...)
Pro はクレジット無制限・自社 LLM BYO 対応。年間一括で 15% 割引。

3
SkyReel V2
GitHub / Docker / Hugging Face

MIT License (OSS)  (SkyworkAI repositories · GitHub)
自前 A100 80 GB ×1 なら 約 $2.5/時 の GPU 料金 + ストレージ
重み 25 GB。推論 720 p 15 fps で VRAM 48 GB 推奨。クラウドならスポット最適化で可。

4
Dia 1.6 B
GitHub / HF / any OS

Apache 2.0  (nari-labs/dia: A TTS model capable of generating ultra ... - GitHub)
A10G ×1 (¥100/h 程度)
モデル 3 GB。リアルタイム TTS なら CPU でも可。

5
Tavus Hummingbird-0
REST API / Web UI
商用 SaaS (Free/Starter/Growth)
Free (5 min/月) … $59/mo Starter, 超過 $1.50/分  (Plans and Pricing - Tavus)
1 分あたり請求。大規模配信なら Growth $397 + 従量。

6
OpenAI gpt-image-1
REST API / Figma Plugin / ChatGPT
商用 API
画像生成 $0.04(中解像) /枚 + $10/100万 input token  ([Pricing
OpenAI](https://openai.com/api/pricing/))

7
ChatGPT Deep Research Mini
ChatGPT Web / iOS / Android
サブスク (Plus/Team/Pro)
Free 層 5 件/月, $20/Plus 25 件, $200/Pro 250 件  (ChatGPT is getting a 'lightweight' version of its deep research tool, How much does ChatGPT cost? Everything you need to know about ...)
Mini に切替後もオリジナル Deep Research と同 UX。

8

Dreamina Seedream 3.0 (CapCut 内)
Web / Windows / macOS / iOS / Android
Freemium SaaS (クレジット制)
Free (低解像度) / $24.17/mo Starter 21,600 クレ/年 ≈ 360 min video or 10,800 images  ([CapCut - Pippit AI
Pricing & Plans](https://pippit.capcut.com/pricing))

9
Perplexity Assistant (Voice)
iOS / Android / Web / API
Freemium + $20/mo Pro (600 Pro Search/日)  (Perplexity's 'Pro Search' AI upgrade makes it better at math and ...)
Pro には $5/月 API クレジット含む。iOS アプリはウォッチ/CarPlay 拡張。


10
Pikaffects (Pika 1.5)
Web / macOS / Windows
サブスク (credit 制)
Free (80 credits), $8 Standard, $28 Pro/mo billed yearly  (Pika)
新エフェクト 1 本＝15～80 credit。GPU レンダリングは Pika 側負担。


 導入のヒントSaaS 型は従量単価 + 席数を把握
Grok Vision や Perplexity → チーム人数が増えると月額が線形に増加。
OpenAI など API 従量の場合、推論量を抑えるプロンプト最適化が TCO に直結。
OSS 型は GPU 時間が支配的
SkyReel V2, Dia は バッチ生成で GPU 利用率を高めると半額以下まで圧縮可能。
マルチ GPU 必要ならオンプレ vs クラウドを比較。長時間運用は 中古 A100 購入も選択肢。
ハイブリッド運用
Genspark Slides は 社内 Llama 3 でオフライン推論しつつ、外部 API は不要にできる。
Dreamina + CapCut Pro は素材生成→編集→配信を一つの UI に集約でき、動画編集ソフトのライセンス費を削減。
隠れコストも確認
ストレージ転送 (SkyReel 生成動画)
監査ログ／ISO 対応 (Tavus Growth 以上)
従量 API 上限アラート (OpenAI, Perplexity)
結論:
**小規模チームで“すぐ使ってみる”**なら — Genspark Free + Grok Free + Dreamina Free が無償枠豊富。

エンタープライズでプロダクション投入 — Tavus Growth や OpenAI Reserved Capacity といった SLA 付きプランを前提にランニングを設計。

自社 GPU がある研究組織 — SkyReel V2 & Dia をローカル推論して IP／個人情報流出リスクゼロ化。

 所感調査元XのPostをリンク載せようかと思ったらPost見失った。何故スマホで見かけたタイトルをPCで検索したら出てこないのだろう

サービス名	公式サイト	機能概要	最近の画期的アップデート（公開日）	運営者（会社）	国／本社所在地
Grok Vision	https://x.ai	Grok LLM にリアルタイム画像理解を付加。スマホカメラを向けた物体や文書を即座に解析し、質問に答えるマルチモーダル機能。	iOS 版アプリで「Grok Vision」正式公開（2025-04-22/23）TechCrunchBusiness Today	xAI（Elon Musk）	米国
Genspark AI Slides	https://www.genspark.ai	エージェントが資料構成・デザイン・図表生成まで自動化するスライド作成 SaaS。	「Genspark AI Slides」ローンチ（2025-04-23）AIbase	Genspark AI Inc.（本社 Palo Alto）Reuters	米国
SkyReel V2	https://www.skyreels.ai	無限長生成も可能な拡散×AR 方式のテキスト-to-ビデオ基盤モデル。	SkyReels-V2 720p モデルとコードを OSS で公開（2025-04-24）GitHubarXiv	Skywork AI Pte. Ltd.（シンガポール）LinkedIn	シンガポール
Dia 1.6B	https://github.com/nari-labs/dia	1.6 B パラメータの対話特化 TTS。感情・ノンバーバル表現も生成可能な完全 OSS。	Nari Labs が Dia 公開（2025-04-22）VentureBeatInstagram	Nari Labs（韓国スタートアップ）Instagram	韓国
Tavus Hummingbird-0	https://www.tavus.io/post/introducing-hummingbird-0-a-leap-in-lip-sync	音声＋短い参照動画から高精度リップシンクを行うゼロショットモデル。	Hummingbird-0 研究プレビュー公開（2025-04-24）The OS for Human-AI Interaction	Tavus Inc.（San Francisco）The OS for Human-AI Interaction	米国
OpenAI gpt-image-1	https://openai.com/index/image-generation-api	テキスト／画像入力対応のマルチモーダル画像生成モデル。	Images API で一般提供開始＆Figma 連携開始（2025-04-23）OpenAI	OpenAI（San Francisco）	米国
ChatGPT Deep Research Mini	https://chat.openai.com	既存 Deep Research を軽量化し、無料層でも月5タスク利用可能にしたリサーチ特化モード。	「Deep Research Mini」提供開始（2025-04-24）The Verge	OpenAI	米国
Dreamina Seedream 3.0	https://dreamina.capcut.com	ByteDance系 CapCut が提供する高解像度テキスト-to-イメージ生成。	Seedream 3.0 モデル公開（2025-04-24）スレッズ	ByteDance / CapCut	中国
Perplexity Assistant	https://www.perplexity.ai	音声操作でリマインダーや予約まで行えるモバイル AI アシスタント。	iOS 版に音声アシスタント機能追加（2025-04-23）The Verge	Perplexity AI Inc.（San Francisco）	米国
Pika Pikaffects	https://pika.art	Pika 1.5 に搭載された物体変形エフェクト群（explode/melt 等）をワンクリック付与できる生成動画向け特殊効果。	「Pikaffects」追加アップデート（2024-10 & 2025-03 以降順次、最新は 2025-03 の新4種）VentureBeat	Pika Labs Inc.（Palo Alto）VentureBeat	米国

	従来の Grok-1.5	新 Grok-1.5 V
入出力	テキストのみ	テキスト＋画像
物理世界理解	―	RealWorldQA 68.7 %（GPT-4V 61 %）
ユースケース	Q&A	コード生成 from diagrams・現場写真の判断等

	ElevenLabs v2	Dia 1.6 B
料金	SaaS 従量課金	無償・自前 GPU
話者追加	要クローン料	音声 or テキストだけで即
非言語音	制限あり	laugh / sigh / cough などタグで制御

#	サービス	対応プラットフォーム	ライセンス形態	想定コスト (小規模チーム/⽉)	コストの内訳・留意点
1	Grok Vision	iOS (単独アプリ) / X Web	商用 SaaS (X Premium/Premium+)	無料 (10msg/2h 制限)〜約 $50/ユーザ (Premium+ 2025.02 値上げ) (X's Grok AI chatbot is now available to all users, X doubles its Premium+ plan prices after xAI releases Grok 3)	Free 版でも画像入力可。Premium+ は広告ゼロ＋API 優先枠で Vision 無制限。
2	Genspark AI Slides	Web (Chrome/Safari), PPTX DL	Freemium SaaS	Free (200クレ/日)〜 $25/ユーザ Pro (The Complete Guide to Genspark Super Agent: Mastering the AI ...)	Pro はクレジット無制限・自社 LLM BYO 対応。年間一括で 15% 割引。
3	SkyReel V2	GitHub / Docker / Hugging Face	MIT License (OSS) (SkyworkAI repositories · GitHub)	自前 A100 80 GB ×1 なら約 $2.5/時の GPU 料金 + ストレージ	重み 25 GB。推論 720 p 15 fps で VRAM 48 GB 推奨。クラウドならスポット最適化で可。
4	Dia 1.6 B	GitHub / HF / any OS	Apache 2.0 (nari-labs/dia: A TTS model capable of generating ultra ... - GitHub)	A10G ×1 (¥100/h 程度)	モデル 3 GB。リアルタイム TTS なら CPU でも可。
5	Tavus Hummingbird-0	REST API / Web UI	商用 SaaS (Free/Starter/Growth)	Free (5 min/月) … $59/mo Starter, 超過 $1.50/分 (Plans and Pricing - Tavus)	1 分あたり請求。大規模配信なら Growth $397 + 従量。
6	OpenAI gpt-image-1	REST API / Figma Plugin / ChatGPT	商用 API	画像生成 $0.04(中解像) /枚 + $10/100万 input token ([Pricing	OpenAI](https://openai.com/api/pricing/))
7	ChatGPT Deep Research Mini	ChatGPT Web / iOS / Android	サブスク (Plus/Team/Pro)	Free 層 5 件/月, $20/Plus 25 件, $200/Pro 250 件 (ChatGPT is getting a 'lightweight' version of its deep research tool, How much does ChatGPT cost? Everything you need to know about ...)	Mini に切替後もオリジナル Deep Research と同 UX。
8	Dreamina Seedream 3.0 (CapCut 内)	Web / Windows / macOS / iOS / Android	Freemium SaaS (クレジット制)	Free (低解像度) / $24.17/mo Starter 21,600 クレ/年 ≈ 360 min video or 10,800 images ([CapCut - Pippit AI	Pricing & Plans](https://pippit.capcut.com/pricing))
9	Perplexity Assistant (Voice)	iOS / Android / Web / API	Freemium + $20/mo Pro (600 Pro Search/日) (Perplexity's 'Pro Search' AI upgrade makes it better at math and ...)	Pro には $5/月 API クレジット含む。iOS アプリはウォッチ/CarPlay 拡張。
10	Pikaffects (Pika 1.5)	Web / macOS / Windows	サブスク (credit 制)	Free (80 credits), $8 Standard, $28 Pro/mo billed yearly (Pika)	新エフェクト 1 本＝15～80 credit。GPU レンダリングは Pika 側負担。

GitHubで編集を提案

なぜ作成したのか

見かけたサービス

アップデートピックアップ

1. Grok Vision (xAI)

2. Genspark AI Slides

3. SkyReel V2 (Skywork AI)

4. Dia 1.6 B (Nari Labs)

5. Tavus Hummingbird-0

6. OpenAI gpt-image-1

7. ChatGPT Deep Research Mini

8. Seedream 3.0 (ByteDance Seed)

9. Perplexity Voice Assistant (iOS)

10. Pikaffects (Pika 1.5)

アップデートまとめ

導入検討時のチェックポイント

導入のヒント

所感

Discussion