AIサービスの新機能とか眺める
なぜ作成したのか
- Xでが画像・生成系AIの新機能をまとめられてるのを見かけたので調べる
見かけたサービス
サービス名 | 公式サイト | 機能概要 | 最近の画期的アップデート(公開日) | 運営者(会社) | 国/本社所在地 |
---|---|---|---|---|---|
Grok Vision | https://x.ai | Grok LLM にリアルタイム画像理解を付加。スマホカメラを向けた物体や文書を即座に解析し、質問に答えるマルチモーダル機能。 | iOS 版アプリで「Grok Vision」正式公開(2025-04-22/23)TechCrunchBusiness Today | xAI(Elon Musk) | 米国 |
Genspark AI Slides | https://www.genspark.ai | エージェントが資料構成・デザイン・図表生成まで自動化するスライド作成 SaaS。 | 「Genspark AI Slides」ローンチ(2025-04-23)AIbase | Genspark AI Inc.(本社 Palo Alto)Reuters | 米国 |
SkyReel V2 | https://www.skyreels.ai | 無限長生成も可能な拡散×AR 方式のテキスト-to-ビデオ基盤モデル。 | SkyReels-V2 720p モデルとコードを OSS で公開(2025-04-24)GitHubarXiv | Skywork AI Pte. Ltd.(シンガポール)LinkedIn | シンガポール |
Dia 1.6B | https://github.com/nari-labs/dia | 1.6 B パラメータの対話特化 TTS。感情・ノンバーバル表現も生成可能な完全 OSS。 | Nari Labs が Dia 公開(2025-04-22)VentureBeatInstagram | Nari Labs(韓国スタートアップ)Instagram | 韓国 |
Tavus Hummingbird-0 | https://www.tavus.io/post/introducing-hummingbird-0-a-leap-in-lip-sync | 音声+短い参照動画から高精度リップシンクを行うゼロショットモデル。 | Hummingbird-0 研究プレビュー公開(2025-04-24)The OS for Human-AI Interaction | Tavus Inc.(San Francisco)The OS for Human-AI Interaction | 米国 |
OpenAI gpt-image-1 | https://openai.com/index/image-generation-api | テキスト/画像入力対応のマルチモーダル画像生成モデル。 | Images API で一般提供開始&Figma 連携開始(2025-04-23)OpenAI | OpenAI(San Francisco) | 米国 |
ChatGPT Deep Research Mini | https://chat.openai.com | 既存 Deep Research を軽量化し、無料層でも月5タスク利用可能にしたリサーチ特化モード。 | 「Deep Research Mini」提供開始(2025-04-24)The Verge | OpenAI | 米国 |
Dreamina Seedream 3.0 | https://dreamina.capcut.com | ByteDance系 CapCut が提供する高解像度テキスト-to-イメージ生成。 | Seedream 3.0 モデル公開(2025-04-24)スレッズ | ByteDance / CapCut | 中国 |
Perplexity Assistant | https://www.perplexity.ai | 音声操作でリマインダーや予約まで行えるモバイル AI アシスタント。 | iOS 版に音声アシスタント機能追加(2025-04-23)The Verge | Perplexity AI Inc.(San Francisco) | 米国 |
Pika Pikaffects | https://pika.art | Pika 1.5 に搭載された物体変形エフェクト群(explode/melt 等)をワンクリック付与できる生成動画向け特殊効果。 | 「Pikaffects」追加アップデート(2024-10 & 2025-03 以降順次、最新は 2025-03 の新4種)VentureBeat | Pika Labs Inc.(Palo Alto)VentureBeat | 米国 |
アップデートピックアップ
1. Grok Vision (xAI)
Breakthrough – Grok-1.5 V adds full‐image input to the Grok LLM, beating GPT-4V and Gemini 1.5 Pro on xAI’s new RealWorldQA benchmark and matching or exceeding them on MM-benchmarks such as MMMU and AI2D. (Grok-1.5 Vision Preview | xAI)
Why it matters
従来の Grok-1.5 | 新 Grok-1.5 V | |
---|---|---|
入出力 | テキストのみ | テキスト + 画像 |
物理世界理解 | ― | RealWorldQA 68.7 %(GPT-4V 61 %) |
ユースケース | Q&A | コード生成 from diagrams・現場写真の判断 等 |
競合優位: GPT-4V は長文読解・OCRは強いものの、実写の奥行き判断や俯瞰写真からの空間推論では Grok-1.5 V が高精度。
2. Genspark AI Slides
Breakthrough –4/23 公開の “AI Slides” は、資料構成→調査→デザイン→校正をエージェントが一括実行。PDF/Excel を drag-drop するだけで引用付きスライドを生成。 (Genspark AI Slides Tool Launched: Revolutionizing Professional ...)
優位性
- 完全自動: Gamma, Beautiful.ai は雛形作成後の手作業が必要。
- 非構造データ対応: 論文や請求書内の表を読み取り自動で図表化。
- バックエンド LLM 選択: 社内 Llama 3 でも OpenAI でも走る BYO-model 設計で機密文書を閉域処理できる。
3. SkyReel V2 (Skywork AI)
Breakthrough – 4/24 に 720 p の Diffusion-Forcing 14B 重みを OSS 公開。無限長オートレグレッシブ生成と I2V/T2V を一つのモデルで実現。 (GitHub - SkyworkAI/SkyReels-V2: SkyReels-V2: Infinite-length Film Generative model)
優位性
- オープンウェイト: Sora・Veo などクローズド競合と対照的。
- 長尺: 1 分超の 24 fps ビデオが 1 GPU で出力可能。
- 拡張性: Camera-Director / Prompt-Enhancer など周辺 OSS が順次追加予定。
4. Dia 1.6 B (Nari Labs)
Breakthrough – 1.6 B パラメータの対話特化 TTS を5日前 OSS 公開。非言語音も一括生成し、Emotion-Prompt に対応。 (Dia-1.6B TTS : Best Text-to-Dialogue generation AI model - Medium)
優位性
ElevenLabs v2 | Dia 1.6 B | |
---|---|---|
料金 | SaaS 従量課金 | 無償・自前 GPU |
話者追加 | 要クローン料 | 音声 or テキストだけで即 |
非言語音 | 制限あり | laugh / sigh / cough などタグで制御 |
5. Tavus Hummingbird-0
Breakthrough – ゼロショット高精度リップシンクを API で提供開始。参考動画数秒&音声だけで人物そのままに口パクを合わせる。 (Introducing Hummingbird-0: A Leap in Lip Sync)
優位性
- 学習不要: Fine-tune が要る Wav2Lip 系より導入が容易。
- 一貫性: 頬や輪郭を崩さないため企業用トレーニング動画でも違和感なし。
- コスト: 1 分 $1.50 はポストプロダクションの再撮コストを桁違いに削減。
6. OpenAI gpt-image-1
Breakthrough – Images API が開放され Figma でライブ編集可能に。テキストを画像に正確に描写し、背景拡張・要素削除まで一括。 (Introducing our latest image generation model in the API - OpenAI)
優位性
- 文字レンダリング: DALL·E 3 比 2× 誤字率低減。
- 編集モード: レイヤー保持で再生成せず微修正できるのは Midjourney にはない。
- API 提供: Adobe Firefly など他社製品にも実装開始。 (Adobe and Figma tools are getting ChatGPT's upgraded image generation model)
7. ChatGPT Deep Research Mini
Breakthrough – 高負荷だった Deep Research を o4-mini ベースに軽量化し、無料枠(月5件)で公開。 (ChatGPT is getting a ‘lightweight’ version of its deep research tool | The Verge)
優位性
- 計算コスト 50 %↓ でほぼ同精度の長文調査出力。
- 裾野拡大: Free→Team→Enterprise が同一 UX を共有でき社内展開しやすい。
8. Seedream 3.0 (ByteDance Seed)
Breakthrough – 4/15 公開の次世代 T2I。「Sparse Bit-Token」表現で解像度と構図整合性を大幅改善。 (ByteDance Seed)
優位性
- 8 K 相当の詳細度 でも破綻しにくい(Imagen2 同等、速度は 1.4×)。
- アジア系データ強化: 人物生成バイアスが低く、中国市場の広告素材需要に直結。
9. Perplexity Voice Assistant (iOS)
Breakthrough – 4/25 アプリ更新で音声アシスタントが iOS へ拡張。自然言語から Uber 予約や OpenTable 予約を一気通貫。 (Perplexity Changelog)
優位性
- マルチアプリ実行: Siri はリンク手前で止まる操作でも実タスク完了まで自動。
- 継続対話: バックグラウンドに回しても会話維持。Android 版同等機能を Apple エコシステムでも実現。
10. Pikaffects (Pika 1.5)
Breakthrough – 「crumble / dissolve / deflate / ta-da」など新 4 種エフェクトを追加(6 か月前~3 月にかけ順次)。 (Pika 1.5 adds new Pikaffects: crumble, dissolve, deflate, ta-da!)
優位性
- ワンクリック物理演算: Runway Gen-2 では再生成だが、Pikaffects は既存クリップに局所適用。
- モバイル同時対応: iOS からも同エフェクトを直ちにプレビューでき、ショート動画制作が高速。
アップデートまとめ
各アップデートは「入力モードの拡張」「オープン化」「ゼロショット性能」「運用コスト削減」という4つの軸で既存プロダクトに優位性をもたらしています。
導入検討時のチェックポイント
対応プラットフォーム / ライセンス形態 / TCO(Total Cost of Ownership) で整理しました。
TCO の考え方
- SaaS / API → 月額または従量課金 + チーム人数
- OSS → ライセンス料 0 円だが GPU/HW・運用要員・クラウド転送コストを加算
- ハイブリッド (SaaS + ローカル推論) → 上記の合算
# | サービス | 対応プラットフォーム | ライセンス形態 | 想定コスト (小規模チーム/⽉) | コストの内訳・留意点 |
---|---|---|---|---|---|
1 | Grok Vision | iOS (単独アプリ) / X Web | 商用 SaaS (X Premium/Premium+) | 無料 (10msg/2h 制限)〜 約 $50/ユーザ (Premium+ 2025.02 値上げ) (X's Grok AI chatbot is now available to all users, X doubles its Premium+ plan prices after xAI releases Grok 3) | Free 版でも画像入力可。Premium+ は広告ゼロ+API 優先枠で Vision 無制限。 |
2 | Genspark AI Slides | Web (Chrome/Safari), PPTX DL | Freemium SaaS | Free (200クレ/日)〜 $25/ユーザ Pro (The Complete Guide to Genspark Super Agent: Mastering the AI ...) | Pro はクレジット無制限・自社 LLM BYO 対応。年間一括で 15% 割引。 |
3 | SkyReel V2 | GitHub / Docker / Hugging Face | MIT License (OSS) (SkyworkAI repositories · GitHub) | 自前 A100 80 GB ×1 なら 約 $2.5/時 の GPU 料金 + ストレージ | 重み 25 GB。推論 720 p 15 fps で VRAM 48 GB 推奨。クラウドならスポット最適化で可。 |
4 | Dia 1.6 B | GitHub / HF / any OS | Apache 2.0 (nari-labs/dia: A TTS model capable of generating ultra ... - GitHub) | A10G ×1 (¥100/h 程度) | モデル 3 GB。リアルタイム TTS なら CPU でも可。 |
5 | Tavus Hummingbird-0 | REST API / Web UI | 商用 SaaS (Free/Starter/Growth) | Free (5 min/月) … $59/mo Starter, 超過 $1.50/分 (Plans and Pricing - Tavus) | 1 分あたり請求。大規模配信なら Growth $397 + 従量。 |
6 | OpenAI gpt-image-1 | REST API / Figma Plugin / ChatGPT | 商用 API | 画像生成 $0.04(中解像) /枚 + $10/100万 input token ([Pricing | OpenAI](https://openai.com/api/pricing/)) |
7 | ChatGPT Deep Research Mini | ChatGPT Web / iOS / Android | サブスク (Plus/Team/Pro) | Free 層 5 件/月, $20/Plus 25 件, $200/Pro 250 件 (ChatGPT is getting a 'lightweight' version of its deep research tool, How much does ChatGPT cost? Everything you need to know about ...) | Mini に切替後もオリジナル Deep Research と同 UX。 |
8 | Dreamina Seedream 3.0 (CapCut 内) | Web / Windows / macOS / iOS / Android | Freemium SaaS (クレジット制) | Free (低解像度) / $24.17/mo Starter 21,600 クレ/年 ≈ 360 min video or 10,800 images ([CapCut - Pippit AI | Pricing & Plans](https://pippit.capcut.com/pricing)) |
9 | Perplexity Assistant (Voice) | iOS / Android / Web / API | Freemium + $20/mo Pro (600 Pro Search/日) (Perplexity's 'Pro Search' AI upgrade makes it better at math and ...) | Pro には $5/月 API クレジット含む。iOS アプリはウォッチ/CarPlay 拡張。 | |
10 | Pikaffects (Pika 1.5) | Web / macOS / Windows | サブスク (credit 制) | Free (80 credits), $8 Standard, $28 Pro/mo billed yearly (Pika) | 新エフェクト 1 本=15~80 credit。GPU レンダリングは Pika 側負担。 |
導入のヒント
-
SaaS 型は従量単価 + 席数を把握
- Grok Vision や Perplexity → チーム人数が増えると月額が線形に増加。
- OpenAI など API 従量の場合、推論量を抑えるプロンプト最適化が TCO に直結。
-
OSS 型は GPU 時間が支配的
- SkyReel V2, Dia は バッチ生成で GPU 利用率を高めると半額以下まで圧縮可能。
- マルチ GPU 必要ならオンプレ vs クラウドを比較。長時間運用は 中古 A100 購入も選択肢。
-
ハイブリッド運用
- Genspark Slides は 社内 Llama 3 でオフライン推論しつつ、外部 API は不要にできる。
- Dreamina + CapCut Pro は素材生成→編集→配信を一つの UI に集約でき、動画編集ソフトのライセンス費を削減。
-
隠れコストも確認
- ストレージ転送 (SkyReel 生成動画)
- 監査ログ/ISO 対応 (Tavus Growth 以上)
- 従量 API 上限アラート (OpenAI, Perplexity)
結論:
- **小規模チームで“すぐ使ってみる”**なら — Genspark Free + Grok Free + Dreamina Free が無償枠豊富。
- エンタープライズでプロダクション投入 — Tavus Growth や OpenAI Reserved Capacity といった SLA 付きプランを前提にランニングを設計。
- 自社 GPU がある研究組織 — SkyReel V2 & Dia をローカル推論して IP/個人情報流出リスクゼロ化。
所感
- 調査元XのPostをリンク載せようかと思ったらPost見失った。何故スマホで見かけたタイトルをPCで検索したら出てこないのだろう
Discussion