🦆

AIサービスの新機能とか眺める

に公開

なぜ作成したのか

  • Xでが画像・生成系AIの新機能をまとめられてるのを見かけたので調べる

見かけたサービス

サービス名 公式サイト 機能概要 最近の画期的アップデート(公開日) 運営者(会社) 国/本社所在地
Grok Vision https://x.ai Grok LLM にリアルタイム画像理解を付加。スマホカメラを向けた物体や文書を即座に解析し、質問に答えるマルチモーダル機能。 iOS 版アプリで「Grok Vision」正式公開(2025-04-22/23)​TechCrunchBusiness Today xAI(Elon Musk) 米国
Genspark AI Slides https://www.genspark.ai エージェントが資料構成・デザイン・図表生成まで自動化するスライド作成 SaaS。 「Genspark AI Slides」ローンチ(2025-04-23)​AIbase Genspark AI Inc.(本社 Palo Alto)​Reuters 米国
SkyReel V2 https://www.skyreels.ai 無限長生成も可能な拡散×AR 方式のテキスト-to-ビデオ基盤モデル。 SkyReels-V2 720p モデルとコードを OSS で公開(2025-04-24)​GitHubarXiv Skywork AI Pte. Ltd.(シンガポール)​LinkedIn シンガポール
Dia 1.6B https://github.com/nari-labs/dia 1.6 B パラメータの対話特化 TTS。感情・ノンバーバル表現も生成可能な完全 OSS。 Nari Labs が Dia 公開(2025-04-22)​VentureBeatInstagram Nari Labs(韓国スタートアップ)​Instagram 韓国
Tavus Hummingbird-0 https://www.tavus.io/post/introducing-hummingbird-0-a-leap-in-lip-sync 音声+短い参照動画から高精度リップシンクを行うゼロショットモデル。 Hummingbird-0 研究プレビュー公開(2025-04-24)​The OS for Human-AI Interaction Tavus Inc.(San Francisco)​The OS for Human-AI Interaction 米国
OpenAI gpt-image-1 https://openai.com/index/image-generation-api テキスト/画像入力対応のマルチモーダル画像生成モデル。 Images API で一般提供開始&Figma 連携開始(2025-04-23)​OpenAI OpenAI(San Francisco) 米国
ChatGPT Deep Research Mini https://chat.openai.com 既存 Deep Research を軽量化し、無料層でも月5タスク利用可能にしたリサーチ特化モード。 「Deep Research Mini」提供開始(2025-04-24)​The Verge OpenAI 米国
Dreamina Seedream 3.0 https://dreamina.capcut.com ByteDance系 CapCut が提供する高解像度テキスト-to-イメージ生成。 Seedream 3.0 モデル公開(2025-04-24)​スレッズ ByteDance / CapCut 中国
Perplexity Assistant https://www.perplexity.ai 音声操作でリマインダーや予約まで行えるモバイル AI アシスタント。 iOS 版に音声アシスタント機能追加(2025-04-23)​The Verge Perplexity AI Inc.(San Francisco) 米国
Pika Pikaffects https://pika.art Pika 1.5 に搭載された物体変形エフェクト群(explode/melt 等)をワンクリック付与できる生成動画向け特殊効果。 「Pikaffects」追加アップデート(2024-10 & 2025-03 以降順次、最新は 2025-03 の新4種)​VentureBeat Pika Labs Inc.(Palo Alto)​VentureBeat 米国

アップデートピックアップ

1. Grok Vision (xAI)

Breakthrough – Grok-1.5 V adds full‐image input to the Grok LLM, beating GPT-4V and Gemini 1.5 Pro on xAI’s new RealWorldQA benchmark and matching or exceeding them on MM-benchmarks such as MMMU and AI2D. (Grok-1.5 Vision Preview | xAI)
Why it matters

従来の Grok-1.5 新 Grok-1.5 V
入出力 テキストのみ テキスト + 画像
物理世界理解 RealWorldQA 68.7 %(GPT-4V 61 %)
ユースケース Q&A コード生成 from diagrams・現場写真の判断 等

競合優位: GPT-4V は長文読解・OCRは強いものの、実写の奥行き判断や俯瞰写真からの空間推論では Grok-1.5 V が高精度。


2. Genspark AI Slides

Breakthrough –4/23 公開の “AI Slides” は、資料構成→調査→デザイン→校正をエージェントが一括実行。PDF/Excel を drag-drop するだけで引用付きスライドを生成。 (Genspark AI Slides Tool Launched: Revolutionizing Professional ...)
優位性

  • 完全自動: Gamma, Beautiful.ai は雛形作成後の手作業が必要。
  • 非構造データ対応: 論文や請求書内の表を読み取り自動で図表化。
  • バックエンド LLM 選択: 社内 Llama 3 でも OpenAI でも走る BYO-model 設計で機密文書を閉域処理できる。

3. SkyReel V2 (Skywork AI)

Breakthrough – 4/24 に 720 p の Diffusion-Forcing 14B 重みを OSS 公開。無限長オートレグレッシブ生成と I2V/T2V を一つのモデルで実現。 (GitHub - SkyworkAI/SkyReels-V2: SkyReels-V2: Infinite-length Film Generative model)
優位性

  • オープンウェイト: Sora・Veo などクローズド競合と対照的。
  • 長尺: 1 分超の 24 fps ビデオが 1 GPU で出力可能。
  • 拡張性: Camera-Director / Prompt-Enhancer など周辺 OSS が順次追加予定。

4. Dia 1.6 B (Nari Labs)

Breakthrough – 1.6 B パラメータの対話特化 TTS を5日前 OSS 公開。非言語音も一括生成し、Emotion-Prompt に対応。 (Dia-1.6B TTS : Best Text-to-Dialogue generation AI model - Medium)
優位性

ElevenLabs v2 Dia 1.6 B
料金 SaaS 従量課金 無償・自前 GPU
話者追加 要クローン料 音声 or テキストだけで即
非言語音 制限あり laugh / sigh / cough などタグで制御

5. Tavus Hummingbird-0

Breakthrough – ゼロショット高精度リップシンクを API で提供開始。参考動画数秒&音声だけで人物そのままに口パクを合わせる。 (Introducing Hummingbird-0: A Leap in Lip Sync)
優位性

  • 学習不要: Fine-tune が要る Wav2Lip 系より導入が容易。
  • 一貫性: 頬や輪郭を崩さないため企業用トレーニング動画でも違和感なし。
  • コスト: 1 分 $1.50 はポストプロダクションの再撮コストを桁違いに削減。

6. OpenAI gpt-image-1

Breakthrough – Images API が開放され Figma でライブ編集可能に。テキストを画像に正確に描写し、背景拡張・要素削除まで一括。 (Introducing our latest image generation model in the API - OpenAI)
優位性


7. ChatGPT Deep Research Mini

Breakthrough – 高負荷だった Deep Research を o4-mini ベースに軽量化し、無料枠(月5件)で公開。 (ChatGPT is getting a ‘lightweight’ version of its deep research tool | The Verge)
優位性

  • 計算コスト 50 %↓ でほぼ同精度の長文調査出力。
  • 裾野拡大: Free→Team→Enterprise が同一 UX を共有でき社内展開しやすい。

8. Seedream 3.0 (ByteDance Seed)

Breakthrough – 4/15 公開の次世代 T2I。「Sparse Bit-Token」表現で解像度と構図整合性を大幅改善。 (ByteDance Seed)
優位性

  • 8 K 相当の詳細度 でも破綻しにくい(Imagen2 同等、速度は 1.4×)。
  • アジア系データ強化: 人物生成バイアスが低く、中国市場の広告素材需要に直結。

9. Perplexity Voice Assistant (iOS)

Breakthrough – 4/25 アプリ更新で音声アシスタントが iOS へ拡張。自然言語から Uber 予約や OpenTable 予約を一気通貫。 (Perplexity Changelog)
優位性

  • マルチアプリ実行: Siri はリンク手前で止まる操作でも実タスク完了まで自動。
  • 継続対話: バックグラウンドに回しても会話維持。Android 版同等機能を Apple エコシステムでも実現。

10. Pikaffects (Pika 1.5)

Breakthrough – 「crumble / dissolve / deflate / ta-da」など新 4 種エフェクトを追加(6 か月前~3 月にかけ順次)。 (Pika 1.5 adds new Pikaffects: crumble, dissolve, deflate, ta-da!)
優位性

  • ワンクリック物理演算: Runway Gen-2 では再生成だが、Pikaffects は既存クリップに局所適用。
  • モバイル同時対応: iOS からも同エフェクトを直ちにプレビューでき、ショート動画制作が高速。

アップデートまとめ

各アップデートは「入力モードの拡張」「オープン化」「ゼロショット性能」「運用コスト削減」という4つの軸で既存プロダクトに優位性をもたらしています。

導入検討時のチェックポイント

対応プラットフォーム / ライセンス形態 / TCO(Total Cost of Ownership) で整理しました。

TCO の考え方

  • SaaS / API → 月額または従量課金 + チーム人数
  • OSS → ライセンス料 0 円だが GPU/HW・運用要員・クラウド転送コストを加算
  • ハイブリッド (SaaS + ローカル推論) → 上記の合算
# サービス 対応プラットフォーム ライセンス形態 想定コスト (小規模チーム/⽉) コストの内訳・留意点
1 Grok Vision iOS (単独アプリ) / X Web 商用 SaaS (X Premium/Premium+) 無料 (10msg/2h 制限)〜 約 $50/ユーザ (Premium+ 2025.02 値上げ) (X's Grok AI chatbot is now available to all users, X doubles its Premium+ plan prices after xAI releases Grok 3) Free 版でも画像入力可。Premium+ は広告ゼロ+API 優先枠で Vision 無制限。
2 Genspark AI Slides Web (Chrome/Safari), PPTX DL Freemium SaaS Free (200クレ/日)〜 $25/ユーザ Pro (The Complete Guide to Genspark Super Agent: Mastering the AI ...) Pro はクレジット無制限・自社 LLM BYO 対応。年間一括で 15% 割引。
3 SkyReel V2 GitHub / Docker / Hugging Face MIT License (OSS) (SkyworkAI repositories · GitHub) 自前 A100 80 GB ×1 なら 約 $2.5/時 の GPU 料金 + ストレージ 重み 25 GB。推論 720 p 15 fps で VRAM 48 GB 推奨。クラウドならスポット最適化で可。
4 Dia 1.6 B GitHub / HF / any OS Apache 2.0 (nari-labs/dia: A TTS model capable of generating ultra ... - GitHub) A10G ×1 (¥100/h 程度) モデル 3 GB。リアルタイム TTS なら CPU でも可。
5 Tavus Hummingbird-0 REST API / Web UI 商用 SaaS (Free/Starter/Growth) Free (5 min/月) … $59/mo Starter, 超過 $1.50/分 (Plans and Pricing - Tavus) 1 分あたり請求。大規模配信なら Growth $397 + 従量。
6 OpenAI gpt-image-1 REST API / Figma Plugin / ChatGPT 商用 API 画像生成 $0.04(中解像) /枚 + $10/100万 input token ([Pricing OpenAI](https://openai.com/api/pricing/))
7 ChatGPT Deep Research Mini ChatGPT Web / iOS / Android サブスク (Plus/Team/Pro) Free 層 5 件/月, $20/Plus 25 件, $200/Pro 250 件 (ChatGPT is getting a 'lightweight' version of its deep research tool, How much does ChatGPT cost? Everything you need to know about ...) Mini に切替後もオリジナル Deep Research と同 UX。
8 Dreamina Seedream 3.0 (CapCut 内) Web / Windows / macOS / iOS / Android Freemium SaaS (クレジット制) Free (低解像度) / $24.17/mo Starter 21,600 クレ/年 ≈ 360 min video or 10,800 images ([CapCut - Pippit AI Pricing & Plans](https://pippit.capcut.com/pricing))
9 Perplexity Assistant (Voice) iOS / Android / Web / API Freemium + $20/mo Pro (600 Pro Search/日) (Perplexity's 'Pro Search' AI upgrade makes it better at math and ...) Pro には $5/月 API クレジット含む。iOS アプリはウォッチ/CarPlay 拡張。
10 Pikaffects (Pika 1.5) Web / macOS / Windows サブスク (credit 制) Free (80 credits), $8 Standard, $28 Pro/mo billed yearly (Pika) 新エフェクト 1 本=15~80 credit。GPU レンダリングは Pika 側負担。

導入のヒント

  1. SaaS 型は従量単価 + 席数を把握

    • Grok Vision や Perplexity → チーム人数が増えると月額が線形に増加。
    • OpenAI など API 従量の場合、推論量を抑えるプロンプト最適化が TCO に直結。
  2. OSS 型は GPU 時間が支配的

    • SkyReel V2, Dia は バッチ生成で GPU 利用率を高めると半額以下まで圧縮可能。
    • マルチ GPU 必要ならオンプレ vs クラウドを比較。長時間運用は 中古 A100 購入も選択肢。
  3. ハイブリッド運用

    • Genspark Slides は 社内 Llama 3 でオフライン推論しつつ、外部 API は不要にできる。
    • Dreamina + CapCut Pro は素材生成→編集→配信を一つの UI に集約でき、動画編集ソフトのライセンス費を削減。
  4. 隠れコストも確認

    • ストレージ転送 (SkyReel 生成動画)
    • 監査ログ/ISO 対応 (Tavus Growth 以上)
    • 従量 API 上限アラート (OpenAI, Perplexity)

結論:

  • **小規模チームで“すぐ使ってみる”**なら — Genspark Free + Grok Free + Dreamina Free が無償枠豊富。
  • エンタープライズでプロダクション投入 — Tavus Growth や OpenAI Reserved Capacity といった SLA 付きプランを前提にランニングを設計。
  • 自社 GPU がある研究組織 — SkyReel V2 & Dia をローカル推論して IP/個人情報流出リスクゼロ化

所感

  • 調査元XのPostをリンク載せようかと思ったらPost見失った。何故スマホで見かけたタイトルをPCで検索したら出てこないのだろう
GitHubで編集を提案

Discussion