🐰

うさぎでもわかる可灵2.0：中国の最新AI映像生成モデルを解説

2025/04/16に公開

 うさぎでもわかる可灵2.0：中国の最新AI映像生成モデルを解説
 はじめに最近のAI技術の進化はめまぐるしく、特に映像生成の分野では次々と新しいモデルが登場しています。OpenAIのSoraが大きな注目を集めた後、世界各国でAI映像生成技術の開発競争が激化しています。
中国のテック業界でも独自のAI映像生成モデルの開発が進んでおり、2025年4月15日、中国の大手テクノロジー企業である快手（Kuaishou）が、自社のAIモデル「可灵（Keling）」の最新バージョン2.0を発表しました。このモデルは単なるアップデートではなく、AI映像生成における新たな交互理念「MVL（Multi-modal Visual Language）」を導入した革新的なものです。
うさぎでも理解できるよう、この記事では可灵2.0の概要、特徴、そして技術的な革新点について解説します。ぴょんぴょん進んでいきましょう！

 可灵2.0とは何か
 可灵AIの概要と発展経緯可灵AI（Keling AI）は、中国のショートビデオプラットフォーム「快手（Kuaishou）」が開発したAI映像生成モデルです。2024年6月に初めて発表されてから、わずか10ヶ月の間に20回以上のアップデートを重ねてきました。
可灵AIは主に二つの主要コンポーネントで構成されています：
可灵（Keling）：動画生成モデル
可图（Katu）：画像生成モデル
今回の発表では、これらの両方が2.0にアップグレードされました。


可灵AIの全体構成図

 2025年4月15日の発表内容2025年4月15日、快手の高級副総裁・社区科学線責任者である盖坤（Gai Kun）氏が北京で開催された「灵感成真（インスピレーションが現実に）」2.0モデル発表会において、可灵AIの基礎モデルのアップグレードを発表しました。
具体的には：
可灵2.0映像生成モデル
可图2.0画像生成モデル
の2つが正式にグローバル向けにリリースされました。

 可灵2.0と可图2.0の基本的な特徴可灵2.0モデルは、次の分野で大幅な進化を遂げています：
動的質感（動きの自然さ）
言語理解と指示への対応
映像の美学的質感
また、可图2.0モデルは：
指示遵守能力の向上
映画的な美学表現の強化
より多様な芸術スタイルの対応
を特徴としています。特に注目すべきは、60種類以上のスタイル化効果をサポートするようになった点です。

 可灵2.0の主要な機能と特徴
 動画生成能力の向上点可灵2.0では、前バージョンから大幅に動画生成能力が向上しています。特に「大師版（マスターバージョン）」では、以下の点で顕著な改善が見られます：

言語理解の強化：より複雑な指示を理解し、ユーザーの意図に沿った映像を生成

動きの自然さ：人物や物体の動きがより自然で滑らかに

映像の美学的質感：より芸術的で美しい映像表現が可能に

 多モーダル編集機能の詳細可灵2.0の最も革新的な機能の一つが、新たに追加された多モーダル編集機能です。この機能により：
既存の映像に対して「追加」「削除」「修正」などの編集が可能
文字だけでなく、画像や映像の一部を参照して編集指示が可能
ユーザーの意図をより柔軟に理解し、映像コンテンツを簡単に編集
この機能は、専門的な映像編集スキルを持たないユーザーでも、AIを通じて高度な映像編集を行えるようにするものです。


可灵2.0の多モーダル編集機能の概念図

 「可图2.0」の画像生成機能とその向上点可图2.0は、可灵AIの画像生成コンポーネントで、以下の点で大きく向上しています：

指示遵守能力：ユーザーの指示をより正確に反映した画像生成が可能に

映画的な美学表現：映画のような質感を持つ画像の生成能力が向上

多様な芸術スタイル：60種類以上のスタイル化効果をサポート

創造性と想像力：モデルの創造的表現力が大幅に向上
興味深いのは、現在の可灵AIでの動画生成の約85%が「画像から動画へ」の生成であり、基となる画像の質が動画の質に大きく影響するという点です。つまり、可图2.0の向上は間接的に可灵2.0の映像生成能力も底上げしていることになります。

 使用例とユースケース可灵2.0の主な利用シーンには以下のようなものがあります：
クリエイティブコンテンツ制作（ショートビデオ、広告など）
エンターテインメント産業（映像効果、コンセプト映像）
個人のSNSコンテンツ制作
教育コンテンツの作成
商品のデモ映像作成
特に注目すべきは、テキストだけでなく画像や既存の映像をもとに新しい映像を生成できる点で、これにより専門知識がなくても「頭の中のイメージ」をより直感的にAIに伝えることができるようになっています。

 MVL技術：映像生成の新たな交互理念
 Multi-modal Visual Language (MVL)の仕組み可灵2.0の最大の革新点は、AI映像生成のための新しい対話コンセプト「Multi-modal Visual Language（MVL）」の導入です。MVLは、ユーザーが複雑な創作意図をAIに効率的に伝えるための新しい方法です。
MVLの特徴は、テキストだけでなく、画像参照、映像クリップなどの複数のモダリティ（情報の種類）を組み合わせて、より複雑で多次元的な創作意図をAIに直接かつ効率的に伝達できる点にあります。


MVL（Multi-modal Visual Language）の概念図

 TXTとMMWの組み合わせMVLは主に次の2つの要素で構成されています：

TXT（Pure Text）：意味的な骨格となるテキスト部分

MMW（Multi-modal-document as a Word）：マルチモーダルな記述子
この組み合わせにより、映像生成の基本的な方向性（TXTで指定）と細かい制御（MMWで指定）の両方を実現し、クリエイターの創作意図をより正確に表現することができます。
特筆すべきは、MMWが画像や映像だけでなく、将来的には音声や動きの軌跡などの他のモダリティ情報も取り入れることができる設計になっている点です。これにより、ユーザーはより豊かな表現が可能になります。
うさぎにとってはちょっと難しいかもしれませんが、要するに「言葉で説明するのが難しいイメージを、見本や例を示しながら伝えられる」ということなんですよ。

 従来のAI映像生成との違い従来のAI映像生成モデルとMVLを採用した可灵2.0の主な違いは：


従来のモデル
可灵2.0（MVL採用）


テキストプロンプトのみで指示
テキスト＋画像＋映像などで複合的に指示可能

複雑なアイデアを言葉だけで表現する必要がある
視覚的な参照を使って直感的に意図を伝えられる

細かい制御が難しい
基本方向と詳細な制御を分離して指定可能

一貫したキャラクターや風景の維持が困難
参照画像や映像によってスタイルや一貫性を維持しやすい

要するに、MVLは「百聞は一見にしかず」の原則をAI映像生成に適用したようなものと言えるでしょう。

 技術的な革新点MVL技術の主な革新点は：

マルチモーダル情報の統合：異なる種類の入力情報（テキスト、画像、映像など）を統合的に処理

情報の階層化：基本的な指示（TXT）と詳細な制御（MMW）を階層的に処理

直感的なインターフェース：複雑な技術的知識がなくても、直感的に創作意図を伝達可能

拡張性：将来的に音声や動きのパターンなど、さらに多様なモダリティに対応可能な設計
この技術により、「頭の中にある複雑なイメージ」をAIに伝えるという、AI創作における最大の課題の一つに対する解決策が提示されたと言えます。

 可灵AIの市場実績と将来展望
 ユーザー数と生成コンテンツの統計可灵AIは2024年6月の発表から急速に成長しており、最新の統計によると：
グローバルユーザー数が2200万人を突破
過去10ヶ月でユーザー数が25倍に急増
累計で1.68億の動画と3.44億の画像を生成
世界各国から1.5万以上の開発者と企業がAPIを活用
特に注目すべきは、わずか10ヶ月でこれだけの成長を遂げた点です。これは、AI映像生成に対する需要の大きさと、可灵AIの使いやすさを示していると言えるでしょう。


可灵AIの成長データ（2024年6月〜2025年4月）

 開発者エコシステムの広がり可灵AIは一般ユーザーだけでなく、開発者向けのエコシステム構築にも力を入れています。世界中から1.5万以上の開発者と企業が可灵のAPIを活用して、様々な業界シーンに応用しています。
これにより、可灵AIは単なる消費者向けアプリケーションを超えて、ビジネスソリューションとしての価値も高めています。

 競合モデルとの比較2025年のAI映像生成市場は競争が激化しており、主な競合モデルとの比較は以下の通りです：


モデル名
開発元
特徴
強み


Sora
OpenAI
長時間の高品質映像生成
場面の一貫性、物理法則の理解

Vidu
生数科技
リアリスティックな映像
細部の再現性

即梦AI
-
高速な生成、中国語文字生成
単フレーム画像の質、生成効率

Minimax-Video
MiniMax
多様な映像スタイル
スタイルの多様性

可灵2.0
快手
MVL技術、多モーダル編集
インタラクション、編集機能

VBENCHによる2025年初頭の評価では、可灵2.0は特に「動的質感」「言語理解」「画面美学」の分野で高い評価を得ています。ただし、OpenAIのSoraと比較すると、長時間映像の一貫性などでまだ改善の余地があります。

 今後の発展可能性と課題可灵AIの今後の発展可能性と課題は以下のように考えられます：
発展可能性：
MVL技術のさらなる拡張（音声や触覚などの新しいモダリティの統合）
より長時間の映像生成への対応
産業向けのカスタマイズソリューションの開発
リアルタイム映像生成への挑戦
課題：
倫理的・法的問題（著作権、偽情報など）への対応
より長い映像での一貫性の維持
計算資源の効率化（現在の生成には1〜5分程度必要）
国際市場での競争力強化
盖坤氏は「AIは創意表現を助ける大きな可能性を持っているが、現在の業界の発展状況はまだユーザーのニーズを満たすには遠く及ばない」と述べており、AI生成コンテンツの安定性やユーザーの複雑な創意の正確な伝達には「まだ多くの課題がある」と認識しています。

 まとめ可灵2.0は、中国のAI技術が独自の進化を遂げている好例と言えるでしょう。特にMVL（Multi-modal Visual Language）という新しい対話概念の導入は、AI映像生成における「人間の創造的意図をAIにどう伝えるか」という本質的な課題に対する興味深いアプローチです。
日本の技術者の視点から見ると、可灵2.0は特に以下の点で注目に値します：
マルチモーダルな入力方法による直感的な創作プロセス
基礎モデルと編集機能の統合による使いやすさ
累計2200万人というグローバルユーザーの獲得速度
今後のAI映像生成技術は、単に「よりリアルな映像を生成する」だけでなく、「人間の創造的プロセスをいかに支援するか」という方向に進化していくでしょう。可灵2.0はその一例であり、MVLのようなインターフェース革新が今後のAI創作ツールにも影響を与える可能性があります。
うさぎも驚くような映像生成AIの世界は、まだまだ発展途上。これからの進化に注目です！🐰

従来のモデル	可灵2.0（MVL採用）
テキストプロンプトのみで指示	テキスト＋画像＋映像などで複合的に指示可能
複雑なアイデアを言葉だけで表現する必要がある	視覚的な参照を使って直感的に意図を伝えられる
細かい制御が難しい	基本方向と詳細な制御を分離して指定可能
一貫したキャラクターや風景の維持が困難	参照画像や映像によってスタイルや一貫性を維持しやすい

モデル名	開発元	特徴	強み
Sora	OpenAI	長時間の高品質映像生成	場面の一貫性、物理法則の理解
Vidu	生数科技	リアリスティックな映像	細部の再現性
即梦AI	-	高速な生成、中国語文字生成	単フレーム画像の質、生成効率
Minimax-Video	MiniMax	多様な映像スタイル	スタイルの多様性
可灵2.0	快手	MVL技術、多モーダル編集	インタラクション、編集機能

うさぎでもわかる可灵2.0：中国の最新AI映像生成モデルを解説

はじめに

可灵2.0とは何か

可灵AIの概要と発展経緯

2025年4月15日の発表内容

可灵2.0と可图2.0の基本的な特徴

可灵2.0の主要な機能と特徴

動画生成能力の向上点

多モーダル編集機能の詳細

「可图2.0」の画像生成機能とその向上点

使用例とユースケース

MVL技術：映像生成の新たな交互理念

Multi-modal Visual Language (MVL)の仕組み

TXTとMMWの組み合わせ

従来のAI映像生成との違い

技術的な革新点

可灵AIの市場実績と将来展望

ユーザー数と生成コンテンツの統計

開発者エコシステムの広がり

競合モデルとの比較

今後の発展可能性と課題

まとめ

Discussion