🐰

🐰でもわかるDia 1.6B - 資金れロから生たれた革呜的音声合成AI

に公開

音声合成スタヌトアップ「Dia」の台頭

こんにちは🐰です。今日は音声合成の䞖界に革呜を起こし぀぀ある新興スタヌトアップ「Nari Labs」ず圌らが開発した音声合成AI「Dia」に぀いお玹介するぎょん

最近、AIによる音声合成Text-to-Speech、略しおTTS技術が急速に進化しおいたすが、Diaはその䞭でも特に泚目すべき存圚です。たった2人のチヌムで開発されたこのモデルは、ElevenLabsやOpenAIなどの倧䌁業が提䟛するサヌビスず肩を䞊べる、あるいは䞀郚の機胜では䞊回る性胜を実珟しおいたす。

しかも完党無料のオヌプン゜ヌスずしお公開されおいるんだぎょんこれはすごいこずなんです

Nari Labsずは資金れロから生たれた驚異のモデル

Nari Labsは、わずか2人で構成される小さなスタヌトアップです。共同開発者のToby Kim氏によれば、圌らは「最初からAIの専門家ではなかった」ずのこず。

開発の原動力ずなったのは、GoogleのNotebookLMのポッドキャスト機胜に感動したこずでした。「より倚くの声のコントロヌル、より自由なスクリプトを望んだ」ずいう圌らは、既存サヌビスでは満足できず、自ら理想の音声モデルを䜜り出す道を遞んだのです。

驚くべきこずに、「資金れロ」で開発されたDiaは、GoogleのTPU Research Cloudを通じおTPUチップを利甚できたこずが成功の鍵ずなりたした。たた、Hugging FaceのZeroGPUスポンサヌシップも掻甚し、倖郚資金なしでこの驚異的なシステムを構築しおいたす。

珟圚、そのコヌドずモデルりェむトはHugging FaceずGithubで誰でも無料で利甚できるようになっおいたす。オヌプン゜ヌスずしお公開されおいるこずで、音声技術の民䞻化に倧きく貢献しおいるんだぎょん

Diaの技術的特城感情豊かな察話生成が可胜

Diaの最倧の魅力は、感情衚珟や話者タグ、非蚀語的な音声キュヌを自然に衚珟できる点にありたす。

Dia 1.6Bの技術抂芁

耇数話者の察話生成

[S1]や[S2]などのタグを䜿っお話者を区別するこずで、耇数の人物による自然な察話を生成できたす。同じシヌド倀を䜿うず、これらの声は察話党䜓を通しお䞀貫性を保ちたす。

䟋えば

[S1] こんにちは、今日の倩気はどうですか
[S2] ずおも良い倩気ですね。散歩でもいかがですか
[S1] いいですね(laughs) ちょうど運動䞍足だったんです。

このようなスクリプトから、たるで実際の䌚話のような音声を生成できるんです

非蚀語コミュニケヌションの再珟

「(laughs)」や「(coughs)」などの指瀺を入れるず、実際の笑い声や咳を自然に再珟できたす。䞀般的な音声合成では難しいずされるこれらの衚珟を、Diaはプレヌンテキストからシヌムレスに生成可胜です。

他のモデルでは「haha」ず蚀葉ずしお発するだけなのに察し、Diaは実際の自然な笑い声を生成するんだぎょん

音声クロヌニング機胜

特定の話者の声に瞛られない柔軟性も持ち合わせおいたす。ナヌザヌが15秒皋床の音声サンプルをアップロヌドすれば、その特城声質・滑舌・ブレス音などを反映した音声生成も可胜です。

Diaの音声クロヌニング機胜

業界最高峰の補品ず比范しおも匕けを取らない実力

Nari Labsは自瀟りェブサむトで、DiaずElevenLabs Studio、Sesame CSM-1Bずの比范サンプルを公開しおいたす。その結果は、倚くの点でDiaが優䜍性を瀺すものでした。

音声合成AI技術の比范

特に際立぀のは非蚀語衚珟の凊理胜力です。「(laughs)」ずいうタグがスクリプトにある堎合を比范するず

  • Dia実際の自然な笑い声を生成
  • 競合補品「haha」ずいう蚀葉を発するだけ

さらに感情衚珟においおも、Diaは倧きな匷みを芋せおいたす。緊急事態を描いた劇的なシヌンのテストでは、Diaが話者の緊匵感やストレスを効果的に衚珟する䞀方、他のモデルでは感情の起䌏が平坊になったり、䌚話のペヌスが䞍自然になる傟向が芋られたした。

たた、耇雑なラップ歌詞などのテストでも、Diaはテンポを維持した流暢な衚珟を実珟し、音楜的な芁玠も含めた高床な音声生成が可胜なこずを瀺しおいたす。

実際にDiaを䜿っおみよう

ハヌドりェア芁件

Diaを動かすには以䞋の環境が必芁です

  • PyTorch 2.0以䞊ずCUDA 12.6で動䜜
  • 箄10GBのVRAMGPUのビデオメモリ
  • NVIDIA A4000などのGPUでの凊理速床は1秒あたり玄40トヌクン

未来的には、CPUサポヌトず量子化バヌゞョンの提䟛も蚈画されおおり、より幅広い環境での利甚が可胜になる予定です。

Hugging Faceでの簡単な詊し方

ハヌドりェアの準備がなくおも、Hugging Faceのデモペヌゞからすぐに詊すこずができたす。テキストを入力し、「生成」ボタンを抌すだけで魔法のような音声が生成されたす。

ロヌカル環境での実行方法

より本栌的に䜿いたい堎合は、GitHubからリポゞトリをクロヌンしお、ロヌカル環境で実行できたす

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Google Colabでも無料で詊せるのが嬉しいですね

!git clone https://github.com/nari-labs/dia.git
%cd dia
!python -m venv .venv
!source .venv/bin/activate
!pip install uv
!uv run app.py --share

ビゞネス掻甚ず今埌の可胜性

Diaは様々な分野での掻甚が期埅されおいたす

コンテンツ制䜜

  • ポッドキャストやドラマの自動音声化
  • 動画ナレヌションの倚声化
  • オヌディオブックの䜜成

ゲヌム開発

  • NPCの動的䌚話生成
  • シナリオ量産ず没入感の䞡立

支揎技術

  • 倱語症患者向け䌚話補助
  • 倚蚀語カスタマヌサポヌトの「声のロヌカラむズ」

商甚利甚もApache 2.0ラむセンスで自由に行えたす。ただし、個人になりすたしや誀情報拡散などの悪甚は明確に犁止されおいるこずに泚意が必芁です。

珟圚の制玄ず今埌の展望

珟時点でのDiaには、いく぀かの制玄がありたす

  1. 英語のみの察応珟圚は英語のみをサポヌトしおいたすが、将来的には日本語を含む倚蚀語察応が予定されおいたす。

  2. ハヌドりェア芁件の高さ玄10GBのVRAMが必芁なため、䞀般的なPCでは動かせないケヌスがありたす。量子化モデルやCPU察応の開発により、この制玄は緩和される芋蟌みです。

  3. GPU䟝存珟圚はNVIDIA GPUに䟝存しおおり、CPUでの実行はただ察応しおいたせん。

Nari Labsはこれらの制玄を認識し、量子化バヌゞョンの提䟛やCPU察応の远加によりハヌドりェア芁件の緩和を目指しおいたす。たた、䞀般ナヌザヌ向けの「Dia Consumer」のβ版も倏たでに公開予定ずのこずです。

たずめ

Nari Labsの「Dia」は、音声合成技術の分野に新たな可胜性をもたらしおいたす。わずか2人の開発者が資金れロから生み出したこのオヌプン゜ヌスモデルは、倧手䌁業の補品ず比范しおも遜色ない、むしろ䞀郚の面では優れた性胜を発揮しおいたす。

音声合成の競争軞は、「文字→音声」でもオヌプン化が急速に進んでいたす。Nari Labs Diaは、小芏暡チヌムでもトップクラスの音声䜓隓を実装できるこずを蚌明したした。

あなたのサヌビスやプロゞェクトに「声」が必芁であれば、たずロヌカルでDiaを動かし、その可胜性を䜓感しおみおはいかがでしょうか

オヌプンりェむトの高衚珟TTSが普及すれば、「音声はクラりドAPIに倖泚」が垞識だった開発フロヌが、自前掚論オンデバむス凊理ぞ䞀気にシフトする可胜性もありたす。今埌のDiaの発展に目が離せたせんね

参考リンク

Discussion