Zenn
Closed2

長文コンテンツの文字起こしを行う「Cartesia Narrations」を試す

kun432kun432

https://x.com/cartesia_ai/status/1902049947522130261

本日、Cartesia Narrations をパブリック ベータ版として公開できることを嬉しく思います。Narrations は、Sonic 2.0 を使用して長編コンテンツをナレーションするためのクリエイター ツールです。

オーディオブックやポッドキャストを作成したり、Substack の投稿をナレーションしたりするのに使用できます。

いくつかのハイライトをスレッド🧵で

https://x.com/cartesia_ai/status/1902050010772205765

Substack、Medium、Google Docs などのプラットフォームからコンテンツをインポートしたり、PDF、Word ドキュメントなどをアップロードしたりできます。

https://x.com/cartesia_ai/status/1902050029046788556

何百もの音声から選択するか、AI 音声クローンを使用して独自の音声を作成します。

https://x.com/cartesia_ai/status/1902050078753480931

同じ段落内で異なる音声をシームレスにミックスします。引用の音声化や、複数の文字で書かれたスクリプトのナレーションに最適です。

https://x.com/cartesia_ai/status/1902050116133122164

完了したら、「エクスポート」をクリックします。 🍾

https://x.com/cartesia_ai/status/1902050128137179470

以下のリンクからナレーションをお試しください!

(サーバー容量の拡張に伴い、エクスポートは現在 Pro ユーザーに限定されていますが、今後数週間以内に無料ユーザーにも展開される予定です。)

https://go.cartesia.ai/narrations

kun432kun432

Cartesiaについては以下で試している。高品質かつ生成が非常に高速なTTSサービスとして注目されている。

https://zenn.dev/kun432/scraps/9f0b143b4eae43

先日リリースされた新しいモデル「Sonic-2」も試してみたが、日本語についても以前より精度が上がっているように思えた。ただし、それほど長い文章で試したわけではないので、今回のような長文で試してた場合に精度がどうなるかは気になるところ。

ということで試してみる。

ログインして左のNarrationsをクリックすると以下のようなメニューが表示される

ざっと見た感じ、コンテンツをスクラッチで入力するか、インポートするか、が選択できる。インポートも色々用意されている様子。

今回はスクラッチでやってみる。

以下のようなエディタ画面が開くのでここで入力していけばよい様子。で、右から音声を選択するという感じかな。

まずデフォルトの音声を変更しておく。Narrationsでは段落や文字単位で音声を選択できるが、特に指定しない場合はデフォルトの音声で発話される。ここでは日本語の男性の声を選択した。

ではコンテンツを入力する。今回は、ChatGPTで短めのポッドキャスト原稿を生成してもらった。段落ごとに話者が変わるイメージ。

こんにちは、太郎です。今日は花子さんと、2025年春の競馬、G1レースの展望について語りたいと思います。まずは、各レースの見どころについて教えてください。

こんにちは、花子です。春のG1レースは例年通り熱い展開が期待されますね。たとえば、フェブラリーステークスで見せたコスタノヴァの走りは印象的でしたし、今後のレースにも大きな影響を与えそうです。

確かに。さらに、皐月賞ではファウストラーゼンやピコチャンブラックといった有力馬が注目されています。若手の勢いがこのレースの鍵になりそうですね。

その通りです。そして、NHKマイルカップからはアドマイヤズームの動きにも期待が高まっています。各レースで個性豊かな馬たちが戦うので、騎手や調教師の戦略も見逃せません。

また、春の締めくくりとして注目される天皇賞(春)も、昨シーズンの歴史を踏まえて、今年はより一層白熱した争いが予想されますね。

まさにその通りです。伝統と革新が融合する春のG1レース、ファンにとっては見逃せないシーズンになりそうです。

今日は、各レースの見どころや有力馬について熱く語れましたね。来たる春のレース、私たちもワクワクしながら応援していきましょう!

はい、最新情報をしっかりチェックしながら、競馬ファンとして楽しみたいですね。ご清聴ありがとうございました。

ありがとうございました。次回もお楽しみに!

これをペーストする

テキストは段落単位になっているのがわかる。テキストの音声を再生する場合、全部を通して再生もできるし、段落単位で再生もできる。この場合、デフォルトで指定した音声で再生される。

選択した文字ごとに音声を変更できる。2段落目を全部選択して、音声を変更する。

女性の声に変更してみる。

選択した範囲の色が変わり、音声が変更されている。

これを繰り返していけば、ポッドキャスト的な対談形式の音声が生成できる。

一通り音声を変更して全部再生してみたもの。

https://www.youtube.com/watch?v=MJkqVGURjJA

少し読み間違いはあるが、このあたりはしょうがないところかなぁ・・・一応、MFAベースのIPAで発音の設定ができるらしいが、Narrationsでもできるのかはわからない

https://docs.cartesia.ai/build-with-cartesia/capability-guides/specify-custom-pronunciations

あとはこの辺のベストプラクティスを見てテキストを調整する感じかな。

https://docs.cartesia.ai/build-with-cartesia/formatting-text-for-sonic-2/best-practices

で見てみると分かる通り、段落ごとに都度都度生成していて、この画面で全部再生する限りは会話ターンのスムーズさにはやや欠ける印象がある。このあたりはエクスポートしたときにどうなるか、というところなのだけども、エクスポートするには現時点ではProプラン(有償)への変更が必要になるので、今回はパス。無料プランでもできるようになるらしいので、またあらためて。

このスクラップは1ヶ月前にクローズされました
ログインするとコメントできます