🎬

Synthesiaに触れてみた

2023/04/22に公開

テキストから動画を生成するサービスとして比較的有名なSynthesiaですが、特に日本語では情報が少ないようです。

以下は使い方の説明ではなく、Synthesiaおよびtext-to-video一般に関する所感です。

なぜtext-to-videoが良いのか

まずSynthesiaとは関係なく、なぜtext-to-videoが使えると思うかを書いてみます。

こまめに手直しできる

発表スライドを何回も手直しするのと同じように、動画も何回も手直ししたくなります。Text-to-videoはこれを簡単に実現してくれます。動画の一部分を削除する場合、人間の生の収録だと「つなぎ」の部分がぎこちなくなってしまったりしますが、そういう問題も起きません。

複数バージョンを用意して比較するのが簡単

上のポイントと似ていますが、若干異なる複数バージョンを用意して、比較してみるというのが明らかに楽になりますよね。

機材が要らない

安い機材で動画を撮ると完成度が残念すぎるので、結局それなりの機材を買う必要がありますよね。(自分は買ったことはないです)

完成度が高くなる

(才能がない人の場合)本当の自分が話すよりもアバターのほうが色々な意味で完成度が高いです。

  • 話すスピードや間の取り方(マニュアルでいじれるが、ある程度自動)
  • 滑舌・抑揚・発音(アバターと言語の変種で選択)
  • 話のテンション(アバターと言語の変種で選択)
  • 顔の表情(v3以降のアバターは文章中にマーカーを入れてコントロールできる)
  • 声の大きさ(デフォルト音量)

抑揚に関しては、自分で話した方が思い通りになるケースもありますが、カンマを足したり、言語の変種(Native, Young, Originalなど)を変えてみることで修正可能です。どうしてもダメな場合は文章のほうを工夫しましょう。

多人数の動画が作れる

これはSynthesiaのテンプレートで紹介されるまで気づかなかったんですが、アバターを何人でも使えるということは、「ユーザーの感想」みたいな動画が作れるということです。テンプレ動画を観ていても、いろんな人が話していると確かに動画が賑やかな感じになる気がします。実際にいろんな人にしゃべってもらうとなると、それはそれは労力的にも金銭的にも大変なので、大きなメリットだと思います。

人種や容姿、体格によるバイアス

これはなかなかセンシティブなところですが、やはり人種や見た目で動画を見てもらえるかの可能性にバイアスがかかるのではないでしょうか。顔だけではなく、「体格が良い人が話すと説得力があるテーマ」などもあると思います。このあたりをアバターで自由に最適化できるのは良いし、これをうまく選ぶのも重要になってくると思います。

多言語化しやすい

新しい言語を覚えるのは大変ですよね。読み書きならまだしも、話すとなると習熟度が如実に現れます。文章のほうを多言語に翻訳し、text-to-videoで動画化してくれるというのはかなり魅力的です。

しかし、外国語ならば気づかないであろう細かな抑揚のミスも、母語の場合はすぐに気づきますし、気になります。流暢ではない言語の場合、一度ネイティブの人におかしな部分はないかをチェックしてもらえると理想的ですね。

text-to-videoだけでは十分ではない

当たり前なんですが、text-to-videoだけでは最終的に良い動画は作れないなと感じました。素人の場合、自分の思い通りのトークをtext-to-videoで作成できたとしても、それが良いトークとは限りません。細かな表現のポイントは自動でtext-to-videoが何とかしてくれますが、そもそも何を・どんな言葉で・どんな順番で・どういう演出で見せるかは、まさしく映像制作関連の技術ですよね。

テンプレートは大事

Synthesiaのテンプレは、結構「何をどんな順序で説明するか」の指示が付いたものが用意されているので助かります。他のサービスではどれくらい用意されているかわかりませんが、地味にこのテンプレの質がサービスの質に関わってくる感じがします。

既存アバターの質が若干違う

Synthesiaはかなりたくさんの既存アバターが用意されていますが、どうも光の当たり具合などが統一されていないです。なので人物のバラエティ以外に、根本的なアバターのクオリティの高さという基準があり、実質的には候補となるアバター数は少し減る印象です。よくサンプル動画で使われているアバターの人たちは、どれも良い感じのライティングで撮影されているので、基本はこの人たちの中から選ぶことになるかと思います。このあたりは、そのうち改善されることを期待しましょう。

Synthesiaの制限

Synthesiaはクオリティの面では多分他のサービスより良いんですが、やはり高価なのがネックですね。そして、使用量に制限があります。一番安いプランだと、1ヶ月で合計10分まで動画が作れます(10 creditsとカウントされます)。この時間制限については分からないことが多いです。(自分が色々見落としているせいかもしれませんが、あまりちゃんと調べていないです)

  • 「今月の残り時間」みたいな表示がない?(今実装中らしい) 現在はaccountのところに表示されています
  • ファイナライズするまではカウントされない
  • 契約開始から30日ごとにcreditがリセットされる(月ごとの換算ではない)
  • 使い切らなかったcreditは繰り越されない(常に10 creditsにリセットされる)

自分のアバターを作れるらしい

これは2タイプあって、簡易版とハイクオリティ版(勝手に名付けています)があるらしいです。まだ試していないので、やってみたら加筆しようと思います。どちらも追加料金がかかるようです。

簡易版: 背景とかは適当でも、いくらか動画(?)を送ればアバターを作ってくれる
ハイクオリティ版: ちゃんとグリーンスクリーンの前で高画質な動画を撮影しないといけない

Synthesiaの欠点

気のせいかもしれないけど気づいたこと

  • 日本語だと、文章ごとの時間感覚が調整されていない気がする(こまめに時間調整が必要)

さいごに

結構気づきがあったのでパラパラと書いてみました。発話ソフト関連を昔から使っている人にしてみれば「別にtext-to-video固有の特徴・問題ではない」とか「それは昔からある」というポイントも多いと思います。また、AI的な側面ではなく実用ベースで見ると、text-to-videoは必ずしも全く新しい技術という感じではありません。iMovieのような動画編集ソフト、Canvaのようなスライド作成サービス、発話ソフト、アバターソフトを足し合わせてきた上で(きっともっとある)、人物の動きとの連動を実現させているような印象ですが、うまくシナジーを生み出している気がします。サンプル動画を見たときは「へー」くらいにしか思わなかったですが、自分で最初の動画を作ってみたときはかなり感動しました。

他のサービスは、紹介をチラチラみたりはしましたが、実際に試してみていないので、サービス間の比較などについては分かりません。

間違いやサービスの変更などがあれば、優しく教えていただけるとありがたいです。

Discussion