Open4

D-ID APIについてまとめる

uedaueda

D-DIとは?


https://www.d-id.com/
D-ID(chat.D-ID)とは、テキストからなめらかな顔の動きや音声を生成してくれる(text-to-speech)サービスです。
料金プランは複数ありますが、無料トライアルのプランでも好きな画像をアップロードしてしゃべらせることができます。

たとえば、以下の女性の画像に、「こんにちは、はじめまして」というテキストを添え、音声(女性ボイス)と言語(日本語)を選択して動画を生成すると...

こんな感じで、女性の顔が滑らかに動きます。

uedaueda

APIの利用

Liteプラン以上に課金すると、APIが使えるようになる。

困ってるところ1

  • 認証が通らない
    • 公式ではBasic認証が紹介されているが、usernameがどこにあるかわからない...
    • passwordはAPI KEYを指している?
    • 暫定的な解決策として、サインイン後のAPIドキュメントで見れるBeareトークンを用いて、通るようにした
    • しかし、8時間に一回ぐらいトークンが変わるので、サービスに組み込む時には使えない。
    • 普通にBasic ${API_KEY}で通りました。
uedaueda

困ってるところ3

  • 目線をこちらに向けつつ、無言で顔を動かしたい
    • ssmlをtrueにして、<break>タグを用いれば動かせた。しかし、time=15000msにしても5秒の動画しか返ってこなかった