生成AIを活用したアバターの可能性: HeyGenで未来のインタラクティブ体験を試す
はじめに
最近では、生成AIを活用したさまざまなサービスが続々と登場し、これらを組み合わせることで、今は想像もつかないような革新的なアイデアが生まれる可能性を感じています。今回はその中でも、HeyGenというサービスを試してみたので、ご紹介します。
HeyGenは、撮影した動画や音声データをもとに、AIがアバターを通じて発話したり、インタラクティブな対話が可能になるプラットフォームです。私は特に、将来的にコールセンター業務などをアバターを使ったチャット形式に置き換えることで、コスト削減が実現できるのではないかと期待しています。
今回は、自分の動画と音声を基にHeyGenを使い、私が実際に発したことのない言葉をアバターに話させることに挑戦してみました。
以下がHeyGenのサイトです。
動画と音声の登録
HeyGenのサイトでユーザー登録を行い、自分の動画を登録します。音声も動画作成とともに自動的に登録されるため、APIを使って生成したアバターに発話させる準備が整います。
ユーザ登録方法については、YouTubeなどで沢山に出ているので、本記事での説明は省略いたします。
環境設定
私はWindowsパソコンを使用していますが、Linux系のOSをお使いの方は、WSLやnpmのインストールが不要なので、より簡単に設定が可能です。
WSLの設定
まず、Windows 11のWSL(Windows Subsystem for Linux)のUbuntuを利用します。PowerShellにてUbuntuを起動し、必要なツールをインストールします。
PowerShell
を開き、ターミナル画面上部の「\/」ボタンをクリックし「Ubuntu」を選択します。するとubuntuが起動します。
ubuntuが起動すると、以下のような状態になります。
次に、HeyGen APIコールに必要なcurl
やnpm
などのインストールをしていきます。
npm
のインストール
Ubuntuにモジュールをインストールするために、npm
コマンドを使います。しかし、デフォルトではWSLのUbuntuにnpm
がインストールされていないため、以下のコマンドを実行してnpm
をインストールします。
apt install -y nodejs npm
以下の記事を参考にさせて頂きました。@nouernetさんありがとうございます。
記事ではsudo apt install -y nodejs npm
と記載されていましたが、sudo
が認識されなかったため、今回はsudoを省略しました。
次に、APIコールを実行するため、curl
コマンドのインストールをします。
apt install -y curl
こちらは、以下の記事を参考にさせて頂きました。「あんらぶぎーくどっとこむ」さん、ありがとうございます!
これで必要な環境が整いました。
HeyGenへの登録
次に、HeyGenへのユーザー登録と設定を行います。
私の確認したところ、以下の手順で「アバターが話す動画」をダウンロードすることができます。
(もし間違っている点があれば、ご指摘いただけると幸いです…)
動画登録(Video)
まずは、HeyGenに動画を登録します。
MyPage画面の左側の「Avatars」をクリックし、それから右側の「Add a new look」をクリックします。
今回は、これから動画撮影をしようと思いますので、「Quick Try」をクリックします。
次に「Turn on Cam & Mic」をクリックします。
パソコンのカメラが起動しますので、マイク調整などをしながら、「Next」をクリックします。
「Record a 30s video foottage」の画面に移りますので、「Freestyle」が選択されていることを確認し、「Start a 30 Recording」をクリックします。
すると、カウントダウンが始まり、ビデオ録画が開始されます。
開始されましたら、声を出していろいろ話をしましょう。HeyGenでは、その内容を分析してアバターを作成します。可能な限り沢山しゃべったほうが良いかもしれません。
録画が完了し左側の「Avatars」をクリックすると、動画が完成されていることが分かります。私の場合、動画作成までに1時間程度かかりました。
後ほどAPIコールで利用するため、「Avatar ID」をコピーします。
音声登録
次に、アバターが話す音声を登録します。
画面左側の「AI Voice」をクリックすると、既に音声が出来上がっていました。先ほどの「動画登録(Video)」で動画を作成した時点で、音声も同時に自動作成されているようです。
後ほどAPIで利用するため、「Voice ID」をコピーします。必要であれば、「テキストアプリ」などに一時的に書き込んで下さい。
アバター作成
完成したアバターの動画を確認してみます。
英語で話しているようなのですが、上手くいっているようです。
APIコール
今度は既に作成した「アバター」や「音声」を適用し、APIをコールしてアバターがしゃべる動画を作成します。APIなどのサンプルは以下のサイトを参考にしました。
Quick Start サイト
以下が、Qlick Start サイトです。
APIキー
APIをコールするには、APIキーが必要となります。
ここではAPIキーの取得方法について説明します。
まず、MyPageの左上側に自身のユーザ名が記載されているので、そこをクリックします。それから下部に現れる「Space settings」をクリックします。
すると、左下部に「API」が表示されるので、クリックをすると、APIに関する情報が表示されます。
表示されたTrial Tokenタブをクリックします。
API tokenがアスタリスク(*************…)で表示されるので、右側のClickボタンをクリックしてAPIキーをコピーします。
これで、これから必要になる「APIキー」「Avatarキー」「Voiceキー」の3つがそろいました。
APIコール
次はHeyGenのQuick Startを参考にして、確認をしていきます。
Create Your First Video
これが、HeyGenのQuick Startのサイトで示されいる「Create your First Video」です。
リクエスト
まず、「APIキー」「Avatarキー」「Voiceキー」を基に、動画を作成します。以下、curl
コマンドです。
curl -X POST 'https://api.heygen.com/v2/video/generate' -H 'X-Api-Key: <APIキー>' -H 'Content-Type: application/json' -d '{
"video_inputs": [
{
"character": {
"type": "avatar",
"avatar_id": "<アバターID>",
"avatar_style": "normal"
},
"voice": {
"type": "text",
"input_text": "俺はジャイアン、ガキ大将",
"voice_id": "<ボイスID>"
},
"background": {
"type": "color",
"value": "#008000"
}
}
],
"dimension": {
"width": 1280,
"height": 720
},
"aspect_ratio": "16:9",
"test": true
}'
今回アバターは「俺はジャイアン、ガキ大将」と話すはずです。
レスポンス
{"data":null,"error":{"code":"invalid_parameter","message":"Voice not found: <VideoID>"}}
・VideoID
レスポンスで取得した「video ID」を、次に送信APIで利用します。
Wait for the Video
先ほどの「Create Your First Video」から取得した「Video ID」を基に、以下のリクエストをUbuntu
で実行します。
リクエスト
「Video ID」「API キー」を基に、以下のリクエストを実行します。
curl -X GET 'https://api.heygen.com/v1/video_status.get?video_id= <Video ID>' -H 'X-Api-Key: <APIキー>'
レスポンス
「video_url」が返却されるので、次のAPIコールに利用します。
{"code":100,"data":{"callback_id":null,"caption_url":"","duration":3.95075,"error":null,"gif_url":"https://resource2.heygen.ai/video/gifs/*******.gif",
"id":"+++++++","status":"completed",
"thumbnail_url":"https://files2.heygen.ai/aws_pacific/avatar_tmp/******/******.jpeg?Expires=**********",
"video_url":"<Viedo URL>",
"video_url_caption":null},"message":"Success"}
Download the video
前章の「Video URL」を基に、mp4
ファイルを作成します。
curl <video_url> --output first_video.mp4
これで、mp4
形式のファイルが完成しました。
後はダブルクリックをして、動画を確認します。
動画確認
今回、顔は伏せさせていただいたのですが、私のアバターが話す動画をアップしました。
前述のJSONから、「俺はジャイアン、ガキ大将」という言葉をアバターがしゃべっているかと思います。
これは、私はしゃべっていません、アバターがしゃべっています。
おわりに
初めてアバターを使ってみて、その将来性を強く感じました。冒頭で述べたように、コールセンター業務への応用はもちろん、介護分野でも活躍できる可能性があるのではないでしょうか。これほどリアルなアバターであれば、インタラクティブな会話を通じて、高齢者とアバターがコミュニケーションを続けることも期待できます。
最後までご覧いただき、ありがとうございました。
追記(2024/10/13)
アバターのしゃべる量が少なかったので、Yahooニュースをアバターに読ませてみました。
ご覧いただけると幸いです。
以下、アバターがしゃべった内容です。
ニュース内容
大量閉店の「イトーヨーカドー」 2025年の店舗数はどうなる? 残る都道府県を検証
2024/10/12(土) 12:30配信
2024年10月10日、コンビニ事業に集中すべくグループの再編を発表した「セブン&アイ・ホールディングス」。企業名を変更するほか、コンビニ以外の事業を新たに設立した中間持株会社に分離させるとしています。分離する事業の一つが、傘下の「イトーヨーカ堂」が運営するスーパーマーケット「イトーヨーカドー」です。
イトーヨーカドーでは、構造改革の一環として首都圏を中心とした都市部に集中するため、店舗の閉店がすでに進行中。2024年7月には、「クレヨンしんちゃん」に登場するスーパーのモデルにもなった春日部店の閉店が発表され、話題となりました。
今後も、10月に閉店する千葉県の柏店をはじめ、2025年2月末までに16店舗の閉店が続く予定ですが、一段落を迎える2025年3月にはどのような出店状況になっているのでしょうか。
Discussion