🐷

生成AIを活用したアバターの可能性: HeyGenで未来のインタラクティブ体験を試す

2024/10/09に公開

 はじめに最近では、生成AIを活用したさまざまなサービスが続々と登場し、これらを組み合わせることで、今は想像もつかないような革新的なアイデアが生まれる可能性を感じています。今回はその中でも、HeyGenというサービスを試してみたので、ご紹介します。
HeyGenは、撮影した動画や音声データをもとに、AIがアバターを通じて発話したり、インタラクティブな対話が可能になるプラットフォームです。私は特に、将来的にコールセンター業務などをアバターを使ったチャット形式に置き換えることで、コスト削減が実現できるのではないかと期待しています。
今回は、自分の動画と音声を基にHeyGenを使い、私が実際に発したことのない言葉をアバターに話させることに挑戦してみました。
以下がHeyGenのサイトです。
https://app.heygen.com/

 動画と音声の登録HeyGenのサイトでユーザー登録を行い、自分の動画を登録します。音声も動画作成とともに自動的に登録されるため、APIを使って生成したアバターに発話させる準備が整います。

ユーザ登録方法については、YouTubeなどで沢山に出ているので、本記事での説明は省略いたします。

 環境設定私はWindowsパソコンを使用していますが、Linux系のOSをお使いの方は、WSLやnpmのインストールが不要なので、より簡単に設定が可能です。

 WSLの設定まず、Windows 11のWSL（Windows Subsystem for Linux）のUbuntuを利用します。PowerShellにてUbuntuを起動し、必要なツールをインストールします。
PowerShellを開き、ターミナル画面上部の「\/」ボタンをクリックし「Ubuntu」を選択します。するとubuntuが起動します。
ubuntuが起動すると、以下のような状態になります。



次に、HeyGen APIコールに必要なcurlやnpmなどのインストールをしていきます。

 npmのインストールUbuntuにモジュールをインストールするために、npmコマンドを使います。しかし、デフォルトではWSLのUbuntuにnpmがインストールされていないため、以下のコマンドを実行してnpmをインストールします。
apt install -y nodejs npm
以下の記事を参考にさせて頂きました。@nouernetさんありがとうございます。
https://qiita.com/nouernet/items/d6ad4d5f4f08857644de
記事ではsudo apt install -y nodejs npmと記載されていましたが、sudoが認識されなかったため、今回はsudoを省略しました。
次に、APIコールを実行するため、curlコマンドのインストールをします。
apt install -y curl
こちらは、以下の記事を参考にさせて頂きました。「あんらぶぎーくどっとこむ」さん、ありがとうございます！
https://anlovegeek.com/ubuntu-install-curl/
これで必要な環境が整いました。

 HeyGenへの登録次に、HeyGenへのユーザー登録と設定を行います。
私の確認したところ、以下の手順で「アバターが話す動画」をダウンロードすることができます。

（もし間違っている点があれば、ご指摘いただけると幸いです…）

 動画登録(Video)まずは、HeyGenに動画を登録します。
MyPage画面の左側の「Avatars」をクリックし、それから右側の「Add a new look」をクリックします。

今回は、これから動画撮影をしようと思いますので、「Quick Try」をクリックします。

次に「Turn on Cam & Mic」をクリックします。

パソコンのカメラが起動しますので、マイク調整などをしながら、「Next」をクリックします。

「Record a 30s video foottage」の画面に移りますので、「Freestyle」が選択されていることを確認し、「Start a 30 Recording」をクリックします。

すると、カウントダウンが始まり、ビデオ録画が開始されます。

開始されましたら、声を出していろいろ話をしましょう。HeyGenでは、その内容を分析してアバターを作成します。可能な限り沢山しゃべったほうが良いかもしれません。

録画が完了し左側の「Avatars」をクリックすると、動画が完成されていることが分かります。私の場合、動画作成までに1時間程度かかりました。

後ほどAPIコールで利用するため、「Avatar ID」をコピーします。


 音声登録次に、アバターが話す音声を登録します。

画面左側の「AI Voice」をクリックすると、既に音声が出来上がっていました。先ほどの「動画登録(Video)」で動画を作成した時点で、音声も同時に自動作成されているようです。
後ほどAPIで利用するため、「Voice ID」をコピーします。必要であれば、「テキストアプリ」などに一時的に書き込んで下さい。


 アバター作成完成したアバターの動画を確認してみます。

英語で話しているようなのですが、上手くいっているようです。


 APIコール今度は既に作成した「アバター」や「音声」を適用し、APIをコールしてアバターがしゃべる動画を作成します。APIなどのサンプルは以下のサイトを参考にしました。
https://docs.heygen.com/docs/quick-start

 Quick Start サイト以下が、Qlick Start サイトです。


 APIキーAPIをコールするには、APIキーが必要となります。

ここではAPIキーの取得方法について説明します。

まず、MyPageの左上側に自身のユーザ名が記載されているので、そこをクリックします。それから下部に現れる「Space settings」をクリックします。

すると、左下部に「API」が表示されるので、クリックをすると、APIに関する情報が表示されます。

表示されたTrial Tokenタブをクリックします。

API tokenがアスタリスク(*************…)で表示されるので、右側のClickボタンをクリックしてAPIキーをコピーします。

これで、これから必要になる「APIキー」「Avatarキー」「Voiceキー」の３つがそろいました。

 APIコール次はHeyGenのQuick Startを参考にして、確認をしていきます。

 Create Your First Videoこれが、HeyGenのQuick Startのサイトで示されいる「Create your First Video」です。


 リクエストまず、「APIキー」「Avatarキー」「Voiceキー」を基に、動画を作成します。以下、curlコマンドです。
curl -X POST 'https://api.heygen.com/v2/video/generate' -H 'X-Api-Key: <APIキー>' -H 'Content-Type: application/json' -d '{
  "video_inputs": [
    {
      "character": {
        "type": "avatar",
        "avatar_id": "<アバターID>",
        "avatar_style": "normal"
      },
      "voice": {
        "type": "text",
        "input_text": "俺はジャイアン、ガキ大将",
        "voice_id": "<ボイスID>"
      },
      "background": {
        "type": "color",
        "value": "#008000"
      }
    }
  ],
  "dimension": {
    "width": 1280,
    "height": 720
  },
  "aspect_ratio": "16:9",
  "test": true
}'
今回アバターは「俺はジャイアン、ガキ大将」と話すはずです。

 レスポンス{"data":null,"error":{"code":"invalid_parameter","message":"Voice not found: <VideoID>"}}
・VideoID
レスポンスで取得した「video ID」を、次に送信APIで利用します。

 Wait for the Video先ほどの「Create Your First Video」から取得した「Video ID」を基に、以下のリクエストをUbuntuで実行します。

 リクエスト「Video ID」「API キー」を基に、以下のリクエストを実行します。
curl -X GET 'https://api.heygen.com/v1/video_status.get?video_id= <Video ID>' -H 'X-Api-Key: <APIキー>'

 レスポンス「video_url」が返却されるので、次のAPIコールに利用します。
{"code":100,"data":{"callback_id":null,"caption_url":"","duration":3.95075,"error":null,"gif_url":"https://resource2.heygen.ai/video/gifs/*******.gif",
"id":"+++++++","status":"completed",
"thumbnail_url":"https://files2.heygen.ai/aws_pacific/avatar_tmp/******/******.jpeg?Expires=**********",
"video_url":"<Viedo URL>",
"video_url_caption":null},"message":"Success"}

 Download the video前章の「Video URL」を基に、mp4ファイルを作成します。
curl <video_url> --output first_video.mp4
これで、mp4形式のファイルが完成しました。

後はダブルクリックをして、動画を確認します。

 動画確認今回、顔は伏せさせていただいたのですが、私のアバターが話す動画をアップしました。

前述のJSONから、「俺はジャイアン、ガキ大将」という言葉をアバターがしゃべっているかと思います。

これは、私はしゃべっていません、アバターがしゃべっています。
https://youtu.be/mZ5g_ayUbdY

 おわりに初めてアバターを使ってみて、その将来性を強く感じました。冒頭で述べたように、コールセンター業務への応用はもちろん、介護分野でも活躍できる可能性があるのではないでしょうか。これほどリアルなアバターであれば、インタラクティブな会話を通じて、高齢者とアバターがコミュニケーションを続けることも期待できます。
最後までご覧いただき、ありがとうございました。

 追記(2024/10/13)アバターのしゃべる量が少なかったので、Yahooニュースをアバターに読ませてみました。

ご覧いただけると幸いです。
https://www.youtube.com/watch?v=WKfDLPPjIQQ
以下、アバターがしゃべった内容です。

 ニュース内容大量閉店の「イトーヨーカドー」　2025年の店舗数はどうなる？　残る都道府県を検証

2024/10/12(土) 12:30配信
2024年10月10日、コンビニ事業に集中すべくグループの再編を発表した「セブン＆アイ・ホールディングス」。企業名を変更するほか、コンビニ以外の事業を新たに設立した中間持株会社に分離させるとしています。分離する事業の一つが、傘下の「イトーヨーカ堂」が運営するスーパーマーケット「イトーヨーカドー」です。
イトーヨーカドーでは、構造改革の一環として首都圏を中心とした都市部に集中するため、店舗の閉店がすでに進行中。2024年7月には、「クレヨンしんちゃん」に登場するスーパーのモデルにもなった春日部店の閉店が発表され、話題となりました。
今後も、10月に閉店する千葉県の柏店をはじめ、2025年2月末までに16店舗の閉店が続く予定ですが、一段落を迎える2025年3月にはどのような出店状況になっているのでしょうか。

生成AIを活用したアバターの可能性: HeyGenで未来のインタラクティブ体験を試す

はじめに

動画と音声の登録

環境設定

WSLの設定

`npm`のインストール

HeyGenへの登録

動画登録(Video)

音声登録

アバター作成

APIコール

Quick Start サイト

APIキー

APIコール

Create Your First Video

リクエスト

レスポンス

Wait for the Video

リクエスト

レスポンス

Download the video

動画確認

おわりに

追記(2024/10/13)

ニュース内容

Discussion