GENIEE TechBlog
🙌

企業の採用面接を自動化する「AI面接官」

に公開

企業の採用面接を自動化する「AI面接官」開発の裏側:ハッカソン優勝プロジェクトの技術的挑戦

みなさん、こんにちは!JAPAN AI リサーチ研究チームの JIAQI ZOU です。先日開催された社内 AI エージェントハッカソンで、私たちのチームが開発した「AI 面接官」が、ありがたいことに優勝することができました!チームメンバーの頑張りと、皆さんの応援に心から感謝しています。

今回は、この「AI 面接官」がどのようにして生まれたのか、開発の背景や私たちが直面した技術的な挑戦、そしてその解決のためにどんな工夫をしたのか、エンジニア視点も交えながらご紹介したいと思います。

図:AI面接官のイメージ

なぜ「AI面接官」だったのか? - 開発のきっかけ

日本の多くの企業が、少子高齢化による人材不足、特に中核を担う人材の採用に苦労しているという話は、皆さんも耳にする機会が多いのではないでしょうか。実際、約7割の企業がこの課題に直面していると言われています。一方で、人事部門のリソースは限られており、採用プロセス、特に面接に十分な時間と労力を割けないという現実もあります。

私たちのチームでは、「この課題を AI エージェントで解決できないか?」という議論からスタートしました。「単なるチャットボットではなく、本当に人間と対話しているような、自然な面接体験を提供できないだろうか?」そんな思いから、「AI 面接官」のアイデアが生まれました。目指したのは、採用面接のプロセスを自動化し、人事担当者の負担を軽減しつつ、候補者にとっても質の高い面接体験を提供できるソリューションです。

「AI面接官」でできること - 機能紹介

私たちが開発した「AI 面接官」は、大きく分けて以下の3つの機能を持っています。


図:AI面接官の主要機能

  1. まるで本物?パーソナライズされた面接官: 企業の担当者の顔写真と声データをアップロードするだけで、その人そっくりのリアルなアバターが面接官として登場します。声もクローニング技術で再現するので、本当にその人が話しているかのような自然さを目指しました。企業文化に合わせて、面接官の話し方や雰囲気をカスタマイズすることも可能です。
  2. 面接内容もカスタマイズ: 企業ごとに聞きたい質問や評価したいポイントは異なりますよね。このシステムでは、質問セットや評価基準、さらには面接官の経歴や役職といった詳細情報まで設定できます。これにより、AI は企業のニーズに合わせた的確な質問を投げかけ、候補者の回答を深く掘り下げることができます。
  3. 客観的な評価を自動で: 面接が終わると、AI が候補者の回答内容や話し方などを分析し、事前に設定された評価基準に基づいて評価レポートを自動生成します。「この候補者は次の選考ステップに進むべきか」といった判断をサポートし、より客観的で公平な評価を実現します。


図:候補者評価の流れ(イメージ)

開発の舞台裏:立ちはだかった技術の壁と、乗り越えるための工夫

アイデアを形にする過程では、いくつかの大きな技術的挑戦がありました。特に、自然でリアルタイムな対話体験を実現する部分には多くの試行錯誤がありました。


図:システム構成の概要

  1. 「間」との戦い:エンドツーエンド音声 LLM とリアルタイム応答:

    • 課題: 面接は会話のテンポが重要です。候補者が話終わってから AI が応答するまでに時間がかかると、一気に不自然になってしまいます。音声認識(STT)、LLM による応答生成、音声合成(TTS)をスムーズに連携させ、人間同士の会話に近いリアルタイム性を実現する必要がありました。
    • 工夫: まず、音声認識には日本語認識精度が高いと評判だった Nova-2 STT API を試しました。応答生成と音声合成をいかに高速化するかが鍵で、ここではリアルタイム処理に特化した OpenAI の Real-time API (gpt-4o-realtime-preview) と WebRTC/WebSocket を組み合わせるアプローチを採用しました。これにより、音声を入力しながらほぼ同時に応答音声を生成し、会話の遅延を最小限に抑えることを目指しました。ハッカソン期間中は、この遅延との戦いが一番ヒリヒリした部分かもしれません(笑)。
  2. 「声」に魂を吹き込む:音声クローニングとトーン調整:

    • 課題: 単にテキストを読み上げるだけでなく、実在の面接官の声質や話し方のニュアンスを再現し、感情のこもった自然な音声を作り出す必要がありました。
    • 工夫: ElevenLabs の TTS API は、少ない音声サンプルからでも高品質な音声クローニングができる点が魅力でした。ただ、クローンした声が時々不自然な抑揚になることも。そこで、API のパラメータ(安定性や明瞭度の設定など)を細かく調整し、より人間らしい自然なトーンになるよう試行錯誤を繰り返しました。特定の感情(例えば、少し驚いたような声色や、安心させるような優しいトーン)を表現させるのが特に難しかったですね。
  3. 口パクと表情のシンクロ:音声と画像の連動:

    • 課題: 音声に合わせて、アバターの口が自然に動き、表情も変化しないと、せっかくのリアルな声も活きません。音声と映像のズレをなくし、自然なリップシンクと表情変化を実現する必要がありました。
    • 工夫: ここでは、ポートレートアニメーション技術である Sonic を活用しました。これは音声データから口の動き(Viseme)を推定し、表情の変化も生成してくれる優れものです。生成されたアニメーションをリアルタイムでアバターに適用する部分のパフォーマンスチューニングには少し苦労しましたが、結果的にかなり自然な表現ができるようになりました。
  4. 候補者の本質を見抜く:LLM によるテキスト分析:

    • 課題: 候補者の回答を単に文字起こしするだけでなく、その内容を深く理解し、企業の求める人物像や評価基準と照らし合わせて的確に評価する必要がありました。表面的なキーワードだけでなく、候補者の思考プロセスや潜在的な能力まで読み取る必要があったのです。
    • 工夫: ここは LLM の真骨頂ですが、そのまま使うだけでは不十分でした。企業の評価基準や求める能力(例:論理的思考力、コミュニケーション能力、ストレス耐性など)をプロンプトに具体的に組み込み、候補者の回答のどの部分がどの能力に対応するのかを分析させるようにチューニングしました。評価の観点を複数設定し、多角的な分析を行うことで、より客観的で信頼性の高い評価を目指しました。

これからの「AI面接官」:さらなる進化へ

今回のハッカソンでプロトタイプは完成しましたが、「AI 面接官」にはまだまだ伸びしろがあると感じています。今後は、以下のような点を改善・強化していきたいと考えています。

  • よりスムーズな対話体験: 応答の待ち時間をさらに短縮し、候補者の発言の意図や感情をより深く理解することで、人間と話しているのと遜色ないレベルの対話を目指します。
  • 評価精度の向上: より多くの評価指標を取り入れ、様々な業界や職種に特化した評価モデルを開発することで、さらに精度の高いマッチングを実現します。
  • 使いやすさの追求: 企業担当者向けの管理画面をより直感的にし、カスタマイズ性を高めることで、導入のハードルを下げたいと考えています。
  • セキュリティとプライバシー: 候補者の個人情報や面接データを扱うため、セキュリティとプライバシー保護の強化は最重要課題として取り組みます。

最後に

「AI 面接官」プロジェクトは、技術的な挑戦に満ちていましたが、チーム一丸となって課題を乗り越え、形にできたことは大きな喜びでした。この技術が、日本の企業が抱える採用の課題を少しでも解決し、より効率的で公平な採用プロセスを実現する一助となれば、これほど嬉しいことはありません。

JAPAN AI リサーチ研究チームは、これからも AI 技術を活用した新しい価値創造に挑戦していきます。

最後までお読みいただき、ありがとうございました!

GENIEE TechBlog
GENIEE TechBlog

Discussion