🎶

【デモ付き】ゲームシーンからそれに適したBGMの音響特徴を予測する

2023/02/07に公開

概要

この記事では,私が執筆した論文『ゲームシーンからそれに適したBGMの音響特徴を予測する手法の検討』を簡単に解説します.さらに,この論文に基づいて作成したデモ用プログラムを紹介します.すぐにデモ用プログラムを試したい方は以下のデモにアクセスしてください.追実験を最初から実施したい方は以下の記事にアクセスしてください.

論文解説

はじめに

ビデオゲームにおけるBGMとゲームやシーンの雰囲気の間には強い関係があると考えられます.例えば,『OMORI』の戦闘シーンでは以下のBGMが流れます.

https://www.youtube.com/watch?v=DWxiVN9eWVY

一方,『ロマンシング サ・ガ3』の戦闘シーンでは以下のBGMが流れます.

https://www.youtube.com/watch?v=0igMcFsxyIM

ゲームが違うのでBGMも違う部分の方が多いですが,似ている部分もあります.他にも,『OMORI』の会話シーンでは以下のBGMが流れます.

https://www.youtube.com/watch?v=7GIWV__qx4M

一方,『ロマンシング サ・ガ3』の会話シーンでは以下のBGMが流れます.

https://www.youtube.com/watch?v=5xcwl2_TZi0

これらのBGMも似ている部分があります.また,同じゲームのBGM同士も似ている部分があります.以上のことから,ゲームやシーンを指定すれば,それに適したBGMの範囲はある程度限定されると考えられます.そこで,ゲームシーンからそれに適したBGMの音響特徴を予測する手法を提案しました.詳しい解説は以下の論文や資料を参照してください.

提案手法

この論文では,BGMを付加したいゲームの映像を与えると,それに適したBGMを自動で検索する手法を提案しました.まず,ゲームとシーンを入力します.ゲーム名を入力して対応する学習済みモデルを指定します.また,映像を学習済みモデルに入力してシーンを指定します.次に,映像を音響特徴に変換します.CNNで1フレームごとに画像をベクトルに変換し,LSTMで1フレームごとにベクトルを音響特徴に変換します.さらに,BGMを検索します.予測した音響特徴とフリー音源の音響特徴の距離を計算し,距離を基準にフリー音源集を昇順ソートします.最後に,ソートしたフリー音源集を出力します.図に表すと以下のようになります.

デモ用プログラム

解説した論文に基づいて作成したデモ用プログラムを紹介します.このデモ用プログラムでは評価実験で最も良い成績を残した『クロノ・トリガー』をchroma_stftで学習したモデルをお試しいただけます.まず,デモにアクセスしてください.次に,1番目のプログラムを実行してください.必要なライブラリや関数を読み込みます.さらに,映像を読み込みます.

  • 映像をお持ちの方は2番目のプログラムを実行してください.映像をアップロードできます.
  • 映像をお持ちでない方は3番目のプログラムを実行してください.映像を用意してあります.

最後に,上から順にプログラムを実行してください.写真のようになれば成功です.

ご精読いただき,ありがとうございました.

Discussion