Riverside.fmやAIを活用した社内テックラジオの取り組みを公開します
はじめに
こんにちは!MOSH株式会社でDevHRをやっている村山(@registakm)です。この記事はMOSH Advent Calendar 2024の8日目の記事です。
技術広報周りを共に頑張っているエンジニアのダチさん(@dachi023)も5日目のアドベントカレンダー「エンジニアをしながら技術広報をしている」で技術広報周りについて記載してくれていますが、ダチさんと連携しながら進めています。ダチさんの方では現場エンジニアの巻き込み、内容の企画検討、収録時のMCを担ってもらい、僕の方では収録された音源の編集や公開を担っています。今回はMOSHで最近活発に動いてるMOSH Tech Radioの公開までの具体的な作業の中身を公開できればと思います。
MOSH Tech Radio制作の裏側:Riverside.fmとSpotifyを活用したPodcast配信
MOSH Tech Radioの制作には、スムーズな配信を実現するために、Riverside.fmとSpotify(for Creaters)を連携させ、それぞれ活用しています。
Riverside.fmは、ブラウザベースで動作する高品質なリモート録音&編集プラットフォームです。高音質(最大48kHz WAV)での収録が可能で、参加者それぞれの音声を個別に録音(マルチトラック録音)などができ、編集時の柔軟性が非常に高いです。また、ビデオ収録にも対応しているので、Podcastと同時に動画コンテンツも作成できます。
また、Riverside.fmには、Magic Editorという強力な編集機能が搭載されています。ただ、日本語だとまだまだ使い物ならない...というのが実際使ってみての現時点での感想です..😢ただ、英語だと以下のような機能がかなり効果的に使える印象もあるので、日本語早く対応してほしい...という希望も込めて紹介しておきます。
- Magic Editor: Magic Editorは、個別に録音された音声トラックを自動的に同期・マージし、ノイズ除去や音量調整なども行う。これにより、時間のかかる編集作業を大幅に短縮できます。Filler wordsの除去にも対応。
- トランスクリプト機能: トランスクリプト機能を使ってテキストベースで編集することも可能。例えば、ゲストの発言の一部を削除したり、順番を入れ替えたりする必要がある場合、トランスクリプトを見ながら簡単に編集が可能。
-
ファイルエクスポート時の設定: (※これは使ってる🙆♀️)編集完了後、話者のオーディオレベルを統一したり、バックグラウンドノイズを自動的低減してくれます。また、様々なフォーマットでエクスポート可能。
Riverside.fmの上記機能に関する画面
Spotify for Creatorsへのアップロードと配信
Spotify for Creatorsは、Podcastの配信を一元管理できるプラットフォームです。Riverside.fmで編集した音声を簡単にアップロードし、配信することができます。Riverside.fm上にもエクスポートした音源からボタン1つでSpotifyのpodcast投稿画面へ遷移し、公開することができます。配信タイミングは予約投稿機能を使うこともでき、事前にエピソードを準備しておき、指定した日時に自動的に公開することも可能です。また簡易的ではありますが、パフォーマンス分析の機能もあり、Podcastの再生回数やリスナーの属性などのデータを確認できます。
具体的な公開までの流れ(主に編集~)
Tech Radioを利用したMOSHの発信について具体的な流れを紹介します。
- 企画検討 → 企画案の確定
- 現場メンバーへの打診 → メンバーとの収録スケジュールfix → 収録(Zoom録画)
- 音源ファイルをもらい編集作業 → 公開
- 音源を活用したブログversionの記事作成
今回は僕の方でメインでやっている3.以降の編集作業以降を中心にお話します。1.2ついては企画検討は週次の採用広報定例での1つのアジェンダとして常に会話しつつ、2については前述紹介したダチさんの方で、声掛けや収録の事前打ち合わせなど、行った上で収録してくれています。(感謝🙏)
Riverside.fm上での編集作業
Riverside.fmでの収録も今後は積極的に活用していこうと思いつつ、現状はZoom録画しています。録画したデータをダウンロード→Riversideへアップロードして編集作業メインで利用しています。あくまでも一例ですが、編集画面は以下のような形で、トランスクリプトは英語表記になるのが辛いところではありますが、編集作業はキーボードショートカットなども使えて、操作に慣れれば簡単に行うことができます。
Riverside.fmの編集画面(赤枠部分をカット)
いわゆるfiller words(e.g.「あー」/「えーっと」など)の部分や明らかに不要な部分をカットし、一つの音声にしていきます。僕自身もそうですが、意外とその人固有の喋り方や癖ってそれぞれあるんだなということを、編集作業をやっていてより実感します。編集前の生音源をがっつり聞くのは僕だけだったりするので、収録時の雰囲気含めそれらを聞けるのが楽しみだったりします。また、「収録中、ぎこちなくて不安だったけど、良い感じに編集してくれてありがたい」といった言葉をもらえると、編集作業する側としてもとても嬉しいです。生音源に対して編集作業は、最低でも2倍の時間がかかる印象です(30分音源なら最低1時間は編集作業)。当然ながらラジオ編集が本業でないのと、何よりみんなで協力してせっかく収録したものをできるだけ早く出せるようにタイムマネジメントもしながら編集頑張ってます。
一通り編集(カット作業)が完了したら、1回目のエクスポート作業を行いますNormalize audio levels/Remove backgroud noiseをonにして書き出します。これらをonにする事で、オンライン収録でも一定のクオリティで書き出せるのはありがたいです。(欲を言うとレベル制御はできてほしい。)
エクスポート
エクスポートされたものは、倍速でも再生できるようになるので、おかしい部分がないかを改めて全体確認し、最後に多少雰囲気が出るように冒頭と末尾にフリー素材の音源をつけて完成です。
Rieverside.fmもちょくちょく機能アップデートされていて、以前はできなかったのですが、bgm音源をつけてそれらの音量設定やfadeIn/fadeOutを設定できるようになったのは嬉しいポイントだったりします。
最後にbgmを設定
AIを活用した編集後の公開と記事化
編集作業が全体の中でも1番重い部分ではあるので、それ以外の部分はできるだけ効率化を心がけています。概要欄への掲載(サマリー・タイムライン)や記事化を行っているのですが、社内のAIを利用しています。アーキテクチャ・実装についての詳しい内容は7日目のアドベントカレンダーにも書かれているので、良ければそちらもご覧ください。
MOSHではAIを活用しながら、主にクリエイターさんとの商談動画を書き起こす機能やそれらをサマリーする機能を社内ツールとして利用しています。そういった社内ツールをラジオ配信でも活用しています。ファイルを読み込ませることで、日本語での書き起こしやSRTファイル生成、SRTファイルを使ってより詳細な要約と目次生成などをdifyも活用しながら、概要欄の内容生成に利用しています。
Tech Radio公開まで
先ほど編集した動画をダウンロードして書き起こしツールでSRTファイルを生成し、
AI活用 書き起こし君
SRTファイルをインプットにして、difyで実行・目次とサマリーを生成してもらいます。
difyを使って 目次とサマリーの生成
必ずしも完璧ではないので、不要な部分や修正箇所を最後に人間(私)が確認・修正し、概要欄へ反映し公開します。
公開したTech Radioの記事化
記事化についても同様に音源に基づいてSRTファイルをインプットにプロンプトを工夫しながらブログを生成しています。ゼロベースで書き起こしたり、文章校正から完成までの手間を考えると、1日あれば作成完了まで持っていけるので、AI凄い...と思いながら、音声だけでなく、発信の媒体を増やすことができるので、積極的に活用しています。
公開済みの記事サンプル
まとめ
MOSH Tech Radioの制作を通じて、Riverside.fmとSpotify for Creatorsを活用したPodcast配信のプロセスを紹介しました。両者を使うことで一定のクオリティを担保して気軽にPodcast配信を始めれるのではないかと思います。また、AIを活用することで作業効率を向上し、コンテンツ作成にできるだけ集中できる形に整えることも継続するうえで大事なポイントだと感じます。
今後も、MOSH Tech Radioを含めMOSHの技術発信をより一層強化していきたいと思います。発信を通じてより多くに皆さんにMOSHの良さを感じて貰えれば嬉しいです。引き続き、良いコンテンツを提供していければと思います。みなさんもぜひ、MOSH Tech Radioを聞いてみてください!よろしくお願いします📻!
Discussion