▶️

「あなたもAIで簡単に稼げる！！」に蹴りを入れるまで。~Youtube動画自動生成までの道のり

keita

2025/09/30に公開4件

これは、AIで簡単に稼げるという話が本当なのか、自分で検証してみた話です。

 YouTubeで収益化を目指すAIを使いこなす組織の一員として働いている身として、世の中に溢れる「AIで簡単に稼げる！」という驚き屋の方々の発言を見るたびに、なんかイラッとしてたんですよね。
https://www.wantedly.com/companies/company_7297732
でも、ただ批判するのは簡単なのですが、自分がAIで一円も稼いでいないのに「そんなの無理だよ」とか「そんなのは簡単だ」とか言うのは、なんか微妙じゃないですか。なので、まずは自分でちょっとでも稼いでから発言しようと思ったわけです。
ということで、インターネットでマネタイズするなら、今はYouTubeかなと。理由は単純で、持っている資産とは関係なく、ゼロからのマネタイズが可能であったことと、収益化の条件が明確だったから。登録者1000人と総再生時間4000時間。この数字を達成できるかどうかが、ひとつの指標になると思いました。

 目指したのは「AIによるゲームチェンジ感」ただYouTubeで収益化するだけなら、時間をかければきっと難しくはありません。いつかは達成できるでしょう。
でも、それじゃ面白くないので。僕が目指したのは、AIを使ったゲームチェンジ感でした。通常、動画制作にはかなりのコストがかかります。企画に1時間、撮影に2時間、編集に5時間...なんてザラですよね。一本の動画を作るのに8時間かかるなんて、闊達自在に学べる全く新しい学舎を作りながらではどう考えても無理です。
だから、制作する動画の実時間以下の時間で動画を制作する、これを絶対条件にしました。30分の動画なら30分以内で作る。無理ゲーに聞こえますが、AIを活用すればできるはずだと思いました。
世のYoutuberたちを観察したところ、個人活動のYoutuberで毎日動画をアップできている人は相当稀で、週１でアップできていたらかなり優秀な世界でした。そんな中で１日に何本も動画をアップできるようになれば相当なゲームチェンジ感があるはずです。個人のリソースの範疇で、Pivotなどの大手ビジネスメディアと同等のアウトプット量を実現できたら痛快だろうなと。
ただし、ここで重要なのは、Fakeや無意味なコンテンツを量産したいわけじゃないということ。他人の可処分時間を消費させる以上、それに見合う価値を提供しなければならない。ゴミコンテンツが溢れて欲しいわけじゃないし、そもそも自動生成されただけのコンテンツはBanリスクも高いので論外としました。

 何ができたか結果から言いますと。
Claude Codeによるバイブコーディングで動画作成自動化フローを構築
約３ヶ月でYouTube収益化達成（登録者1000人＆総再生時間4000時間クリア）
API利用料以上の収益に成長
現在約５ヶ月目で登録者数6700人超（執筆時点）



 作ったチャンネルについて運営しているのは「海外メディア超多読ラジオ - 聞く経済ニュース分析」というチャンネルです。海外メディアで報じられている情報を引用、翻訳、編集して、対談形式で配信しています。引用元は必ず明記。出典を明らかにすることで、情報の信頼性を担保しています（日本のメディアがなかなかやらないこと）。



https://www.youtube.com/channel/UCwWtr_PhiOdR_Y7M962LmPw
画面構成はシンプルです。背景は止め絵で、下部に字幕を生成。キャラクターは放送を聞いている女の子。わかる人にはすぐわかるLo-fi Girlインスパイアです。動きはほぼありません。でも、それでいいんです。ラジオ的に聞き流せることが重要なのです。
システムとしては、朝刊として情報収集から完全自動で動画を生成するモードと、特集記事として、作成した対談プロンプトから動画を自動生成するモードを用意しました。

 得られた反応結果として、国内メディアには珍しい情報濃度になったため、一部ハードコアな経済・株クラスタにはそれなりに好感されている実感があります。

総再生時間は7万時間超、視聴回数は60万回を超えました。平均視聴時間も7分以上でRPM（1000回再生あたり収益）もそれなりに高いので、良質なユーザー層を捉えることができていそうです。

 いただいたコメント例日米両方のYOU TUBE動画を見ているが、これほど多くの証拠（データ）とその信頼度を客観的に動画の中に示しているサイトは他にない。とても参考になるし信用できる。データとその信頼度を示さない動画サイトは無価値だ。ずっとこの動画をぜひ続けてほしい。
毎回濃くて経済系でトップレベルにおもしろい
いつも有難うございます。楽しみにしています。
すばらしい タイムリーだな 今一番必要な情報
素晴らし動画ですね！ここまでのデータを示してくれる動画はなかなか無いと思います。
今回の動画も素晴らしい内容で納得できました。米国の地域格差の問題が浮き彫りになり、其処に関係する諸国の様子も想像できます。いつも素晴らしい動画をありがとうございます。人工知能を使いこなすとは、スピード感でもありますね。いつも驚いてますｗ.( ´艸｀)。
音声と字幕だけだから編集の苦労はないだろうが、この動画投稿速度は尋常じゃないな。情報量が少なければやりようもあるが、優秀でも一人で何度も数時間以内に裁ける情報量とも思えない。複数人の編集サポートがある法人格か、ソフトウェアの補助的なサポートを活用しているかでなければ、人間卒業級な実力だ。
専門用語の羅列に爆笑した、有識者も圧倒する動画投稿者の本気すげぇｗｗｗ凄すぎて頭のネジが飛ぶぜｗｗｗ
最後の愚痴みたいなのが面白い
知名度があるとはいえ、TradingEconomicsを引用するとは流石だな。分解用途のFedを除けば、経済指標系と指数系ではInvestingとの二大巨頭だ(速報系はForexFactory)。これを知っているか知らないとでは分析の基礎ソース量と効率性が違う。Nikkei225の市況サイトと組み合わせることで経済指標系と指数系の相関性を観察できる。
映像資料を省略し、金融関連指数や指標分解まで駆使している形跡こそないが、何時視聴してもオープンソースの情報統合とマルチシナリオ分析が素晴らしい。
最近まれにみる良質な動画 すばらしい

 私のスペックちなみに僕個人の前提条件を正直に書いておきます。
HTML5が出てきた頃から活動を停止したフロントエンドエンジニアとしての知識（つまりjQueryで止まってる）
UXデザインは仕事でやってるけど、イラストは全く描けない
動画編集の経験はゼロ
YouTuberの知識もゼロ
こんな感じです。プログラマーとしては完全に時代遅れ。クリエイターとしては素人。それでもAIを使えば、なんとかなるんじゃないか。そんなスタートでした。

 動画生成システムの中身ここからが本題です。どうやって動画制作を自動化したのか。

 システム構成まず全体像から。
Render上でPythonプログラムをCron実行（毎日決まった時間に自動で動く）

GitHub ActionでGitHub連携→Renderで自動デプロイ（コードを更新したら自動反映）

簡易DBとしてGoogleスプレッドシートを利用（データベースなんて大げさなものは不要）



https://note.com/qnoub/n/n34c6264612d5

 処理の流れ（全10ステップ）では、実際の処理内容を見ていきましょう。

 1. 初期設定・準備段階環境変数の読み込み、各種サービスの初期化をします。Google Sheets、AI、音声生成など、使うサービスのAPIキーをセット。実行開始時刻を記録して、Slackに「処理始めるよ〜」と通知。


 2. スプレッドシート準備今回はGoogle Spread Sheetsに制作ログとプロンプト管理の役割を担ってもらうことにしました。以降のステップで利用するプロンプトを誰もが更新しやすいスプレッドシート上で管理することで、「今日は出力が微妙だったからプロンプトを修正しよう」ということが即実行でき、改善スピードを加速させることができます。

まずはスプレッドシートに新しい行を作成。実行日時を記録して、処理状態を「処理中」に更新します。


 3. プロンプトA実行（ウェブ検索）ここからAIの出番です。スプレッドシートからプロンプトAを読み取り、Anthropic API（Claude Opus）に最新ニュースや情報を検索させます。「今日の経済ニュースで重要なものを教えて」みたいな感じ。検索結果はスプレッドシートに保存。

 4. プロンプトB実行（台本作成）検索結果を基に、AIが対談形式の台本を生成します。これもClaude Opusを使用。二人のキャラクターが自然に会話するような台本を作らせます。ここが一番の肝かもしれません。生成された台本もスプレッドシートに保存。

 5. 音声生成台本のテキストを音声に変換。Google Gemini APIのTTS（Text-to-Speech）を使います。音声ファイル（.wav）を作成して、Google Driveにアップロード。音声のURLをスプレッドシートに保存。

このパートは重要度が非常に高いのでかなり手が混んでいます。Google AI Studioのポッドキャスト風音声が手軽に生成できすぎるので簡単に思われますが、生成できる音声ファイルの大きさに上限があって、適切な分割と結合が必要だったり。APIに１日にアクセスできる上限がかなりタイトなので、複数のAPIキーをパラレルで処理に回し、音声生成できるようにして負荷分散したりなどの細かい工夫が詰まっています（結果的にかなりの時間圧縮になっている）。

 6. 動画生成（ここが一番複雑）動画を視聴しているときに字幕に誤字があったりすると信頼性が著しく低下するため、ここには結構こだわりました。

まず音声ファイルを解析精度が圧倒的だったElevenLabsのSTT（Speech-to-Text）で解析。しかし、そのまま解析結果を字幕にするのではなく、台本テキストとSTT結果をマッチングさせて、完全に正確な字幕データを取得します。そして字幕と背景画像を合成し、全字幕分のフレームを準備。効果音と生成音声、字幕付き背景画像をもとに動画を生成。完成した動画はGoogle Driveにアップロードして、URLをスプレッドシートに保存します。


 7. プロンプトC実行（メタデータ生成）動画のタイトルや説明文などを生成。YouTube用のメタデータを作ります。SEOを意識したタイトル、視聴者の興味を引く説明文。情報の信頼性を高める出典情報もここにあります。これはSonnetが考えます（節約）。


 8. プロンプトD実行（コメント用テキスト生成）動画の最初のコメントを生成。二人の対談を聞いている女の子が実は毒舌という設定です。


 9. サムネイル画像も自動生成サムネイルにキャッチーなタイトルをSonnetで生成して、背景画像と合成。サムネイルは非常に重要なので、手動でテキストを編集できる機能も追加してあります。


 10. 処理完了・後処理すべての処理時間を記録。処理状態を「完了」に更新。一時ファイルを削除して、Slackに完了通知。「10分23秒で完成したよ！」みたいな感じで、処理時間と結果のURLを送ります。


 実際のところ、どうだったかこのシステムを動かし始めて5ヶ月。今では毎日4本の動画を生成しています（実は実験用のサブチャンネルも運用を開始した）。

動画の長さが平均30分であるのに対し、制作時間は15〜30分程度なので、目標はほぼ達成です。人間がやったら8時間かかる作業が、30分。これがAIの力です。

 一人で全てのロールをこなす破壊力バイブコーディングでシステム構築していく中で、一番衝撃的だったのがこれです。経営判断、エンジニアリング、デザイン、コンテンツ編集...普通なら4人必要なチームの仕事を、自分一人で回せてしまいました。バイブコーディングやバイブデザイン、プロトタイピングの効果は、プロセスの圧縮による改善スピードの高速化、ここに集約されていると改めて実感しました。
例えば、動画の字幕位置が微妙だなと思ったとき。普通の組織なら「デザイナーに相談して→エンジニアに実装依頼して→テストして→フィードバックして...」みたいな流れになるじゃないですか。下手したら1週間かかる。
でも、今ならClaude Codeに「字幕の位置、もうちょっと上にしたいんだけど」って言うだけ。30秒後には修正完了した結果をデザイナーとして確認する。この改善の爆速感がヤバいです。
これらが全部自分の頭の中で完結するから、妥協点の探り合いも根回しも不要。思いついたその瞬間に実行し完了できる。このスピード感はやめられません。楽しすぎてコーディング中はずっと寝不足でした。

 AIの力で物量を超越する

手動での対談記事生成でもAIのインパクトを感じました。画像のように複数の記事を同時に作成することも可能になったので、最盛期(?)には８記事同時生成まで試すことができました。流石に人間の脳みそが追いつかなくなるので限界はありますが、執筆をAIに任せ、企画提案とレビューだけに特化することでこれくらいの同時処理は可能だと思いました。

 これから6700人の登録者。まだまだ小さなチャンネルですが、確実に成長しています。

次の目標は年内に1万人。そして、複数チャンネルの展開。同じシステムで、ジャンルを変えれば横展開もできるはずです。
でも、今最も重視したいことは、価値のあるコンテンツを作り続けること。AIを使っているからこそ、制作時間を圧縮し、編集作業だけに注力できるようになりました。これからも視聴者の時間を無駄にしない、そんな動画を作り続けたいと思っています。
なんだかんだで「質の高い経済メディア」を作ること自体も楽しくなってしまったので、このチャンネルは引き続き編集の手を入れながら頑張って運営していこうかと思っています。
もちろんクロステック・マネジメントの一員としてアジアで1000万人の教育圏をつくる本業が優先ですけど！！！

https://www.wantedly.com/companies/company_7297732/post_articles/968600

 Sonnet4.5最高リリースされたばかりのSonnet4.5ですが、Opusで構築していた部分もSonnetに変更した結果、品質は上がって、コストが低下したので本当に最高ですありがとうございます！！

 AIは簡単に稼げるのか？？この記事読んで簡単だと思うなら簡単なんでしょうね！！！！

クロステックマネジメント（京都芸術大学）Publication

京都芸術大学のテックブログです。採用情報：hrmos.co/pages/xtm/jobs 芸大など5校を擁する瓜生山学園は、通信教育で国内最大手、国内で唯一notionと戦略パートナー契約を結ぶなどDX領域でも躍進、EdTech領域でAIプロダクトを開発する子会社もあり、実は多くのエンジニアがいます。

Discussion

私もやってみたいですね〜

わかわか

天才すぎるー！

言語化も上手すぎて脱帽です、、
ちなみに、動画生成部分って、どうなさってます？

相当の長尺動画だと思うので、例えばmoviepyなどで普通に生成すると、スペックにも拠りますが、相当時間がかかっちゃいますよね？

何かGPU強めのクラウドサービスなどお使いなのでしょうか？
差支えの無い範囲でお教え頂けると幸いです！

keita

実行はRender上で行なっていて、Pro Plusプランを使っています。実行しっぱなしでもないので瞬間火力を高めてすぐ終わらせる感じです。

音声ファイル
↓
[MoviePy] 字幕フレーム生成
↓
字幕画像フレーム保存
↓
[FFmpeg] 音声 + 字幕フレーム合成
↓
最終動画（MP4）

わかわか

Render上で実行なさってるんですね！
MoviePy＆FFmpegご利用の旨も教えて下さり、ありがとうございます！
早速、Render利用について調べてみようと思います。
お忙しい中にも関わらず、詳しくご教示下さり、感謝申し上げます。