🤖

AI記事出力サービスで35万記事作った結果

に公開

AI記事出力サービスを作ったのでそれの技術的な要約と反省点をまとめます

サイト概要

サービスの特定を避けるために多少ぼかして書きます。
野球選手などの特定個人の掲示板での書き込みをAIでまとめて書き込みを人物に関連付けるサービスを作成しました。

データの処理の流れ

この実装を行うために必要な処理は

  • 選手、書き込みのスクレイピング
  • 人名の分解
  • 掲示板の書き込み内容から人名の抽出して紐付け
  • 掲示板の投稿が実際にその人名に対して言及しているかの判定

これらの処理が必要です

人名の分解

これはAIを活用します。調べた限り読みを載せているサイトがなかったので読み、姓名分解をdeepseekで行いました。deepseekを利用した理由は安いからです。
相当複雑なタスクや画像生成でない限り基本的にdeepseekの利用で問題ないと思います。以降全てのAI処理はdeepseekを利用しています。
json形式で入力を行い、json出力機能を利用してその姓名分解の結果と読みを出力します。

言及の判別

これもAIで判別しました。例えば「山田こと」という選手がいた場合、ことが下の名前として抽出されますが「こと」という単語は多くの書き込みに対してひっかっかるのでこの判別はサービスに必須でした

コスト

人物が35万人、それに関する掲示板の書き込みが60万件でそれらをDeepseekに処理させたところ50ドル程度でした。時間帯や出力させる方法によって変化すると思いますがかなり安いですね。
現在ECSで自動で毎日新規コンテンツに対する判定を行わせていますが1日0.3ドル程度なのでランニングコストも格安です。

SEOで注意すること

AI生成コンテンツに関する注意は公式でまとめられています
ウェブサイトで生成 AI によるコンテンツを使用するための Google 検索のガイダンス
ざっくり内容をまとめると

  • AI生成の記事であることを明記する
  • AI生成であることを示すメタタグをつける
  • ただ情報をまとめたものではなくサイト独自の価値を付ける

この3つを守る必要があります。
私自身そうでしたがSEOに関して詳しくない人が自動生成記事サービスを作成しようとするとこのポリシーに違反して検索順位を落とす可能性があります。
開発の際Claude Codeを利用してSEO対策に関しての指示を出していましたがそれではかなりの抜けがあったので同様のサイトを作成しようと思っている人は検索セントラルの公式をある程度眺めることを強く推奨します。

反省点

個人開発で一発当てたいという人はこの座組のサイトはマジでお勧めしません。
フロントエンドのコードは対したことないのですがバックエンドがめちゃくちゃ大変です。

  • ECSで定時実行するインフラの管理
  • インフラの人力監視
  • スクレイピングやAI周りの処理でコードが増える
  • それらに対するテストコード

この辺りで開発量がめちゃくちゃ増えます。データ処理の流れはかなりざっくり書きましたが合計で2万行くらいのコードを書きました。
同じ工数あればプロジェクト2個ほど立ち上げられたと思うのでそもそも個人開発で金を稼ぎたいなら当たり前ですがコードが少なくて済むアイデアを実装すべきだと感じました

結果

4ヶ月ほどフルタイムで開発して月間10-30万PVほどで広告貼ってクラウド代とトントン程度でした。
Google検索ではE-E-A-T(エクスペリエンス、高い専門性、権威性、信頼性)が重要視されます。
生成AIコンテンツではそこがかなり評価が低くなると思うので50万件の記事でこの程度のPVだったのではないかと推測しています。
生成AIが効力を発揮する分野かつロングテールのpvが多い場合でないと自動生成記事で稼ぐのはかなり厳しいと思います。

Discussion