こんにちは。primeNumberでは、<a href="https://primenumber.com/cometa" target="_blank" rel="nofollow noopener noreferrer">COMETA</a> という分析支援のためのメタデータ管理プロダクトを開発しています。
この記事では、プロダクトDBのメタデータ整備を効率化するためにClaude Codeを活用した検証について紹介します。
<h2 id="%E8%83%8C%E6%99%AF%EF%BC%9A%E3%83%A1%E3%82%BF%E3%83%87%E3%83%BC%E3%82%BF%E7%AE%A1%E7%90%86%E3%81%AE%E9%87%8D%E8%A6%81%E6%80%A7" data-line="6" class="code-line">
<a class="header-anchor-link" href="#%E8%83%8C%E6%99%AF%EF%BC%9A%E3%83%A1%E3%82%BF%E3%83%87%E3%83%BC%E3%82%BF%E7%AE%A1%E7%90%86%E3%81%AE%E9%87%8D%E8%A6%81%E6%80%A7" aria-hidden="true"></a> 背景：メタデータ管理の重要性</h2>
データ分析を推進する上で、 メタデータ（テーブルの意味や用途を説明する情報） は欠かせません。 
分析者がDWHのデータを正しく理解し分析を行うためには、つぎの
<ul data-line="11" class="code-line">
<li data-line="11" class="code-line">テーブルの概要、レコードの単位</li>
<li data-line="12" class="code-line">カラムの概要、データの性質</li>
</ul>
こうしたメタデータが整備されていないと、分析チームは「このテーブルって何だっけ？」から調査を始めることになり、分析スピードが大きく低下します。
<h2 id="cometa%E3%81%A7%E3%81%AE%E8%AA%B2%E9%A1%8C%EF%BC%9A%E3%83%97%E3%83%AD%E3%83%80%E3%82%AF%E3%83%88db%E3%81%AE%E3%83%A1%E3%82%BF%E3%83%87%E3%83%BC%E3%82%BF%E6%95%B4%E5%82%99" data-line="17" class="code-line">
<a class="header-anchor-link" href="#cometa%E3%81%A7%E3%81%AE%E8%AA%B2%E9%A1%8C%EF%BC%9A%E3%83%97%E3%83%AD%E3%83%80%E3%82%AF%E3%83%88db%E3%81%AE%E3%83%A1%E3%82%BF%E3%83%87%E3%83%BC%E3%82%BF%E6%95%B4%E5%82%99" aria-hidden="true"></a> COMETAでの課題：プロダクトDBのメタデータ整備</h2>
COMETAは、DWHにおけるデータ活用を促進するプロダクトです。 
私たちは社内のプロダクトDBからDWHへデータを転送して分析基盤を構築していますが、ここで問題になるのがプロダクトDBのメタデータです。
<h3 id="%E3%82%88%E3%81%8F%E3%81%82%E3%82%8B%E7%8A%B6%E6%B3%81" data-line="22" class="code-line">
<a class="header-anchor-link" href="#%E3%82%88%E3%81%8F%E3%81%82%E3%82%8B%E7%8A%B6%E6%B3%81" aria-hidden="true"></a> よくある状況</h3>
<ul data-line="24" class="code-line">
<li data-line="24" class="code-line">プロダクトDBを最も理解しているのはプロダクト開発者</li>
<li data-line="25" class="code-line">しかし、彼らは直接的な分析者ではないため、DWHのメタデータ拡充にはモチベーションが上がらない</li>
<li data-line="26" class="code-line">結果として、DWH側に意味の分からないテーブルが多数存在してしまう</li>
</ul>
この問題の解決に、Claude Codeを利用しました。
<h2 id="claude-code%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%A6%E3%83%A1%E3%82%BF%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E8%87%AA%E5%8B%95%E7%94%9F%E6%88%90" data-line="31" class="code-line">
<a class="header-anchor-link" href="#claude-code%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%A6%E3%83%A1%E3%82%BF%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E8%87%AA%E5%8B%95%E7%94%9F%E6%88%90" aria-hidden="true"></a> Claude Codeを使ってメタデータを自動生成</h2>
Claude Codeは、コードリーディング能力に優れたLLMツールです。 
これを活用して、プロダクトのコードベースから、テーブルの論理名・説明を生成することを試してみました。
今回は、プロダクト(<a href="https://primenumber.com/trocco" target="_blank" rel="nofollow noopener noreferrer">TROCCO</a>)に関して CSV形式のメタデータを自動生成し、COMETAに取り込むことをゴールとしました。
<h2 id="%E5%AE%9F%E6%96%BD%E5%86%85%E5%AE%B9" data-line="39" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E6%96%BD%E5%86%85%E5%AE%B9" aria-hidden="true"></a> 実施内容</h2>
使用したプロンプトの構成は以下の通りです。
<div class="code-block-container"><pre class="language-markdown"><code class="language-markdown code-line" data-line="43">
## Claude Code用プロンプト

### 目的
`tables.csv`ファイルに記述されているservice DBで管理されているテーブルのメタデータ（論理名と説明）を埋めて、CSVとして出力する

### 入力ファイル
- `tables.csv` - プロダクト DBのテーブル一覧が記載されたCSVファイル。論理名、説明カラムが空。

### 実行タスク

1. **CSVファイルの確認**
 - `tables.csv`の全レコードを確認
 - プロダクト DBのテーブル一覧を把握
 - **CSVのフォーマット（カラム構造、区切り文字、エンコーディング等）を厳密に保持**

2. **情報収集**
 - Railsソースコードを解析して各テーブルに対応するモデル情報を抽出
 - GitHub CLIを使用して関連するPRとIssueを検索
 ```bash
 # PR検索
 gh search prs [テーブル名/モデル名]
 
 # Issue検索 
 gh search issues [テーブル名/モデル名]
 ```
 - TROCCOヘルプドキュメント（https://documents.trocco.io/docs/trocco-tutorial）から関連情報を検索

3. **メタデータの生成**
 - 各テーブルに対して以下を記入：
 - 論理名（日本語での分かりやすい名称）
 - 説明（テーブルの用途や格納データの詳細）
 - **メタデータ記入ルール：**
 - メタデータが不明な場合：空白のままにする
 - テーブル物理名を単に繰り返すだけの説明（例：「CustomConnectorEndpoints,custom_connector_endpointsテーブルの機能」）は不要なので空文字のままにする

4. **出力と確認**
 - メタデータを追加した完成版を`output.csv`として出力
 - **必須確認項目：**
 - [ ] 全てのレコードのメタデータ（論理名と説明）が埋まっていること
 - [ ] レコード数が入力ファイルと同一であること
 - [ ] CSVフォーマットが完全に保持されていること

### 参考リンク
- [GitHub PR検索ドキュメント](https://docs.github.com/en/search-github/searching-on-github/searching-issues-and-pull-requests)
- [TROCCOチュートリアル](https://documents.trocco.io/docs/trocco-tutorial)
</code></pre></div><aside class="msg message">!<div class="msg-content">
tables.csvの形式:
<ul data-line="95" class="code-line">
<li data-line="95" class="code-line">database 名</li>
<li data-line="96" class="code-line">schema 名</li>
<li data-line="97" class="code-line">table 名</li>
<li data-line="98" class="code-line">論理名</li>
<li data-line="99" class="code-line">説明</li>
</ul>
</div></aside>
<h2 id="%E5%AE%9F%E9%9A%9B%E3%81%AB%E3%82%84%E3%81%A3%E3%81%A6%E3%81%BF%E3%81%A6%E5%88%86%E3%81%8B%E3%81%A3%E3%81%9F%E3%81%93%E3%81%A8" data-line="105" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E9%9A%9B%E3%81%AB%E3%82%84%E3%81%A3%E3%81%A6%E3%81%BF%E3%81%A6%E5%88%86%E3%81%8B%E3%81%A3%E3%81%9F%E3%81%93%E3%81%A8" aria-hidden="true"></a> 実際にやってみて分かったこと</h2>
<ul data-line="107" class="code-line">
<li data-line="107" class="code-line">開発者の負担を大幅に軽減 
手動で一つひとつテーブルを説明するよりも、圧倒的に楽。</li>
<li data-line="109" class="code-line">十分な精度 
Claude Codeはモデル・命名・コメントを読むのが得意なので、テーブルの用途をかなり正確に推測できる。</li>
<li data-line="111" class="code-line">メタデータ整備のきっかけに 
自動生成結果をレビューするだけでも、チームでテーブル理解を共有できる。</li>
</ul>
テーブルのメタデータは、プロダクト開発チームにとっても認知コストを下げる一員になると思いますので、ぜひお試しください！

Claude CodeでプロダクトDBのメタデータを自動生成

背景：メタデータ管理の重要性

COMETAでの課題：プロダクトDBのメタデータ整備

Claude Codeを使ってメタデータを自動生成

実際にやってみて分かったこと

Discussion