Cursorで名刺データのCSV変換ツールを作った
Cursorで名刺データのCSV変換ツールを作った
はじめに
こんにちは。株式会社フォノグラムでWebマーケティングを担当している「おきょう」こと森山です。
今回は、Cursorを使って名刺データをCSVに変換するツールを作ったお話をします。
といっても作り方ではなく、こんなの作れる?と聞くだけの、対話だけで乗り切ったので、難しいことは聞かないでほしいです。私はコードが書けないので…
こういうのもCursorでできるんだな、という参考になればと思い書いています。
背景
今回展示会に出てたくさん名刺をいただきました。
元々の名刺管理フローは以下の通りでした。
といっても普段は個人個人でセールスやディレクターの人がHubSpotに登録していて、私のやり方も完全に自己流です。
- ScanSnapで読み取る
- OCRツールでテキスト化する
- Excelに整形
今回枚数が多くて、2から3の作業が数が大変すぎる...となって、ふと「これCursorで作れるんじゃない?」と思い立ちました。
結論からいうと
「こんなツール作れる?」って聞いただけで、名刺PDFから会社情報を自動抽出してCSVに変換するツールが完成しました!
実現したこと
- ScanSnapで読み取った名刺PDFをフォルダにまとめる
- OCRでテキストを抽出
- 会社名、役職、連絡先などを自動抽出
- 1つのCSVファイルにまとめて出力
選択されたライブラリ
Cursorが自動で選定してくれたライブラリは以下の通りです。
1. Tesseract-OCR
- 理由:無料、高精度、日本語対応
- バージョン:5.5.0
- 言語データ:日本語(jpn)を使用
2. pdf2image
- 理由:PDFを画像に変換してOCR処理可能にする
- 依存:Poppler(PDF処理ライブラリ)
3. pytesseract
- 理由:PythonからTesseract-OCRを使いやすくするラッパー
4. Pillow
- 理由:画像処理
このリストもCursorのclaudeさんに出してもらいました。
このあたりの選定からPythonのプログラムまで自動で生成してくれました。私は項目名を指定しただけです。(姓と名分けてほしいなーとか)
実際の処理フロー
Cursorが作成してくれたツールの処理フローもまとめてもらいました。
-
PDFファイルの読み込み
- 指定フォルダ内のPDFファイルを一括処理
-
画像変換
- pdf2imageでPDFを画像に変換
-
OCR処理
- TesseractでOCRを実行し、テキストを抽出
-
データ抽出
- 正規表現やパターンマッチングで以下の情報を抽出
- 会社名
- 部署名
- 役職
- 氏名
- 電話番号
- メールアドレス
- 住所
- 正規表現やパターンマッチングで以下の情報を抽出
-
CSV出力
- 抽出した情報を整理してCSVファイルに出力
強み
1. 楽
- フォルダに名刺PDFを入れるだけで処理完了
- 手動でのテキスト入力がほぼ不要
2. 日本語対応
- 日本語の名刺でも高精度で読み取り
- 漢字、ひらがな、カタカナ、英数字すべて対応
3. バッチ処理
- 複数の名刺を一度に処理
- 大量の名刺でも効率的
4. カスタマイズ可能
- 抽出項目の追加・変更が簡単
- 出力フォーマットも自由に調整可能
実際の結果
実行した結果、読み取り精度は70点ぐらいでした。
まあ日本語なので、ある程度は仕方ないと思っています。
目視の確認は結局必要なんですが、それでもだいぶ楽になりました。
まとめ
Cursorを使えば、プログラミング知識がなくても、「こんなツール作れる?」と聞くだけで実用的なツールが作れます。
アイデアだけの記事ですが、**こういうこともできるんだ~**ということを伝えたかったのでした。
おわりに
この方法は、技術的な知識がなくても、Cursorの力を借りれば誰でも業務効率化ツールを作ることができます。
「もしかしてこの作業、楽になるんじゃない?」と思いつくことが大事なのかなと思います。
同じような課題をお持ちの方の参考になれば嬉しいです!✨
修正指示をスムーズにする校正ツール「AUN(aun.tools)」を広島を拠点に開発・運営している、株式会社フォノグラムのテックブログです。 エンジニア熱烈❤️🔥募集中です!
Discussion