💼

Cursorで名刺データのCSV変換ツールを作った

に公開

Cursorで名刺データのCSV変換ツールを作った

はじめに

こんにちは。株式会社フォノグラムでWebマーケティングを担当している「おきょう」こと森山です。

今回は、Cursorを使って名刺データをCSVに変換するツールを作ったお話をします。
といっても作り方ではなく、こんなの作れる?と聞くだけの、対話だけで乗り切ったので、難しいことは聞かないでほしいです。私はコードが書けないので…
こういうのもCursorでできるんだな、という参考になればと思い書いています。

背景

今回展示会に出てたくさん名刺をいただきました。

元々の名刺管理フローは以下の通りでした。
といっても普段は個人個人でセールスやディレクターの人がHubSpotに登録していて、私のやり方も完全に自己流です。

  1. ScanSnapで読み取る
  2. OCRツールでテキスト化する
  3. Excelに整形

今回枚数が多くて、2から3の作業が数が大変すぎる...となって、ふと「これCursorで作れるんじゃない?」と思い立ちました。

結論からいうと

「こんなツール作れる?」って聞いただけで、名刺PDFから会社情報を自動抽出してCSVに変換するツールが完成しました!

実現したこと

  • ScanSnapで読み取った名刺PDFをフォルダにまとめる
  • OCRでテキストを抽出
  • 会社名、役職、連絡先などを自動抽出
  • 1つのCSVファイルにまとめて出力

選択されたライブラリ

Cursorが自動で選定してくれたライブラリは以下の通りです。

1. Tesseract-OCR

  • 理由:無料、高精度、日本語対応
  • バージョン:5.5.0
  • 言語データ:日本語(jpn)を使用

2. pdf2image

  • 理由:PDFを画像に変換してOCR処理可能にする
  • 依存:Poppler(PDF処理ライブラリ)

3. pytesseract

  • 理由:PythonからTesseract-OCRを使いやすくするラッパー

4. Pillow

  • 理由:画像処理

このリストもCursorのclaudeさんに出してもらいました。
このあたりの選定からPythonのプログラムまで自動で生成してくれました。私は項目名を指定しただけです。(姓と名分けてほしいなーとか)

実際の処理フロー

Cursorが作成してくれたツールの処理フローもまとめてもらいました。

  1. PDFファイルの読み込み

    • 指定フォルダ内のPDFファイルを一括処理
  2. 画像変換

    • pdf2imageでPDFを画像に変換
  3. OCR処理

    • TesseractでOCRを実行し、テキストを抽出
  4. データ抽出

    • 正規表現やパターンマッチングで以下の情報を抽出
      • 会社名
      • 部署名
      • 役職
      • 氏名
      • 電話番号
      • メールアドレス
      • 住所
  5. CSV出力

    • 抽出した情報を整理してCSVファイルに出力

強み

1.

  • フォルダに名刺PDFを入れるだけで処理完了
  • 手動でのテキスト入力がほぼ不要

2. 日本語対応

  • 日本語の名刺でも高精度で読み取り
  • 漢字、ひらがな、カタカナ、英数字すべて対応

3. バッチ処理

  • 複数の名刺を一度に処理
  • 大量の名刺でも効率的

4. カスタマイズ可能

  • 抽出項目の追加・変更が簡単
  • 出力フォーマットも自由に調整可能

実際の結果

実行した結果、読み取り精度は70点ぐらいでした。
まあ日本語なので、ある程度は仕方ないと思っています。

目視の確認は結局必要なんですが、それでもだいぶ楽になりました

まとめ

Cursorを使えば、プログラミング知識がなくても「こんなツール作れる?」と聞くだけで実用的なツールが作れます。

アイデアだけの記事ですが、**こういうこともできるんだ~**ということを伝えたかったのでした。

おわりに

この方法は、技術的な知識がなくても、Cursorの力を借りれば誰でも業務効率化ツールを作ることができます。
「もしかしてこの作業、楽になるんじゃない?」と思いつくことが大事なのかなと思います。
同じような課題をお持ちの方の参考になれば嬉しいです!✨

AUN Tech Blog

Discussion