【トリビア】古物商掲載情報を各都道府県で比較してみた
背景
例えばAmazonなどのECサイトの出品者は古物商許可証番号を掲載している場合があります。
しかし、この番号は本当に許可されているものかどうかは検索しないとわかりません🤮
「xxxxxxxxxxxx 古物商許可番号」で検索しても、引っかかるときと引っかからないときがあり、検索で引っかからないのか、無効な番号なのかがわからないため不便と思いました。
また、掲載されていないからといって直ちに不正な業者というわけではないので、番号と名前が照合できなければもやもやしたままです😔
やったこと
まずは下調べから始めました👀
前提として、古物商の許可番号は各都道府県でまとめられています。
ここのフォーマットが、主にPDFとWebページで構成してあり、一発で検索することが厳しくなっています。
- 各掲載情報のフォーマットや情報・文言が統一(許可番号がxxxと第xxx号で振れている)されていない
- 全国版がなく各都道府県で掲載されており、横断的に検索することができない
- 各都道府県のページはPDFであったり、Web掲載と統一されていない
- 許可証番号自体に都道府県を完全に識別できそうなルールはない
- 許可番号はユニークではなく複数のURLを持っている場合がある
エンジニアの都合としては、csvでいただけると解析が楽なのですが、PDFやWebページの解析は辛いです💩
また、PDFやWebページの掲載場所は都道府県によっては複数に渡る場合もあります。
解析される前提で掲載されてないと思うので仕方無しとは思いますが、データが大事な時代なので考慮いただけるとありがたいなと思いました🫠
下記に各都道府県のフォーマットを読んだをまとめました。
フォーマットは、
- PDF 29
- Web掲載 17
- Excel 1
の結果でした。意図的なのかはわかりませんが、岩手県のフォーマットのありがたさが身にしみます。
また、千葉県はWeb掲載ですが検索サイトになっており、検索サイトになっている都道府県は良いなと思いました💋
https://kouaniinkai.police.pref.chiba.jp/app_koan/kobutsu/kobutsulist.php
PDFであればRubyならpdf-readerを用いると 容易にテキスト抽出できますが、まだハードルがあります。例えば下記ですと、urlの項目を単に改行コードで分割した場合、
" 308951507019 若林 啓 http://www.amazon.co.jp/gp/aag/details?&asin=&isAmazonFulfilled=1&seller=A35GU"
と" PFC42W8HA"
で取得されます。
パターンを考慮して、urlをいい感じにつなげてあげなければいけません🥹
他にも痺れるような掲載方法が顔を見せます🤮
-
独自レイアウト
-
掲載が複数
-
キャラいらん
-
セル結合すな
-
どういう意図の色づけ?
各フォーマットの対応や、更新検知をどうするかを考えた際に、「これは誰も考えなかった話ではなくて、面倒なので誰もやらなかったのだ」と身に沁みて思いました🤔
Discussion