Ⓜ️

microsoft/markitdown を試した

に公開

markitdown とは?

microsoftが公開した、いろんなファイルをmarkdownにしてくれるツール。
GitHub : https://github.com/microsoft/markitdown
記事執筆時点では以下をサポート

最初にまとめ

  • アウトプット(読み物)としてはまだ使えない
  • テキストベースでdiffが見れるので、レビュー時に便利かも
  • もしかしたらAPIを使えばもっといろいろできるのかも(試してないけど)
  • コントリビュートルールもREADMEに記載されているのでOSSコントリビュートチャンスかもしれない

動作確認環境

  • WSL2 Ubuntu 24.04
  • python 3.11.9 (pyenv)

インストール

libffe-dev が必要なのでインストールされているか確認する。

$ apt list --installed | grep libffi-dev
libffi-dev/noble,now 3.4.6-1build1 amd64 [installed]

なければインストールする

$ sudo apt install libffi-dev

PyPIからインストール
ソースコードをGitHubからクローンしてインストールもできる。手順はGitHubのREADME参照

$ pip install markitdown

ちなみに libffi-dev がないと実行時エラーになる。

$ markitdown gazo.PNG > gazo.md
略
ModuleNotFoundError: No module named '_ctypes'

こうなったら、pyenv uninstall で対象のバージョンを一度削除→再度インストールして、 libffi-dev のインストールからやり直す

使ってみる

デジタル庁からExcel、PPTを拝借しました。
https://www.digital.go.jp/resources/data_local_governments

Excel

元データ:https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/2b1128e2-c699-4aa0-9206-37169a6697c8/686997e9/20241226_resources_opendata_lg_list_01.xlsx

$ markitdown 20241226_resources_opendata_lg_list_01.xlsx > 20241226_resources_opendata_lg_list_01.md
  • 空のセルには NaN が入る。

PPT

元データ:https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/2b1128e2-c699-4aa0-9206-37169a6697c8/e544a979/20241226_resources_opendata_lg_rate_04.pptx

  • 画像変換まではしてくれないか


    ここには書けないが、仕事で作った表メインのパワポで試したところ、表の再現度は高かった。

Discussion