Ⓜ️
microsoft/markitdown を試した
markitdown とは?
microsoftが公開した、いろんなファイルをmarkdownにしてくれるツール。
GitHub : https://github.com/microsoft/markitdown
記事執筆時点では以下をサポート
最初にまとめ
- アウトプット(読み物)としてはまだ使えない
- テキストベースでdiffが見れるので、レビュー時に便利かも
- もしかしたらAPIを使えばもっといろいろできるのかも(試してないけど)
- コントリビュートルールもREADMEに記載されているのでOSSコントリビュートチャンスかもしれない
動作確認環境
- WSL2 Ubuntu 24.04
- python 3.11.9 (pyenv)
インストール
libffe-dev
が必要なのでインストールされているか確認する。
$ apt list --installed | grep libffi-dev
libffi-dev/noble,now 3.4.6-1build1 amd64 [installed]
なければインストールする
$ sudo apt install libffi-dev
PyPIからインストール
ソースコードをGitHubからクローンしてインストールもできる。手順はGitHubのREADME参照
$ pip install markitdown
ちなみに libffi-dev
がないと実行時エラーになる。
$ markitdown gazo.PNG > gazo.md
略
ModuleNotFoundError: No module named '_ctypes'
こうなったら、pyenv uninstall で対象のバージョンを一度削除→再度インストールして、 libffi-dev
のインストールからやり直す
使ってみる
デジタル庁からExcel、PPTを拝借しました。
Excel
$ markitdown 20241226_resources_opendata_lg_list_01.xlsx > 20241226_resources_opendata_lg_list_01.md
- 空のセルには
NaN
が入る。
PPT
- 画像変換まではしてくれないか
ここには書けないが、仕事で作った表メインのパワポで試したところ、表の再現度は高かった。
Discussion