DGX Spark上でDeepSeek-OCRをコマンド一発で動くようにしてみた
DeepSeek-OCRを試す
shi3zさんが自分の記事を参考にDeepSeek-OCRを試してくださっていました。
試したのは普通のA100ということなので、NVIDIA DGX Spark上でDeepSeek-OCRを動かすことにしました。
ところがこれが難しい…GPU対応のPyTorch入れるも、vLL入れると不整合がおきたり…途中で疲れてしまったのでClaude Codeに
「オレはここまでだ…」
と遊戯王で、服を挟まれて動けなくなった本田さんのように、AIに全てを託してふて寝しました。
zzz…
しばらくしてムクリと起き上がると、なんということでしょう。uvxでDeepSeek-OCRが動くリポジトリが誕生していました。凄すぎるぜClaude Code。ボク、ちょっと怖くなってきちゃいました。
※ とりあえず動くようにしただけなので、DeepSeek-OCRの実力を発揮できていない可能性があるかも…です
DeepSeek-OCRの動かし方
DGX Sparkでしか(多分)動かないです。以下で基本的なセットアップをしてください。
最低限uvを入れておけばOKです。
あとは、pdfを用意して、以下コマンドでOCRができます。<your_document.pdf>を対象のpdfに置き換えてください。pngとjpegファイルでも動くはずです。
$ uvx --from git+https://github.com/karaage0703/DeepSeek-OCR deepseek_ocr <your_document.pdf>
CPU対応もしたかったのですが、DeepSeek-OCRがGPUしか想定していないようで、難しくて諦めました(Claude Codeが)。
DeepSeek-OCRのテスト
普通のPDFとかは当たり前にOCRできて面白くないので(MarkItDown使えばいい)、以下みたいな地獄のようなPDF画像でテストしてみました。

DeepSeek-OCRで試してみた結果です。

ちょっと難し過ぎたかもですが、ところどころ読み取れてちゃんと画像も抜き取ってくれているのがすごいですね。
ちなみにMarkItDownでも試してみましたが、出力は「無」でした(1文字も読み取れなかった)。
ChatGPTも、PDFは文字を読み取れないと怒られました。一回、画像に変換して読み取ってもらったら以下のような感じでした。
・Deep Seek - OCR テストだよ。
よみとれるかな?
とうとつなウサギ
(吹き出し)バニーボーイ
うんこ💩
えっ。ここからよみとれるOCRすごいんですか??
2.2. アホ. 4.5. アホ. 78 アホ
からあげ先生
やはりChatGPTすごいですね。でも、OSSでこれだけ読み取れるOCRが手軽に使えるのは良いですね。
まとめ
DeepSeek-OCRをDGX Spark上で動かしてみました。DeepSeek-OCR、論文やネットのまとめ記事を読んだ感じだと、どうもテキストを画像に変換することでトークンを圧縮するのがキモらしいですね。ただ、どこまで実用的なのかはなんとも言えないですね。変に補完されることになると思うので、内容によってはこの手法で圧縮するとまずいものが結構ありそうな気がします。
ともかく単体でOCRとして優秀で手軽に使えるのは良いですね。遅くてもCPUで使えたら良いのですが…
参考リンク
関連記事
Discussion