📖

DGX Spark上でDeepSeek-OCRをコマンド一発で動くようにしてみた

に公開

DeepSeek-OCRを試す

shi3zさんが自分の記事を参考にDeepSeek-OCRを試してくださっていました。

https://note.com/shi3zblog/n/n99bb0c642f1e

試したのは普通のA100ということなので、NVIDIA DGX Spark上でDeepSeek-OCRを動かすことにしました。

ところがこれが難しい…GPU対応のPyTorch入れるも、vLL入れると不整合がおきたり…途中で疲れてしまったのでClaude Codeに

「オレはここまでだ…」

と遊戯王で、服を挟まれて動けなくなった本田さんのように、AIに全てを託してふて寝しました。

zzz…

しばらくしてムクリと起き上がると、なんということでしょう。uvxでDeepSeek-OCRが動くリポジトリが誕生していました。凄すぎるぜClaude Code。ボク、ちょっと怖くなってきちゃいました。

https://github.com/karaage0703/DeepSeek-OCR

※ とりあえず動くようにしただけなので、DeepSeek-OCRの実力を発揮できていない可能性があるかも…です

DeepSeek-OCRの動かし方

DGX Sparkでしか(多分)動かないです。以下で基本的なセットアップをしてください。

https://zenn.dev/karaage0703/articles/985ddbd8fa15d3

最低限uvを入れておけばOKです。

あとは、pdfを用意して、以下コマンドでOCRができます。<your_document.pdf>を対象のpdfに置き換えてください。pngjpegファイルでも動くはずです。

$ uvx --from git+https://github.com/karaage0703/DeepSeek-OCR deepseek_ocr <your_document.pdf>

CPU対応もしたかったのですが、DeepSeek-OCRがGPUしか想定していないようで、難しくて諦めました(Claude Codeが)。

DeepSeek-OCRのテスト

普通のPDFとかは当たり前にOCRできて面白くないので(MarkItDown使えばいい)、以下みたいな地獄のようなPDF画像でテストしてみました。

DeepSeek-OCRで試してみた結果です。

ちょっと難し過ぎたかもですが、ところどころ読み取れてちゃんと画像も抜き取ってくれているのがすごいですね。

ちなみにMarkItDownでも試してみましたが、出力は「無」でした(1文字も読み取れなかった)。

ChatGPTも、PDFは文字を読み取れないと怒られました。一回、画像に変換して読み取ってもらったら以下のような感じでした。

・Deep Seek - OCR テストだよ。

よみとれるかな?

とうとつなウサギ
(吹き出し)バニーボーイ

うんこ💩

えっ。ここからよみとれるOCRすごいんですか??

2.2. アホ. 4.5. アホ. 78 アホ

からあげ先生

やはりChatGPTすごいですね。でも、OSSでこれだけ読み取れるOCRが手軽に使えるのは良いですね。

まとめ

DeepSeek-OCRをDGX Spark上で動かしてみました。DeepSeek-OCR、論文やネットのまとめ記事を読んだ感じだと、どうもテキストを画像に変換することでトークンを圧縮するのがキモらしいですね。ただ、どこまで実用的なのかはなんとも言えないですね。変に補完されることになると思うので、内容によってはこの手法で圧縮するとまずいものが結構ありそうな気がします。

ともかく単体でOCRとして優秀で手軽に使えるのは良いですね。遅くてもCPUで使えたら良いのですが…

参考リンク

https://nowokay.hatenablog.com/entry/2025/10/22/200049

https://nowokay.hatenablog.com/entry/2025/10/24/043944

関連記事

https://zenn.dev/karaage0703/articles/3ce79805245fef

Discussion