🖨️

PDFとWebページのマークダウン化ができるJina.aiを試してみる

2024/07/13に公開

はじめに

生成AIの分野ではRAG(Retrieval-Augmented Generation)などの技術を使って追加で情報を与え、独自の回答を行わせるような技術が非常に盛んになっています。

その中で、RAGの精度向上を行う際にはデータとして与えるPDFの前処理を行い、より精度を高める試みが多く行われています。

前処理の内容のひとつとして代表的なものには、PDF形式のファイルをマークダウン形式に変換する処理があります。マークダウン形式に変換することで、データの扱いやすさが向上し、AIモデルの精度向上につながります。

今回、このようなユースケースに利用されるサービスとしてJina.aiというサービスを見つけたので検証してみたいと思います。

そもそも、Jina.aiとは?

2020年に創業された企業であり、生成AI分野のなかでもRAGなどの検索に特化した機能を提供しているドイツの企業です。創業者はTencent AIで検索に関するサービスの研究・開発を行われていたHan Xiaoさんが創業したシリーズAの企業です。

今回はJina.aiが提供するサービスのひとつであるReaderAPIを利用して、PDFファイルをLLMが利用しやすいマークダウン形式への変換を検証しますが、それ以外にもRAGを利用する際に利用されることが多い EmbeddingsやReranker などのAPIやFine-tuningの機能も提供しています。

今回はReaderAPIのみを検証しますが、自動でFine-Tuningが可能な機能なども提供されているようで今後試してみたいと思います。

Jina.aiの利用金額は?

無料から利用が可能で、以下のようなプラン形態になっています。無料の利用枠としては、1Million Tokenが無料で利用できるようです。 1Million Tokenがどの程度の量かイメージしづらいところですが、The great gatsuby や Hobbit の本1冊分にあたる量のようです。お試しには十分な量ですね。

早速、マークダウンへの変換を試してみる

前置きが少し長くなりましたが、早速マークダウンへ形式への変換処理を行ってみたいと思います。

今回は、以下の3つのパターンで検証してみようと思います。

  1. Webのページをマークダウン形式に変換する
  2. Wordなどのドキュメント形式から変換されたPDFファイルをマークダウン形式に変換する
  3. PPTなどのパワポ形式から変換されたPDFファイルをマークダウン形式に変換する

上記のユースケースで、どこまでできるかを試してみましょう。

検証の実施環境としては、コチラのURLでDEMO環境が提供されているため、コチラを利用したいと思います。

Webのページをマークダウン形式に変換する

今回の検証ではWikipediaの富士山のページを利用してマークダウン化がどこまで正確にできるかを検証します。

出力結果の確認は以下のURLにアクセスすることで確認可能です。

https://r.jina.ai/https://ja.wikipedia.org/wiki/富士山

結果をみると不要なHTMLタグなどが削除されて、文字のみが抽出されていました。

マークダウン形式への変換に関しては、表形式への変換などは実施されていませんでしたが、Webページからの文字抽出という観点ではかなり優秀ですね。

PDF形式の文書をマークダウン形式に変換する

先ほどはWebページで試してみましたが、今度はPDF形式の文書で試してみます。

サンプルとして言語処理学会がリリースしている「LLM の出力結果に対する人間による評価分析と
GPT-4 による自動評価との比較分析
」の論文をサンプルに試してみました。

実行結果は以下のようになります。

https://r.jina.ai/https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/A4-3.pdf

マークダウン likeには変換されていますが、改行部分が期待通りになっていない部分があったりと

日本語への対応についてはもう一歩といった印象を受けました。

まとめ

Jina.aiによるマークダウン形式への変換を試してみましたが、日本語のPDFデータを利用する場合では現状はもう一歩といった印象を受けました。他の類似サービスも試してみたいです。

ただ、まだシリーズAの企業であり、生成AIに関わる検索サービスを網羅的に提供している企業なので、今後のアップデートを楽しみにしたいと思います。

Discussion