🏖️

[GPT4o]入力画像サイズによる認識精度の違い

2024/05/18に公開

概要

PDFを要約するウェブアプリを開発しています.
GPT-4oがリリースされたことにより、画像の認識精度が上がったので,
画像を使って要約した方が値段や要約精度の面で効率が良いのではないかと考えています.
新しく,スライドを予約する際に画像に変換して予約しようとしています.
その時,どの画像サイズが良いのかを比較していきます.

値段の比較は以下の記事です.

https://zenn.dev/kaito_73519/articles/31aa91cf583465

結論

画像サイズをどの程度小さくすればいいかについては、
512x512の画像が一番価格として安く、ある程度の精度を出してくれる.
16対9のPowerPointのスライドであれば十分ではないかと思われる.
1024 までサイズを上げるとより詳細に記述してくれる
2048 はあまり効果がないように見える

比較

使用するPDF

使用するPDFは以下のスライドです.

https://www.soumu.go.jp/main_content/000023544.pdf

これを選択する理由としては字が細かく図が含まれているということで,
PDFをテキストにするだけでは要約が難しいかもしれないので利用しています.
今回は 8 ページ目の以下のスライドを使用します

使用するプロンプト

テキスト要約用プロンプト

指示

上記のテキスト要約を2種類行ってください.
また以下の成約に従ってを要約してください.

成約1

  • 1行だけ
  • できるだけ情報量を多く
  • AIであるあなたがわかるようなレベルで文章として成立している必要はないです

フォーマット

<ここに1行要約文を記載する>

成約 2

  • はじめにスライドのタイトルがあればそれを記述する
  • 要約分の最初にスライドの要点を記述する.
  • スライドに記載されている内容は可能な限り詳細に記述する.
  • 文章に推測は含めない
  • タイトルや章のはじめを区切るスライドは内容は記載しない

フォーマット

# <タイトル>
## 概要
## スライド内容
画像要約用プロンプト

指示

スライドを要約します.
要約は二種類行います. それぞれの成約を守ってください.
出力は```で囲まれた中に記述してください.
後ほど, プログラムを使用してパースを行うので出力は short, detail の2つだけにしてください.

成約1

  • 1行だけ
  • できるだけ情報量を多く
  • AIであるあなたがわかるようなレベルで文章として成立している必要はないです

フォーマット

<ここに1行要約文を記載する>

成約 2

  • はじめにスライドのタイトルがあればそれを記述する
  • 要約分の最初にスライドの要点を記述する.
  • スライドに記載されている内容は可能な限り詳細に記述する.
  • 図が記載されていれば図が示すことを詳細に記述する.
  • 文章に推測は含めない
  • タイトルや章のはじめを区切るスライドは内容は記載しない

フォーマット

# <タイトル>
## 概要
## スライド内容

テキスト要約の結果

テキストの作成と画像の生成は以下のプログラムを使用しています.
画像サイズは比率は固定したうえで縦のサイズを変化させます.

from pdf2image import convert_from_path
import PyPDF2


def main():
    pdf_file_path = '../test_data/000023544.pdf'
    dpi = [
        (200, None),
        (300, None),
        (400, None),
        (600, None),
        (800, None),
        (1000, None),
        (1200, None),
    ]
    for d in dpi:
        pdf_images = convert_from_path(
            pdf_file_path,
            size=d,
        )

        # 8ページ目の画像だけ保存
        pdf_images[7].save(f'../test_data/slide_{d[0]}.png', 'PNG')

    # 8ページ目のテキストを表示
    with open(pdf_file_path, 'rb') as f:
        pdf = PyPDF2.PdfReader(f)
        page = pdf.pages[7]
        text = page.extract_text()
        print(text)


if __name__ == '__main__':
    main()

テキストだけでも十分要約できていると感じられます.
(見づらいため手作業で改行を追加しています)

デジタル新産業の創出のために、ICT分野の技術研究開発を加速し、3D映像技術、自動音声翻訳、オール光通信技術、セキュアクラウドネットワーキング技術などを推進、各種分野で新製品・サービスを創出することを目指す。
# デジタル新産業の創出のための技術開発等の加速化
## 概要
新たな経済成長を実現するため、内需主導で国際競争力を有するデジタル新産業を創出することが急務であり、ICT分野の技術研究開発の加速化を図り、早期の市場投入を目指す。
## スライド内容
国際的に戦略分野と認識されているICT分野で我が国が強みとする技術を見極め、
研究開発を加速し、早期の市場投入によりデジタル新産業の創出を目指す
。具体的には、眼鏡不要の3次元映像技術の研究開発、
通信・放送分野に加えて医療やエンターテイメント分野などでの新製品・サービス創造、
地域の観光振興への貢献が含まれる。また、自動音声翻訳技術の実証実験や、
オール光通信技術の研究開発により超高速化・省電力化を実現し、
光信号を電気に変換せずに処理して伝送する技術を開発。
将来のセキュアクラウドネットワーキング技術の研究開発も進め、利用者間のクラウド間連携を実現するプラットフォームや高機能ルーターの開発を目指す。
さらに、新しいワイヤレス・ブロードバンド環境のテストベッド整備、屋内電化製品のワイヤレス接続、
車車間通信技術の活用により衝突を防ぐ車の実現など、最先端の情報通信技術を活用したプロジェクトが展開される。

画像の要約

height : 200

何が回てあるか全くわからない画像になってしまうサイズ.
出力をみると抽象的な内容になってしまっています.

価格

デジタル新産業の創出のための技術開発等の加速化に関するスライドで、ICT分野の革新、デジタル技術の導入、実証プロジェクト、未来のサービスの構築などについて説明。
# デジタル新産業の創出のための技術開発等の加速化
## 概要
このスライドは、デジタル新産業の創出を目指し、技術開発等の加速化に関する取り組みを紹介しています。主にICT分野の革新、デジタル技術の導入、実証プロジェクトの実施、未来のサービスの構築などについて説明しています。

## スライド内容
1. ICT技術の革新:
    - 左側には、ICT技術の革新についての説明があり、産業界と学界が連携して技術を開発する必要性が強調されています。
    - 図には、産業界と学界が協力して技術開発を行う様子が描かれています。

2. デジタル技術の導入:
    - 中央には、デジタル技術の導入に関する説明があります。
    - デジタル技術が社会や産業にどのように適用されるかを示す図が含まれています。

3. 実証プロジェクトの実施:
    - 右側には、実証プロジェクトの実施についての説明があり、具体的なプロジェクトの内容と期待される成果が記載されています。
    - 図には、実証プロジェクトの流れと参加者の役割が示されています。

4. 未来のサービスの構築:
    - 下部には、未来のサービスの構築に向けた取り組みが紹介されています。
    - 未来のサービスの概念とその実現に向けたステップが図示されています。

height : 300


文字が読めないこともないサイズになると具体的な数値や取り組み内容が表示されるようになりました.
そして価格が 200 の時と一緒になります.
これは 画像を 512x512 のタイルが何枚含まれているのかで料金が変わるためです.
そのため 512 まで大きくしてしまっても料金は変わらず精度が上がることになると思われます.

価格

出力

デジタル新産業の創出のための技術開発等の加速化、重点分野、半導体開発・製造、サイバーセキュリティ、医療支援、主なプロジェクト、デジタルエンターテインメント技術開発、スマートファクトリー。
# デジタル新産業の創出のための技術開発等の加速化
## 概要
政府は、デジタル新産業の創出を促進するため、技術開発等の加速化を行う。これは、具体的なプロジェクトを通じて実現される。

## スライド内容
### 半導体・電子応用産業のボトルネック解消に向けた取り組み
- **半導体の開発・製造の支援**
  - 高性能半導体の開発
  - 製造プロセスの革新
  - コスト削減技術の導入
  - 100億円の投資
- **デジタルエンターテインメント技術開発**
  - VR技術の開発
  - 新しいエンターテインメント体験の提供

### サイバーセキュリティ技術の強化
- **サイバーアタック対策の強化**
  - 高度なセキュリティ技術の開発
  - 防御システムの構築
  - 50億円の投資
- **スマートファクトリーの実現**
  - 自動化技術の導入
  - 効率的な生産システムの構築
  - 労働力の最適化

### 医療支援技術の開発
- **医療支援ロボットの導入**
  - 高精度手術支援ロボットの開発
  - 病院内物流システムの改善
  - 30億円の投資

height : 512

画像分析において最小の価格かつ最大の画像サイズ
出力も図の内容や, スライドに含まれる要素それぞれを詳細に教えてくれる様になる.

価格

出力

デジタル新産業の創出のための技術開発等の加速化、技術・生産力を強化するホールディング技術の研究開発100億円、セキュアクラウドドキュメント保管の技術開発12億円、先進モーションキャプチャ技術の導入。
# デジタル新産業の創出のための技術開発等の加速化
## 概要
新たな経済成長を実現するためには、国際競争力を有するデジタル新産業を創出することが重要である。国家的に戦略的な投資を実施してICT等で優位性を有する産業を育成し、その基盤技術を確立する必要がある。そのため、短期的な経済対策として、デジタル新産業の創出を目指した技術開発、および生産性・自立成長力の強化を図る。

## スライド内容
- 予算: 489億円

### 主なプロジェクト
#### 高度な技術・生産力を強化するホールディング技術の研究開発
- 予算: 100億円
- 目標: 革新的な材料技術の開発
- 内容: 
  - 産業分野の生産性向上を目指し、革新的な材料技術の研究開発を推進
  - 高度なセンサー技術、ナノテクノロジーの活用
  - 産業応用への展開
  - スライド図示内容: 「研究」「産業応用」「基盤技術開発」の3段階を示す図

#### セキュアクラウドドキュメント保管の技術開発
- 予算: 12億円
- 目標: 安全で信頼性の高いクラウド環境の実現
- 内容: 
  - デジタル文書の安全な保管・共有を実現するクラウド技術の開発
  - セキュリティ強化、暗号技術の導入
  - スライド図示内容: 「ユーザー」「クラウドサーバー」「データセンター」の相互接続を示す図

#### その他のプロジェクト例 - フロードマッピング技術の導入
- 目標: 先進モーションキャプチャ技術の導入
- 内容: 
  - 先進的なフロードマッピング技術を活用し、新たなエンターテインメントやシミュレーション技術の開発
  - 実証実験やデモンストレーションの実施
  - スライド図示内容: 実際の応用事例やデモンストレーションの写真

height : 1024

512と比較してタイル数が4倍になり価格も3倍になっている.
人間が画像を見て十分識別できるサイズ

価格

出力

デジタル新産業の創出と技術開発加速に向けた具体的なプロジェクトと予算配分について記載されたスライド。
# デジタル新産業の創出のための技術開発等の加速化
## 概要
新たな経済成長を実現するためには、内需主導で国際競争力を有するデジタル新産業を創出することが急務である。国際的に戦略分野と認識されているICT分野で我が国が強みを生かそうとする技術の研究開発等の加速化を図り、その早期の市場投入によりデジタル新産業の創出を実現し、産業の活性化と国際競争力の向上を目指す。
## スライド内容
- **予算**: 489億円
- **主なプロジェクト**:
  - **超高速化・省電力化を実現するオール光通信技術の研究開発**: 既存の技術では光信号を電気信号に変換して処理し再び光信号に変換して伝送するが、将来的には光信号をそのままの形で伝送することを目指す。予算は100億円。
  - **セキュアクラウドネットワーキング技術の研究開発**: クラウドコンピューティングの高度化、リアルタイムアプリケーションの実現、ネットワークの安全性向上を目指し、121億円が割り当てられている。
  - **新たなワイヤレス・ブロードバンド環境を早期に実現するテストベッドの整備**: 屋内の電子機器をワイヤレスで接続し快適な生活環境を提供することを目指し、198億円が割り当てられている。
  - **眼鏡の要らない3次元映像技術の研究開発**: 通信・放送分野に加えて、医療、エンターテイメント分野での活用を目指し、9億円が割り当てられている。
  - **地域の観光振興にも貢献する自動音声翻訳技術の実証実験**: 10億円が割り当てられている。
- 図示された内容:
  - 超高速化・省電力化技術の説明図
  - クラウドネットワーキング技術の概要図
  - 新たなワイヤレス環境のイメージ図
  - 3次元映像技術の説明図
  - 自動音声翻訳技術の実証実験のイメージ図

height : 2048

見た感じ 1024 サイズと変わらない画像.
出力も512と比較して量が増えている.

価格

出力

デジタル新産業の創出のための技術開発等の加速化、489億円、国際競争力を有するデジタル新産業、ICT分野、産業の活性化・国際競争力の強化、超高速化・省電力化を実現するオール光通信技術の研究開発、セキュアクラウドネットワーキングシステムの研究開発、新たなワイヤレス・ブロードバンド環境を早期に実現するテストベッドの整備、車車間通信、眼鏡の要らない3次元映像技術の研究開発、地域の観光振興にも貢献する自動音声翻訳技術の実証実験。
# デジタル新産業の創出のための技術開発等の加速化
## 概要
新たな経済成長を実現するためには、内需主導で国際競争力を有するデジタル新産業を創出することが急務である。国際的に戦略分野と認識されているICT分野で我が国が強みとする技術を見極め、これらの技術の研究開発等の加速化を図り、その早期の市場投入によりデジタル新産業の創出を実現し、産業の活性化・国際競争力の強化等の向上を目指す。
## スライド内容
スライドには、主なプロジェクトとして以下が挙げられている。

1. **超高速化・省電力化を実現するオール光通信技術の研究開発**(100億円)
   - 既存技術では光信号を電気に変換して処理し、再び光信号に変換して伝送するが、将来の技術として光信号を電気を介さず光のままで処理・伝送することで、約100倍高速かつ約1/100の省電力化を図ることが示されている。

2. **セキュアクラウドネットワーキングシステムの研究開発**(121億円)
   - クラウドコンピューティングの環境において、安心・安全にサービスを利用可能にするリネットワークの高度化と、次世代ITネットワークでクラウド間連携を実現するプラットフォームの構築が記載されている。また、リアルタイムサービスを可能にする高信頼化も目指している。

3. **新たなワイヤレス・ブロードバンド環境を早期に実現するテストベッドの整備**(198億円)
   - コードの要らない快適生活環境の実現や、車車間通信技術を活用したぶつからない車を実現することを目指している。

4. **眼鏡の要らない3次元映像技術の研究開発**(9億円)
   - 通信・放送分野に加えて、医療、エンターテインメント分野の様々な分野で新たな製品・サービスを創造することを目指している。

5. **地域の観光振興にも貢献する自動音声翻訳技術の実証実験**(10億円)
   - 観光地における多言語対応サービスを提供するための技術開発と実証実験を行うことを目指している。

Discussion