Zenn
😸

ファインチューニング用の公開データセット一覧

2025/03/22に公開

ファインチューニングは、特定の用途やニーズにAIモデルを最適化するために非常に有効な手法です。本記事では、ファインチューニングに活用できる公開データセットを、タスクごとに丁寧に紹介します。すべて無料でアクセス可能なものを中心にまとめています。

1. テキスト分類(感情分析・ニュース分類など)

IMDB(映画レビュー)

  • 用途:感情分析(二値分類:ポジティブ/ネガティブ)
  • 規模:50,000レビュー(訓練:25,000、テスト:25,000)
  • リンクhttps://huggingface.co/datasets/imdb

AG News

Yelp Reviews

2. 質問応答(Question Answering)

SQuAD v2

  • 用途:文書中から質問の答えを抽出(抽出型QA)
  • 特徴:答えが存在しない質問も含む(難易度高め)
  • 規模:150,000件以上のQAペア
  • リンクhttps://huggingface.co/datasets/squad_v2

Natural Questions (NQ)

3. 文生成(要約・翻訳など)

CNN/Daily Mail

Multi30k

4. 文類似・自然言語推論(NLI)

SNLI(Stanford Natural Language Inference)

STS Benchmark(Semantic Textual Similarity)

5. その他の注目データセット

TREC(質問タイプ分類)

  • 用途:質問文の種類を分類(例:時間、場所、人など)
  • 規模:約6,000件(少量でも高精度モデルの学習可)
  • リンクhttps://huggingface.co/datasets/trec

Common Crawl / OSCAR

  • 用途:事前学習・大規模言語モデル用(巨大コーパス)
  • 特徴:多言語対応、ノイズが多いためクレンジング要
  • リンクhttps://huggingface.co/datasets/oscar

まとめ

ファインチューニングに適した公開データセットは、タスクに応じて多種多様に存在します。自然言語処理の基本的なタスク(分類・生成・QA・翻訳など)には、既に高品質なデータセットが整備されており、Hugging Face Datasetsライブラリを使えば数行のコードで簡単に利用できます。

自分のプロジェクトに合ったデータセットを選び、効率的にモデルの精度を高めていきましょう。

Discussion

ログインするとコメントできます