😸
ファインチューニング用の公開データセット一覧
ファインチューニングは、特定の用途やニーズにAIモデルを最適化するために非常に有効な手法です。本記事では、ファインチューニングに活用できる公開データセットを、タスクごとに丁寧に紹介します。すべて無料でアクセス可能なものを中心にまとめています。
1. テキスト分類(感情分析・ニュース分類など)
IMDB(映画レビュー)
- 用途:感情分析(二値分類:ポジティブ/ネガティブ)
- 規模:50,000レビュー(訓練:25,000、テスト:25,000)
- リンク:https://huggingface.co/datasets/imdb
AG News
- 用途:ニュースのカテゴリ分類(4クラス)
- 規模:120,000件(訓練:120,000、テスト:7,600)
- リンク:https://huggingface.co/datasets/ag_news
Yelp Reviews
- 用途:ユーザー評価(1〜5のスコア)の分類
- 規模:650,000件以上
- リンク:https://huggingface.co/datasets/yelp_review_full
2. 質問応答(Question Answering)
SQuAD v2
- 用途:文書中から質問の答えを抽出(抽出型QA)
- 特徴:答えが存在しない質問も含む(難易度高め)
- 規模:150,000件以上のQAペア
- リンク:https://huggingface.co/datasets/squad_v2
Natural Questions (NQ)
- 用途:Google検索クエリに対する回答
- 規模:30万件以上(英語)
- リンク:https://ai.google.com/research/NaturalQuestions
3. 文生成(要約・翻訳など)
CNN/Daily Mail
- 用途:ニュース記事の要約(抽象要約)
- 規模:約300,000記事
- リンク:https://huggingface.co/datasets/cnn_dailymail
Multi30k
- 用途:機械翻訳(英独、英仏など)
- 規模:約30,000文(画像キャプション由来)
- リンク:https://huggingface.co/datasets/multi30k
4. 文類似・自然言語推論(NLI)
SNLI(Stanford Natural Language Inference)
- 用途:文の関係分類(entailment, contradiction, neutral)
- 規模:約570,000ペア
- リンク:https://huggingface.co/datasets/snli
STS Benchmark(Semantic Textual Similarity)
- 用途:文と文の意味的類似度(スコア予測)
- 規模:約8,000ペア
- リンク:https://huggingface.co/datasets/stsb
5. その他の注目データセット
TREC(質問タイプ分類)
- 用途:質問文の種類を分類(例:時間、場所、人など)
- 規模:約6,000件(少量でも高精度モデルの学習可)
- リンク:https://huggingface.co/datasets/trec
Common Crawl / OSCAR
- 用途:事前学習・大規模言語モデル用(巨大コーパス)
- 特徴:多言語対応、ノイズが多いためクレンジング要
- リンク:https://huggingface.co/datasets/oscar
まとめ
ファインチューニングに適した公開データセットは、タスクに応じて多種多様に存在します。自然言語処理の基本的なタスク(分類・生成・QA・翻訳など)には、既に高品質なデータセットが整備されており、Hugging Face Datasetsライブラリを使えば数行のコードで簡単に利用できます。
自分のプロジェクトに合ったデータセットを選び、効率的にモデルの精度を高めていきましょう。
Discussion