Open2

【ML Tips / LLM Tips】STEM分野のデータセットについて📝

まさぴょん🐱まさぴょん🐱

STEM分野のデータセットについて📝

STEM分野とは、科学(Science)、技術(Technology)、工学(Engineering)、数学(Mathematics)の4つの分野を指す言葉です。
これらの分野を統合的に学習するSTEM教育は、近年注目されています。

具体的には、以下の4分野を指します。

  1. 科学 (Science):
    自然界の現象を研究する分野。物理学、化学、生物学などが含まれます。
  2. 技術 (Technology):
    科学的な知識を応用して、道具やシステムを作り出す分野。
  3. 工学 (Engineering):
    科学的な原理に基づいて、具体的な製品やシステムを設計・開発する分野。
  4. 数学 (Mathematics):
    数や図形、論理などを研究する分野。

STEM教育は、これらの分野を横断的に学ぶことで、問題解決能力や論理的思考力を養い、科学技術立国を支える人材育成を目指すものです。

例えば、以下のような活動がSTEM教育の一環として行われています。プログラミング教室、ロボット製作、科学実験、数学パズル、 環境問題に関する学習。

近年、日本でもSTEM教育への関心が高まっており、小学校から大学まで、様々な教育機関でSTEM教育が取り入れられています。

まさぴょん🐱まさぴょん🐱

LLMのSTEM分野の知識を増強するために使える公開データセットについて📝

https://chatgpt.com/share/6881999e-fac4-8009-9855-6b9600103317

承知しました。数学、物理、化学、生物学、工学、コンピューターサイエンスの英語データを対象に、SFTやGRPOの合成データセットを構築するためのSeedとなる公開データセットを調査します。

形式にはこだわらないとのことなので、テキスト、Q&Aペア、コード、論文、構造化データなど多様な形式を含めて網羅的に調べます。調査が完了しましたら、適切なデータセットのリストとその特徴をお知らせします。

STEM分野の英語公開データセットまとめ

大規模言語モデル(LLM)の知識強化に利用可能な、数学・物理・化学・生物学・工学・コンピューターサイエンスの英語データセットについて調査しました。テキスト、Q&Aペア、コード、論文、構造化データなど形式を問わず、高品質でライセンス上利用可能な主要データセットを各分野ごとに整理します。また、PubMedやArXivなど広く認知されたSTEM向け大規模データセットも含め、用途や注意点も記載します。

総合的なSTEMデータセット(複数分野に跨るもの)

  • arXiv 論文データセット(総合):

    • 内容: 物理学・数学・計算機科学を中心に、統計・電気工学・定量生物学など幅広い分野のプレプリント論文約170万件。論文タイトル、著者、分類、要旨、PDF全文などを含むメタデータセット。
    • 提供元: Cornell University (arXiv)。Kaggle上で機械学習向けに提供。
    • ライセンス: 論文本文の著作権は各著者に帰属し一律ではありませんが、多くはオープンアクセスで公開されています。Kaggle提供の機械可読データセットは研究目的で自由に利用可能です。ただし再配布や商用利用時は各論文の個別ライセンス(例: 一部はCC BYライセンス等)に留意が必要です。
    • ファイル形式: メタデータはCSV/JSON、要旨テキスト等。PDFは別途提供。Kaggleのデータセットとして週次更新。
    • LLM用途適合性: 多数の専門分野の知識源として有用。モデルの事前学習データや、リトリーバル強化型生成(RAG)の知識コーパスとして活用可能。ただし内容が学術的で高度なため、そのまま指示調整データにするには要約やQ&A化などの加工が必要。
  • Stack Exchange(コミュニティQ&A集)(総合):

    • 内容: オンラインQ&Aサイト「Stack Exchange」ネットワーク上のコミュニティ投稿データ。数学、物理、化学、生物学、工学、プログラミングなど各トピックごとのQ&Aを含む。例えばMathematics, Physics, Chemistry, Biology, Engineering, Stack Overflow(プログラミング)等のサイトが該当。
    • 提供元: Stack Exchange社とユーザコミュニティ。定期的に公式データダンプが公開されている(Archive.orgやStack Exchange API経由で入手可能)。
    • ライセンス: CC BY-SA(クリエイティブ・コモンズ表示-継承)で提供。2018年以降の投稿はCC BY-SA 4.0、それ以前は3.0/2.5とバージョンが異なるが、いずれも表示と継承条件付きのオープンライセンス。従ってデータ利用時は出典表示が必要で、生成モデルに組み込む際は継承条件への対応に注意。
    • ファイル形式: XML形式のデータダンプ(7z圧縮)として提供。各Q&Aの質問文、回答文、スコア等の構造化データを含む。最新では四半期ごとに更新(2023年以降はデータ公開方法が変更されたが依然入手可能)。
    • LLM用途適合性: 高品質な問答ペアが豊富で、教師あり微調整(SFT)による対話応答能力向上に適しています。また領域別に抽出すれば(例:数学領域のQ&A)専門分野向け訓練データとなります。ただしCC BY-SA由来のコンテンツを商用サービスに利用する際はライセンス順守(モデルからの出力における属性表示など)の検討が必要です。
  • The Pile(総合・混合データセット):

    • 内容: EleutherAIが構築した約825GBの大規模テキストコーパス。22の多様な下位データセットから構成され、上記arXiv論文やPubMed Central論文、StackExchangeのQ&A、Wikipedia等、STEM分野を含む高品質テキストを網羅。
    • 提供元: EleutherAI(オープンソースコミュニティ)。
    • ライセンス: データセット全体としては各ソースに準拠(一部はパブリックドメインやCC系ライセンス)。The Pile自体のメタ情報やスクリプトはMITライセンスで公開。含まれる各サブセットはその出典のライセンスに従う(The Pileは非オープンデータを含まない方針で構築されている)。
    • ファイル形式: 各サブセットごとにテキストファイルを収録。Hugging FaceではJSONLやバイナリ形式でも提供。22分野のデータごとに分割・注釈あり。
    • LLM用途適合性: GPT-3やGPT-J系モデルの事前学習に実際に使われた実績があり、モデルに幅広い知識を与えるのに有用です。STEMに関しても学術論文やQ&Aが含まれているため、汎用モデルの基盤知識強化に適しています。ただし混合データゆえ特定分野向けの指示調整には不要な情報も多く、分野別抽出やフィルタリングが望ましいでしょう。
  • USPTO 特許テキストデータ(総合・工学/化学寄り):

    • 内容: 米国特許商標庁(USPTO)が公開する全特許出願・公開公報のテキストデータ。発明の技術的詳細や背景説明、請求項などを含み、機械・電子・化学・バイオ等あらゆる工学系分野の技術情報が網羅された巨大テキストコーパス。
    • 提供元: 米国特許商標庁 (US Patent and Trademark Office)。Google PatentsやUSPTO Bulk Dataサービス経由で入手可能。
    • ライセンス: 特許公報のテキストと図面は一般に著作権制限の対象外と見なされています(USPTO公式見解として「通常、特許のテキストや図面は著作権制限を受けない」)。法的には明確な条文はないものの、事実上パブリックドメイン同様に利用可能です。ただし特許自体の権利(特許権)は別問題であり、ここでは純粋にテキスト資料としての利用について言及しています。
    • ファイル形式: XML形式(特許全文データ)、またはテキスト抽出形式。膨大な量のため年度ごとのデータセットや、研究用途に加工された派生データ(例:化学反応抽出データセットなど)も存在。
    • LLM用途適合性: 技術分野の知識補強に極めて貴重な情報源です。モデルの事前学習に含めれば、専門的な工学・化学知識や専門用語の習得に寄与します。RAG用途で特許テキストを検索・参照させ、最新技術に関する質問へ回答させるといった応用も考えられます。ただし文章が法的かつ定型的で冗長な傾向があるため、そのまま指示応答データに用いる場合は要約などの前処理が有用です。

数学分野のデータセット

  • MATH (Mathematics Aptitude Test of Heuristics)(数学):

    • 内容: 数学コンペティションの難問を集めたデータセット。AMC10/12(米国数学コンテスト)、AIMEなどの大会問題約12,500問とその完全な逐次解答を含む。各問題にはLaTeX形式で記述されたステップバイステップの解答が付属し、モデルに数学的推論と解答過程を学習させることができます。難易度レベルや問題カテゴリ(代数、幾何など)のタグ付き。
    • 提供元: Dan Hendrycksら (NeurIPS 2021)。GitHubで公開。
    • ライセンス: MITライセンスで公開されており、商用利用を含め自由に再利用可能です。
    • ファイル形式: JSONLinesやJSONで問題文と解答を格納。例えば{"problem": "...", "solution": "..."}という構造で、解答中に最終答が\boxed{}で示されます。訓練用とテスト用にデータ分割あり(7,500問訓練/5,000問テスト)。
    • LLM用途適合性: 難易度の高い数学問題への対応力評価の標準ベンチマークとして知られ、モデルの数学的推論能力向上にも活用できます。逐次解答が含まれるため、SFTでモデルに解答プロセス生成を学習させるのに最適です。また、CoT(Chain-of-Thought)プロンプトの訓練にも使われています。ただし問題数は1万強と規模はそれほど大きくないため、大規模モデルの事前学習には補助的に他データセットと組み合わせると良いでしょう。
  • AMPS (Auxiliary Math Problems and Solutions)(数学):

    • 内容: MATHデータセットの補助的な大規模数学問題データセット。同じくHendrycksらにより構築され、Khan Academyから収集した10万件以上の数学問題とステップ解答、およびモデル生成による500万問以上の追加問題を含みます。総容量23GBに及ぶ大規模コーパスで、学校教材レベルから高度な問題まで幅広い難易度が網羅されています。
    • 提供元: Dan Hendrycksら (2021) – MATHデータセット公開時に併せてリリース。
    • ライセンス: MATHと同様にMITライセンスで提供。
    • ファイル形式: MATHに準じた問題・解答ペア(LaTeX形式解答)。Google Drive上で提供されている大容量ファイル。
    • LLM用途適合性: 数百万規模の問題で構成されており、数学領域の事前学習データとして極めて有用です。特にモデルに数式表現や基本的な問題解法知識を身につけさせる目的で活用できます。MATH本体より平易な問題も多く含むため、基礎的な数学知識強化に適しています。ただ生成問題も含むため、質のばらつきや重複には注意が必要です。
  • GSM8K (Grade School Math 8K)(数学):

    • 内容: 小学生~中学生レベルの算数文章題8,500問からなるデータセット。全て人手により作成された高品質な問題で、各問に正解と解法のステップ(フリーテキストによる説明または答えのみ)が付属します。問題は少数のサンプル(7.5k訓練、1kテスト)に分割済み。
    • 提供元: OpenAI (Cobbeら, 2021)。
    • ライセンス: MITライセンスで公開されており、制限なく利用可能です。
    • ファイル形式: JSON/テキスト。各項目に問題文、正解、(一部は)解説が含まれる。Hugging Face経由やKaggleで入手可。
    • LLM用途適合性: 少量ながら良質なCoTデータセットとして、モデルの多段階推論能力評価・向上に広く使われています。特にChatGPTなどの検証では本データセットでのスコア向上がモデル改良の指標となっています。モデルへの組み込み用途としてはSFTでの算数文章題解法の訓練や、モデル出力の検証(Verifier訓練)に適しています。
  • NaturalProofs(数学):

    • 内容: 自然言語による数学定理証明データセット。定理の主張とその証明、定義、系など計数万件が含まれる大規模コーパスで、数学の定理証明に関する多領域(集合論、数論など)のテキストを網羅しています。具体的には約32,000件の定理ステートメントとその証明、14,000件の定義、2,000件の補題・系などを収録。データはProofWikiやStack ExchangeのMathサイト、論文集など複数ソースから収集されました。
    • 提供元: Sean Welleckら (2021)。ニューヨーク大学・Allen Institute for AIによる研究。
    • ライセンス: MITライセンスで公開(但し含まれるコンテンツの一部は元ソースに応じたライセンス。例えばProofWiki由来部分はGFDL等)。全体としては緩い制約で再利用可能。
    • ファイル形式: JSONなどに構造化。定理("theorem")と証明("proof")のテキストペア、関連する定義("definition")リストなどを持つデータ構造になっています。Hugging Face上でデータセットが提供されています。
    • LLM用途適合性: 数学の定理証明というニッチだが高度な領域の知識強化に役立ちます。モデルに論理的な証明の書き方や数学的事実を学習させるのに適し、専門的用途でのRAG(例えば定理を問い合わせて証明を返す)にも活用できます。ただしデータ量は数万規模と限定的であり、一般用途のLLMに組み込む場合は他のテキストと混ぜて事前学習させることが多いでしょう。
  • OpenMathInstruct-1(数学・指示データ):

    • 内容: 数学領域に特化した約180万件の指示チューニング用データセット。前述のMATHデータセットとGSM8Kの問題をベースに、Meta社の「MixtrAL」(Mistralモデルの変種)を用いて多数の解答候補を生成し、良質な解答ペアを構築したものです。各問題に対し多様な形式の解答(Pythonコードを用いたものや文章のみのものなど)を複数含め、誤答も別途660万件以上収録しています。
    • 提供元: NVIDIAら (Mukherjee et al., 2024)。NeurIPS 2023での研究。
    • ライセンス: 商用利用可能なパーミシブライセンスで公開。具体的にはCC BYまたはApache 2.0に類する許諾で、商用利用含め制限の少ない形で提供されています(論文中で「commercially permissive license」と明言)。
    • ファイル形式: JSON Lines形式で、{"instruction":問題, "response":解答}のようなフォーマット。問題文はMATH/GSM8Kから、解答はモデル生成(マスク手法や多プロンプト手法で多様化)。訓練セットカバレッジ(既存問題に解答が生成できた割合)はMATHで93%、GSM8Kで99.9%に達しています。
    • LLM用途適合性: Math領域版の指示調整データとして、既存のGPT-distilledデータセットに匹敵する性能向上効果が示されています。特に中小規模のLLMに数学問題への対応力を与えるために有用です。MATHやGSM8Kの問題を含むため、それら公開データとの組み合わせで**教師あり微調整(SFT)**を行うことで、解答生成能力を飛躍的に高めることが可能です。ただし大部分がモデル生成解答であるため、誤った解法やショートカット解答も一部含まれる点には注意が必要です。

物理学分野のデータセット

  • Physics Stack Exchange(物理):

    • 内容: 一般物理から専門領域まで、物理学に関するQ&Aを集積したコミュニティサイト「physics.stackexchange.com」のデータ。力学、電磁気、量子論、天文学など多岐にわたる質問と専門的な回答が含まれます。ユーザ投票で質の高い回答が上位にあるのも特徴です。
    • 提供元: Stack Exchange(Physicsコミュニティ)。
    • ライセンス: CC BY-SA(投稿はCC BY-SA 4.0/3.0)。従って本文利用時には出典表記と共有アルライク(継承)義務が発生します。
    • ファイル形式: Stack Exchangeデータダンプ中の "physics.stackexchange.com" 部分。XMLまたはJSONにて、各質問・回答・コメント・スコア等のフィールドを持ちます。
    • LLM用途適合性: 自然言語の物理QA対話データとして極めて価値があります。特に物理領域に特化した対話モデルの教師あり微調整に有用で、高度な物理知識や定性的な説明力をモデルに与えることができます。計算や数式も含まれるため、モデルの数式レンダリングや定量的推論の訓練にもなります。ただしライセンス上、モデル生成物に原文が混入する場合の扱いに注意が必要です。
  • ArXiv (Physicsカテゴリ)(物理):

    • 内容: arXivには物理学分野の研究論文が多数登録されています。高エネルギー物理、凝縮系、物性、天文学などサブカテゴリ毎に論文プレプリントが蓄積され、長年の蓄積で数十万件以上の物理論文本文と要旨が取得可能です。例えば高エネルギー物理(hep-*)やastro-ph等、多くの分野に跨ります。
    • 提供元: arXiv (Cornell)。Kaggle提供のarXivデータセットにも物理論文が多数含まれる。
    • ライセンス: 基本的には上記arXiv全体と同様です。投稿者が指定しない限り特定の再利用ライセンスは付与されていませんが、研究目的での利用は認められています。オープンアクセスの精神に則り、多くの論文は自由に読めますが、再配布は各論文の許諾次第です(arXivでは一部CCライセンス表示も可能)。
    • ファイル形式: PDFフルテキスト、要旨とメタデータ(JSON/CSV)。物理カテゴリのみ抽出したサブセットも自作可能です。
    • LLM用途適合性: 物理学の最新知見や専門知識をモデルに仕込むのに適しています。特にモデルに高度な科学知識を与えたい場合の事前学習コーパスとして有用です。また、物理質問へのRAGにおいてarXiv論文から関連内容を検索・参照することで正確な回答を生成する、といった用途も考えられます。論文由来の厳密な数式や専門用語も含まれるため、モデルがそれらを扱う練習にもなります。
  • SciQ(科学QA、物理含む):

    • 内容: Allen AIによる科学分野の多肢選択QAデータセット。物理・化学・生物などの科学知識について、クラウドソーシングで作成された13,679件の四択問題を収録しています。各問題には4つの選択肢と正答があり、さらに解説文(解答を裏付ける根拠テキスト)が付属する点が特徴です。内容は中学~高校レベルの科学知識が中心。
    • 提供元: Allen Institute for AI (SciQデータセット)。
    • ライセンス: CC BY-NC 3.0(表示-非営利)。研究目的での利用は可能ですが、商用目的には利用不可となるため注意が必要です。
    • ファイル形式: JSON/CSVで提供。各レコードにquestion, distractor1/2/3(誤答選択肢), correct_answer, support(解説文)といったフィールドを持ちます。Hugging Faceなどから取得可能。
    • LLM用途適合性: 比較的小規模ですが高品質な科学QAデータであり、モデルの微調整によって科学知識問答能力を付与するのに役立ちます。特に解説文つきのため、モデルに根拠をもとに答える訓練をさせることも可能です。ただし非営利限定ライセンスのため、モデルを商用展開する場合にはデータ起源の回答生成に注意しなければなりません。
  • ARC (AI2 Reasoning Challenge)(科学QA、物理含む):

    • 内容: 小中学校レベルの科学試験問題に基づく多肢選択式QAデータセット。7,787問の科学分野(物理・化学・生物・地学)問題を含み、うちチャレンジセットと容易なセットに分かれています。各問題には4択肢と正解があり、科学知識だけでなく推論力を問う設問が多く含まれます。
    • 提供元: Allen Institute for AI (2018)。
    • ライセンス: CC BY-SA(AllenAIのオープンデータとして提供、AWS Open DataではCC BY-SA表記)。商用利用も可能ですが、派生物には同じライセンスを継承する必要があります。
    • ファイル形式: JSON/CSV形式でトレーニング、開発、テストセットを提供。問題文、選択肢テキスト、正解ラベルを格納。KaggleやAllenAIデータページから入手可能。
    • LLM用途適合性: 主に評価用ベンチマークとして利用され、モデルが基礎的科学常識や教科書知識をどの程度保持しているかを測る指標となっています。サイズがそれほど大きくないため、このデータ自体で大規模モデルを訓練することは少ないですが、少量学習やモデルの解答傾向分析には有用です。適宜、SciQ等と組み合わせて微調整データに利用することも考えられます。
  • MMLU (Massive Multitask Language Understanding)(評価セット、物理含む):

    • 内容: 57分野にわたるマルチタスクの選択式問題集で、大学学部レベルまでの知識を問う問題を含む大規模ベンチマーク。物理学についても高校・大学相当の問題(例えば大学物理)を多数含んでいます。他に化学・生物・数学・コンピュータ科学なども網羅。合計問題数は数千規模。
    • 提供元: Dan Hendrycksら (2021)。論文およびGitHubで公開。
    • ライセンス: MITライセンス(Hugging Faceのデータカード上でMITと明記)。自由に使用・再配布可。
    • ファイル形式: 各問題について、問題文と4択肢、正解IDを記載したJSON/CSV。開発用・テスト用に分割。
    • LLM用途適合性: ChatGPTやGPT-4などの汎用モデルの知識評価に広く使われています。評価専用データであり、このデータでモデルを微調整すると本来の評価目的が損なわれるため注意が必要です。物理分野に関してはモデルの定量的知識が不足しがちな領域であり、MMLU物理カテゴリの成績はモデル改良の指標となっています。

化学分野のデータセット

  • Chemistry Stack Exchange(化学):

    • 内容: 化学分野(有機化学、無機化学、分析化学、化学工学等)に関するQ&Aが集まるコミュニティ「chemistry.stackexchange.com」の投稿データ。実験手法の質問から理論的な議論まで含み、専門家による詳細な回答が得られることも多い。
    • 提供元: Stack Exchange(Chemistryコミュニティ)。
    • ライセンス: CC BY-SA(他のStack Exchangeサイトと同様)。
    • ファイル形式: Stack Exchange公式ダンプ(XML)にChemistryサイト分が含まれる。質問、回答、コメント、タグなどを保持。
    • LLM用途適合性: 化学分野の問答データとして貴重で、モデルの微調整により化学知識に基づく応答精度を高めることができます。例えば有機合成の手法に関する質問や化学反応の理由説明など、人間専門家の知見が含まれるため、モデルがそれらの知識と説明スタイルを習得するのに有用です。共有ライセンスである点を除けば利用価値は高いと言えます。
  • PubChem(化学データ):

    • 内容: 世界最大級の化学物質データベースで、1億件を超える化合物エントリを収録。各化合物について分子構造、IUPAC名や別名、物理化学的性質、生物活性情報、関連文献などが含まれる。BioAssay(生物試験結果)データベースも付随し、化合物の薬理データも大量に蓄積。
    • 提供元: 米国NIH・国立生物工学情報センター (NCBI)。
    • ライセンス: パブリックドメインとして提供されています。米国政府のデータであり著作権保護の対象外で、自由に利用可能です。実際、PubChem収録内容は「公的領域(Public Domain)」にあり、商用利用も含め制限ありません。
    • ファイル形式: 構造化データ(SDF, XML, CSVなど)。化学構造はSMILESやInChIで、性質や文献ID等はフィールド形式。BulkダウンロードやREST API (PUG-REST)経由で取得可能。
    • LLM用途適合性: 化合物名から構造・性質へのマッピングや、化学物質に関する説明生成などに役立つ知識源です。直接テキストコーパスではないものの、構造化データをテキスト記述(例えば「水(H2O)は無色無臭の液体で融点0℃...」のように)に変換して学習させることで、化学物質に関する知識をモデルに与えることができます。またRAG用途では、モデルが物質名を問い合わせてPubChemから性質を引き出し回答する、といったシステムも構築可能です。ライセンス的に極めて自由度が高い点も利点です。
  • ChEMBL(化学):

    • 内容: 医薬創薬向けの大規模化合物データベース。約200万以上の化合物と、それらの生物活性測定データ(ターゲット蛋白に対するIC50値等)、ADMET特性、文献情報を含みます。薬剤候補化合物や既知医薬品のデータが豊富で、化合物-標的間の関係を解析するのに用いられます。
    • 提供元: 欧州分子生物学研究所-欧州バイオインフォマティクス研究所 (EMBL-EBI)。
    • ライセンス: CC BY-SA 3.0。データ内容は緩い制約でオープン提供されていますが、派生物の共有が求められます。
    • ファイル形式: SQLデータベースやCSV形式での提供。化合物構造はSMILES、活性値や実験条件がテーブルとして整理。定期的にバージョン更新されています。
    • LLM用途適合性: こちらも構造化データ主体ですが、化合物の特性記述や薬理情報を文章化してモデルに与えることで、創薬・化学分野の知識を強化できます。例えば「○○という化合物はキナーゼAに対しIC50=5 nMの阻害活性を示す」といったテキストを生成し学習させることも考えられます。ChemBLデータ自体は専門的で直接QA形式ではありませんが、モデルの知識グラフ統合的な学習に資するでしょう。ライセンス上の制約(SA)に留意しつつ研究利用されています。
  • USPTO Chemical Reaction Dataset(化学):

    • 内容: 特許公報から抽出された化学反応データセット。化学反応の入力物質・生成物・反応条件が記載され、機械学習による反応予測やレトロシンセシス解析に使われます。例えばUSPTOの1976-2016年の特許から50万件以上の反応を抽出したデータセット(Lowe, 2017)などが有名です。
    • 提供元: 特許庁データを加工した二次データセット。Lowe氏による処理版はMITライセンスで公開。
    • ライセンス: 元データは米国特許ゆえ実質パブリックドメイン扱い。加工版もMITライセンス等で再公開されています。
    • ファイル形式: CSV/JSON形式で、反応ごとに出発物質のSMILES、生成物のSMILES、テキストでの反応条件(温度・触媒など)等を含む。
    • LLM用途適合性: 化学反応の前後関係や条件記述は専門性が高いですが、モデルに化学知識を与える上で有用な情報です。特に、化学反応の記述生成リアクション予測をLLMに行わせる研究があり、その訓練データとして利用できます。たとえば「ベンゼンと塩素を鉄触媒下で反応させるとクロロベンゼンが得られる」等、自然言語で反応を説明させるような応用です。
  • BioASQ(生物医学QA):
    ※医学寄りのデータセットですが、生物学領域として扱います

    • 内容: バイオメディカル分野の大規模QAデータセット。PubMed論文に基づいた事実質問(Factoid)、リスト質問、Yes/No質問、要約質問が含まれ、専門家により正解と根拠snippetが与えられています。BioASQチャレンジとして毎年更新され、最新では数千件規模のQAペアを提供。例えば「特定遺伝子が関与する疾患は?」「〇〇の治療薬は有効か?」といった高度な質問が多い。
    • 提供元: BioASQプロジェクト(欧州主導の評価ワークショップ)。
    • ライセンス: CC BY 2.5で提供され、商用含め自由利用可能(要クレジット表記)。
    • ファイル形式: JSON形式で、question, answers, snippets(出典テキスト)等のフィールドを持つ。タスクB(事実質問)やTaskSynergy等、タスク種別ごとにデータセットが整備されています。
    • LLM用途適合性: 医学・生物学に特化したQAデータとして非常に価値が高く、専門領域LLMの微調整に適しています。特に回答根拠付きのデータであるため、モデルが根拠を参照しながら答える訓練(Instruction + RAG融合のようなセッティング)にも使えます。またモデルのドメイン知識評価(医学QA精度を見る)にもBioASQのベンチマークが利用されています。専門用語が多く難易度は高いですが、その分モデルの知識強化効果も大きいデータです。
  • PubMedQA(生物医学QA):

    • 内容: PubMed収録論文から派生した研究質問応答データセット。主に論文要旨を読んで「結論はYesかNoか、それとも曖昧か」を答えるYes/No型QA約1,000問と、限定的な抽出型QAが含まれます。例えば「〇〇は△△のリスクを低減しますか?」という問いに対し、論文要旨から「Yes/No/Maybe」を答えるなど、研究結果の理解を問う形式です。
    • 提供元: 米国UIUCらの研究(ACL 2019)。
    • ライセンス: オープンアクセス論文を利用しているため研究利用可。明示的ライセンスは論文参照ですが、非商用利用推奨。
    • ファイル形式: JSONで質問、関連論文ID、要旨テキスト、Yes/No/Maybeの正解ラベル、簡単な理由づけテキスト(一部)が含まれる。
    • LLM用途適合性: 医学論文の内容を理解し簡潔に判断する能力を訓練・評価できます。モデルに要旨を読ませ、要約や判断をさせる指示調整を行うデータとして有用です。ただデータ量が少ないため、モデル学習への寄与は限定的で、むしろ評価用途に近いかもしれません。他のデータ(例えばPubMed要旨自体)と組み合わせ、言語モデルに医学文献を読解させるタスクの一環として組み込む形が考えられます。

工学分野のデータセット

  • Engineering Stack Exchange(工学一般):

    • 内容: 工学全般に関するQ&Aが投稿されるコミュニティ「engineering.stackexchange.com」のデータ。機械工学、土木工学、航空宇宙など幅広い工学的テーマの質問が含まれます。例えば「トラス構造の応力解析方法」「エンジンの熱効率改善」等、実践的な問題から理論的な議論まで扱われます。
    • 提供元: Stack Exchange(Engineeringコミュニティ)。
    • ライセンス: CC BY-SA。
    • ファイル形式: 他のStack Exchangeサイトと同様、定期公開のデータダンプにXML形式で収録。質問タイトル、本文、回答、コメント、ユーザスコア等。
    • LLM用途適合性: 工学領域の実問題に対する人間の知見を含むため、モデルに実用知識を与えるデータとして有用です。例えば機械設計の勘所やトラブルシューティングの知恵など、教科書にない現場的知識が得られる可能性があります。モデルの技術質問応答性能向上や専門的対話(製造業コンサルのような)への適用に役立つでしょう。物理・化学と異なり工学は領域が広いため、必要に応じ特定分野(例:Electronics, Aerospace)の関連Q&Aを抽出して使うのが効果的です。
  • Electrical Engineering (Electronics) Stack Exchange(電気・電子工学):

    • 内容: 電子回路設計、電気工学の専門Q&Aサイト「electronics.stackexchange.com」の投稿データ。回路図の読み方、デバイス特性、マイコン制御、信号処理など、ハードウェアに関する高度なQ&Aが豊富です。
    • 提供元: Stack Exchange(Electronicsコミュニティ)。
    • ライセンス: CC BY-SA(他のStackExchangeと同様)。
    • ファイル形式: XMLデータダンプ内に収録。
    • LLM用途適合性: 電子工学領域に特化した知識習得に役立ちます。電子回路に関するトラブルや設計相談のQ&Aを学習すれば、モデルがハードウェアに関する具体的なアドバイスや計算をできるようになる可能性があります。特にIoTやロボットなどクロスドメインな応用では、プログラミング知識と電気知識の両方が必要なため、Stack Overflowデータと組み合わせモデルに与えると効果的でしょう。
  • EngrXivプレプリント(工学):

    • 内容: 工学系プレプリントサーバー「EngrXiv」に投稿された学術論文のテキスト。土木工学、産業工学、機械/材料工学など、arXivではカバーしきれない工学応用分野の論文が集まっています。件数はarXivに比べ少ないものの、多様な応用研究の報告が含まれる。
    • 提供元: OSF (Open Science Framework)上のEngrXiv。
    • ライセンス: 著者はCC BY 4.0ライセンスでの公開が推奨されており、多くのプレプリントはCC BYで再利用可能。
    • ファイル形式: PDF本文が主。メタデータはOSF APIで取得可能。
    • LLM用途適合性: 工学応用分野の論文テキストから、モデルに実践的知見や専門用語の理解を付与できます。例えば材料工学論文から腐食や加工法の知識を、土木論文から構造設計の知見を得るなどです。データ量は限定的なため、他の大規模データと組み合わせた事前学習コーパスの一部として活用するのが現実的です。また、専門モデルの評価用にEngrXiv文書から質問を作成しモデル性能を測るといった使い方も考えられます。
  • 技術特許データ(工学):

    • 内容: 前述のUSPTO特許データの中でも、機械・電気・ソフトウェアなど工学系の発明に関する特許テキスト。具体的には、発明の背景説明や概要・詳細な説明、図面の説明といった部分に、装置や方法に関する技術的文章が記載されています。例えば「新型エンジンの燃焼制御方法」「ネットワーク通信プロトコル」等、多岐にわたる。
    • 提供元: USPTO(特許全文データベース)。
    • ライセンス: 特許テキストは著作権的制約がほぼなく自由利用可。
    • ファイル形式: XML形式(特に「背景技術」や「発明の詳細な説明」セクションの抽出が有用)。
    • LLM用途適合性: 工学系の膨大な知識ベースとして、モデルの事前学習でこれらテキストを読み込ませると技術文書の読解・要約能力が高まります。また、ChatGPTのようなモデルに特許文章をわかりやすく言い換えさせる、要点を抽出させる、といった応用も想定できます。注意点として、特許文章は長文化しがちで文体も独特なため、モデルが冗長なスタイルを学習しないようフィルタリングや短縮加工すると良いでしょう。

コンピューターサイエンス分野のデータセット

  • Stack Overflow(プログラミングQ&A):

    • 内容: 世界最大のプログラミングQ&Aサイト「Stack Overflow」の投稿データ。幅広いプログラミング言語の使い方、バグの解決策、アルゴリズムの実装法など、2,300万件以上の質問と回答が蓄積されています。コンピュータサイエンス領域では事実上最大規模のコミュニティ知識ベースです。
    • 提供元: Stack Exchange社(Stack Overflowコミュニティ)。
    • ライセンス: CC BY-SA(投稿はCC BY-SA 4.0/3.0)。2018年以降4.0。
    • ファイル形式: 定期公開のデータダンプ(XML)に収録。またStack Overflowは他サイト同様API提供もあり。質問本文・回答本文はコードスニペットやマークダウン形式を含むテキスト。
    • LLM用途適合性: プログラミング支援特化モデル(例: コードアシスタント)の訓練に不可欠なデータです。自然言語による問題記述とコード例、エラーメッセージと解決策、といったペアが大量に含まれ、モデルがプログラミングに関する質問に答える能力を飛躍的に向上させます。ただしCC BY-SAのため、モデル生成物へのライセンス継承扱いをどう考えるかは議論があります。多くの企業は出典コードのコピー&ペースト生成を防ぐフィルタを入れるなどして対応しています。いずれにせよStack Overflowデータはコーディング分野LLMには欠かせない高価値データセットです。
  • CodeContests(AlphaCode競技プログラミングデータ):

    • 内容: DeepMindが公開した競技プログラミング問題データセットで、CodeforcesやCodeChef、AtCoder等の主要プラットフォームから収集された約13,000問の問題文とそれに対する解答コード、さらに不正解コード例を含みます。AlphaCode論文で使用され、問題難易度やタグ、テストケースも付随する高品質なデータです。問題は多言語(主にC++/Python)での正解コードがあり、入力出力例や時間制限等のメタ情報も含まれています。
    • 提供元: DeepMind (AlphaCodeプロジェクト)。Hugging Faceのdeepmind/code_contestsとして公開。
    • ライセンス: CC BY 4.0(表示のみ、改変・再配布自由)。商用利用も可能な非常に緩い条件です。
    • ファイル形式: JSON Lines形式で各問題を記録。descriptionに問題文、public_testsに公開テストケース、solutionsに正解コード、incorrect_solutionsに誤答コード、タグや難易度、出典サイト名(Codeforces等)も含む。訓練・検証・テストに分割済み(train: 13,328問など)。
    • LLM用途適合性: コード生成LLMの微調整において極めて価値が高いデータです。既存のプログラミング課題に対する正解コードを学習させることで、モデルが自然言語の問題文から正確なコードを書く能力を身につけます。AlphaCodeでもGitHub事前学習モデルに本データでの微調整を行ったところ、性能が大幅に向上しています。誤答コードも含むため、モデルに誤りを識別・修正させる訓練(誤答から正答への誘導など)も可能です。CC BY 4.0で法律上の制約も少なく、競技プログラミングAI開発には必須と言えるでしょう。
  • APPS (Automated Programming Progress Standard):

    • 内容: Hendrycksらが収集したコード生成ベンチマークで、約10,000問のプログラミング問題とその模範解答コードから構成されます。問題は難易度別に分かれ、数学パズル的なものから実装重視のものまで幅広く、特にPythonで書かれた解答が多いのが特徴です。KattisやCodewars等から集められており、入出力例や問題説明が含まれます。
    • 提供元: Dan Hendrycksら (NeurIPS 2021)。Papers with CodeやHugging Faceでcodeparrot/appsとして利用可。
    • ライセンス: CC BY-SA 3.0。データ内のコードはKattis等の問題に由来し、Kattis問題がCC BY-SAであることに準拠しています。
    • ファイル形式: JSON/テキスト形式。各問題にprompt(問題文)とsol(参考解答コード)が含まれ、さらに入出力テストケースも付随します。一部には解説もテキストで提供。
    • LLM用途適合性: コード生成能力評価で頻用され、OpenAI CodexやGPT-4などもこのデータセットで性能が報告されています。データ量は1万問と中規模ながら質が高く、モデルの微調整にも活用できます。ただしCC BY-SAであるため、生成コードに問題文や既存コードをコピーする形で出力しないよう配慮が必要です。例えば商用コード補完サービスで、このデータ由来のコードがそのまま出力されるとライセンス対応が課題になる可能性があります。適切に訓練すればモデルは汎化した解答を生成すると考えられますが、利用時には念のため注意が推奨されます。
  • The Stack(GitHubコードデータセット):

    • 内容: オープンソースのGitHubリポジトリから収集された大規模コードデータセット。BigCodeプロジェクトにより構築され、358言語・6.4TBにも及ぶソースコードファイルを含みます。収録対象はApacheやMITなどパーミシブ(緩い)ライセンスのリポジトリのみで、GPLやLGPL等強いコピーレフトは除外されています。結果、C/C++/Python/Javaなど主要言語からWebスクレイピング用DSLまで、多種多様なコードが網羅されています。
    • 提供元: BigCode (Hugging Face・ServiceNow Research)。Hugging Face上のbigcode/the-stackデータセットとして提供。
    • ライセンス: 含まれる各コードファイルは元のオープンソースライセンス(MIT, Apache 2.0, BSD, etc.)に従います。データセット全体としてはオープンデータですが、再配布時には元ライセンスの条件を保持する必要があります。The Stack自体のメタデータやスクリプトはApache 2.0。
    • ファイル形式: 各プログラミング言語ごとにディレクトリが分かれ、コードファイルが生のテキストで格納されています。重複除去版やメタデータ(リポジトリURL、ライセンス情報)も別途提供。
    • LLM用途適合性: テキスト生成モデルをコード生成モデルとして訓練する際の主要コーパスです。実際にThe Stackを用いてLarge Language Modelを訓練した例として、Hugging FaceのStarCoderがあります。パーミシブライセンスのみ含むため、商用展開の際もライセンスクリアなコードをモデルが学習できる点がメリットです。モデルはこの巨大なコードコーパスからプログラミング言語の構文やライブラリの使い方、スタイルを幅広く学習できます。ただしコード断片のコピー問題に対処するため、データからの重度な重複は除去する(The Stack Dedup版など)ことが推奨されています。
  • CodeSearchNet(コード検索データ):

    • 内容: GitHub上の関数・メソッドに対するドキュメンテーションとコードのペア約30万件からなるデータセット。Python、Java、JavaScriptなど6言語分を収録し、自然言語の関数説明⇔コードの双方向検索タスクに使われる。例えば「二分探索を実装する関数」という記述に対し、該当するコードを検索する、といった用途。
    • 提供元: GitHub + Microsoft (2019)。
    • ライセンス: MITライセンスで提供。ソースコード自体はオープンソース由来。
    • ファイル形式: JSON Linesで各関数のdocstringcodeを格納。Hugging Faceで入手可。
    • LLM用途適合性: コードと自然言語記述の対応付け学習に適しています。コード検索モデル説明生成モデルの訓練に用いられ、モデルがコードの目的を理解し記述する能力を習得できます。大規模言語モデルに直接組み込むケースは少ないですが、他のコードデータと組み合わせ補助的に利用することもあります。

以上、各分野の代表的な公開データセットを紹介しました。それぞれライセンスの条件データ形式が異なるため、利用目的に応じた注意が必要です。例えば、Stack Exchange系やAPPSのようにCC BY-SAライセンスのデータは、商用モデルに組み込む際の取り扱いが議論されています。一方、PubMed Central Open AccessやCodeContests、The Stackのように商用利用に寛容なデータも多く存在します。目的(事前学習用コーパス、微調整用指示データ、評価ベンチマークなど)に合わせて、上記データセットを組み合わせることで、数学・科学技術分野に強いLLMを構築できるでしょう。