AI for Science の歩き方 #13 ― まとめとアクションプラン
この記事のゴール: 再現性の確保方法を理解し、今日から始めるアクションプランが明確になる。
この記事では、再現性を確保する方法、今後のトレンド、よくある質問、そして今日から何をすべきかをまとめます。
ここまで読んだあなたは、AI を研究に活用するための基本的な考え方が身についています。あとは実際に手を動かすだけです。この章では、研究で AI を使い続けるための実践的なヒントをまとめます。末尾の付録に AWS サービス一覧(付録 A)と用語集(付録 B)を掲載していますので、用語や AWS サービスの役割がわからないときに参照してください。
再現性を確保するためのチェックリスト
なぜ生成 AI で再現性が難しいのか:
従来のソフトウェアと異なり、生成 AI には再現性を阻む固有の課題があります。Zheng et al.(2025)でも AI のブラックボックス性が科学的検証を困難にする主要な課題として挙げられており、Spirling(2023)も Nature の World View で商用モデルの不透明性が再現性を損なうと警告しています。
- 出力の非決定性: 同じプロンプトでも、temperature などのパラメータ設定によって異なる出力が返ります。temperature を 0 に設定しても完全な決定性は保証されません(Anthropic の用語集に明記されています)。これは GPU での並列計算における浮動小数点演算の順序の違いなど、モデル内部の処理に起因します。
- モデルの更新: 商用モデルは予告なく更新されることがあり、同じモデル名でも時期によって異なる挙動を示す可能性があります。前述の Spirling(2023)はこの点を「ブラックボックスの中身が知らぬ間に入れ替わる」問題として指摘しています。
- プロンプトの暗黙知: 研究者が無意識に行っている質問の工夫(語順、文脈の与え方、前後の会話の流れ)が結果を大きく左右するため、プロンプト全文の記録が不可欠です。
主要な AI 学会(NeurIPS、AAAI)では、論文の投稿時に再現性チェックリストの提出を求めています。しかし現状では、パラメータの記録は十分に行われていません。Suh et al.(2026)は放射線医学の LLM 研究 246 件を分析し、temperature を報告していた研究はわずか 16.7%、モデルバージョンの明記も 27.6% にとどまると報告しています。以下の記録項目は、これらの学会のチェックリストおよび前述の Spirling(2023)の指摘を参考に、生成 AI を使った研究に必要な項目として著者が整理したものです。このチェックリストをプロジェクトの README やラボノートにコピーして、実験のたびに記録する運用をおすすめします。 最低限、以下の 3 つは必ず記録してください: (1) モデル名とバージョン、(2) temperature 等の推論パラメータ、(3) プロンプト全文。残りの項目は、論文投稿や研究費申請など公開段階で追加記録すると効率的です。
| 記録項目 | なぜ必要か | 例 |
|---|---|---|
| モデル名とバージョン | 商用モデルは予告なく更新される |
anthropic.claude-sonnet-4-6(モデルによっては日付入り ID anthropic.claude-sonnet-4-5-20250929-v1:0 等もあり。クロスリージョン推論の場合は us.anthropic. プレフィックス付き) |
| 推論パラメータ | パラメータの組み合わせ(temperature, top_p 等)で出力が変わる |
temperature=0.3, top_p=0.9, maxTokens=1024(※ Claude Opus 4.7 では temperature 等のサンプリングパラメータが設定不可のため、「パラメータ設定不可のモデルを使用」と記録) |
| プロンプト全文 | 再現性を左右する最も重要な要素 | Git やスプレッドシートで管理 |
| 実行日時 | API の挙動が日時で変わりうる | 2026-03-28T09:15:00Z |
| 実行環境(ソフトウェア) | ライブラリ差異で結果が変わる | Python 3.12, boto3 1.35.x |
| 実行環境(ハードウェア) | GPU の種類やメモリ量で推論結果が異なる場合がある |
NVIDIA A100 80GB / API 利用の場合は「クラウド API」と記載 |
| 入力データのバージョン | データ変更の検知 | SHA-256 ハッシュ値(ファイルの内容から算出される固有の識別子。改ざん検知に使われる) |
AWS での再現性向上に役立つ機能:
生成 AI の出力の完全な再現性は保証できませんが、Amazon Bedrock では再現性をできるだけ高めるための以下の機能が提供されています(Amazon Bedrock ドキュメント)。
-
モデル ID の記録: 利用したモデル ID(例:
anthropic.claude-sonnet-4-6)を記録してください。モデルによっては日付入り ID(例:anthropic.claude-sonnet-4-5-20250929-v1:0)で特定バージョンを固定できるものもあります。ID の形式はモデルごとに異なるため、Amazon Bedrock のモデル一覧で確認してください。同一モデル ID でも出力の完全な一致は保証されません。 - Model Invocation Logging: API リクエスト・レスポンスの全文とメタデータを Amazon S3 や Amazon CloudWatch Logs に自動記録できます(Model Invocation Logging ドキュメント)。研究の監査証跡として活用できます。
- 推論パラメータの固定: Converse API で temperature, topP, maxTokens を明示的に指定できます。ただし、一部のモデル(Claude Opus 4.7 等)ではこれらのパラメータを指定できない場合があります。また、無料のチャット UI やコーディングエージェント(第 6 回参照)等の AI ツール経由で利用する場合は、ツール側でパラメータが固定されており研究者が制御できないことがあります。利用するモデルとツールの対応状況を確認してください。
- Guardrails による出力品質の一貫性確保: Amazon Bedrock Guardrails で出力のフィルタリング条件を固定することで、一貫した品質管理が可能です。
プログラミングで独自にログを構築する場合も、上記の記録項目(モデル ID、パラメータ、プロンプト、タイムスタンプ等)をカバーするようにしてください。
これからのトレンド
生成 AI の世界は変化が非常に速いので、以下も今後大きく変わる可能性があります。Zheng et al.(2025)と "From AI for Science to Agentic Science"(arXiv, 2025) で整理されている将来の方向性を中心に、これから AI を使い始める研究者の視点で紹介します。
1. AI が「道具」から「研究パートナー」になる
- 現状の課題: 今の AI は「1 回質問 → 1 回回答」が基本で、研究者が逐一指示を出す必要があります。複数のステップにまたがる研究作業は、人間が手動でつなぎ合わせなければなりません。
- 今後の変化: AI が自分で「次に何をすべきか」を判断し、文献調査 → データ収集 → 分析 → レポート作成のような一連の作業を自律的に進められるようになります(「エージェンティック・サイエンス」と呼ばれています)。MCP や A2A といった標準プロトコル(第 4 回参照)の普及で、AI 同士が連携して複雑な研究タスクをこなす仕組みも整いつつあります。
- あなたにとっての意味: 研究の定型的な部分を AI に任せ、創造的な思考に集中できる時間が増えます。
2. AI が実験室でも動くようになる
- 現状の課題: AI はデータ分析や文章生成など「デジタル」な作業には強いですが、試薬を混ぜたり装置を操作したりする「物理的」な実験はできません。
- 今後の変化: AI とロボットの統合が進み、AI が実験条件を提案し、ロボットが実際に実験を実行するシステムが増えています。第 4 回・第 7 回で紹介した Coscientist はその先駆例です。
- あなたにとっての意味: 実験系の研究者にとって、AI 活用の幅が「データ分析」から「実験そのもの」に広がる可能性があります。
3. AI の判断が「見える化」される
- 現状の課題: AI がなぜその回答を出したのかがわからない(ブラックボックス問題)。科学研究では「なぜ」が説明できないと、結果の妥当性を検証できません。
- 今後の変化: AI の推論過程を人間が検証できる「説明可能な AI(Explainable AI)」の研究が進んでいます。Chain-of-Thought(第 3 回参照)のような技法は、その一歩です。
- あなたにとっての意味: AI の出力をより信頼して研究に使えるようになります。
4. ルールが整備される
- 現状の課題: AI 利用のルールは出版社・機関・国ごとにバラバラで、何が OK で何がダメなのかわかりにくい状況です。
- 今後の変化: NIH の方針、EU AI Act、日本の AI 法 など、規制の枠組みが整理されつつあります。
- あなたにとっての意味: ルールが明確になることで、「使ってもいいのか」という不安なく AI を活用できるようになります。第 12 回の情報を定期的にアップデートしてください。
5. コストが下がり、誰でも使えるようになる
- 現状の課題: 高性能なモデルの API 利用にはコストがかかり、ファインチューニングには計算資源(GPU 等)が必要になることが多いです。ただし、クラウドサービスのマネージド機能を活用すれば、GPU を自前で用意せずにファインチューニングできる選択肢もあります(第 5 回参照)。
- 今後の変化: GPU の値下げ、ノーコードツールの普及、モデルの効率化により、AI 導入のハードルは下がり続けています。かつては大規模な計算資源を持つ機関だけのものだった技術が、個人の研究者にも手の届くものになりつつあります。
- あなたにとっての意味: 研究費が限られていても、AI を活用した研究が十分に可能になります。
6. 日本の研究者にとっての意義
- 現状の課題: 文部科学省の AI for Science の推進に向けた基本的な戦略方針(2026 年 3 月)では、分野を問わず AI 活用への理解や経験に大きな差があること、研究データの活用基盤が未整備であること、計算資源の戦略的整備が急務であることが指摘されています。Stanford HAI の AI Index 2025 Report によると、AI 関連の民間投資は米国($109.1B)が突出しており、中国($9.3B)や英国($4.5B)が続いています(日本は同レポートの投資比較には含まれていませんが、上位国との差は大きいと考えられます)。
- 今後の変化: 同戦略方針は 2035 年度までに Top10% 論文のうち AI 関連論文数を世界 3 位にする目標を掲げています。SPReAD のような分野横断的な研究費制度も整備が進んでいます(SPReAD の詳細は 第 1 回の対応表を参照)。
- あなたにとっての意味: AI 活用は研究競争力の重要な要素になりつつあります。早期に AI を研究に取り入れることが、この変化の中で力を発揮するための第一歩です。
よくある質問
Q: 無料版で十分ですか?
A: はい、十分に始められます。1 日 30 分程度なら無料版でかなりのことができます。
ただし、無料版を使う際は以下の点に注意してください。
- 利用規約を確認する: 多くの無料版では、入力データがモデルの学習に使われる可能性があります(前述の Spirling(2023)もこの点を指摘しています)
- オプトアウトの可否を確認する: 研究データを入力する場合は、学習への利用をオプトアウト(=自分のデータをモデルの学習に使わないよう拒否すること)できるか確認してください
- 有料版でもポリシーは確認が必要: 有料版や API 経由の利用ではデータが学習に使われないことが多いですが、サービスやプランによって異なるため、最新の利用規約を必ず確認してください
使い込んでいくと「もっと使いたい」と思うようになるので、そのときに有料版や Amazon Bedrock API への移行を考えれば OK です。
Q: プログラミングができなくても大丈夫?
A: まったく問題ありません。「聞き方の工夫」にプログラミングは一切不要です。データ分析が必要なときも、AI コード生成(Vibe Coding、第 6 回参照)で日本語の指示からコードを生成できます。ただし、AI が生成したコードや分析結果は必ず検証してください(第 9 回参照)。プログラミングに不慣れでも、小さなデータで結果を電卓と照合するところから始められます。AI にコードの説明もしてもらえるので、プログラミングの勉強にもなります。
Q: 機密データを AI に入れていいの?
A: 第 9 回のチェックリストで簡単に判断できます。まず、利用するサービスのデータ取り扱いポリシーを確認してください。データが学習に使われるか、オプトアウトできるか、データの保存期間はどうかなどを確認しましょう。Amazon Bedrock API ではアクセス制御やログ管理など機関レベルのガバナンスを設定でき、入力データはモデルの学習に使用されません(Amazon Bedrock FAQ)。コーディングエージェント利用時のデータ送信・学習利用に関するチェックリストは第 6 回も参照してください。さらに安全性が必要なら、オープンウェイトモデルの自己ホスティングという選択肢もあります。
Q: 指導教員が AI に否定的なのですが…
A: 指導教員との対話を通じて、双方が納得できる範囲から始めるのがおすすめです。まず、第 12 回の各学会・出版社ポリシーを共有してみてください。ICMJE や COPE など権威ある機関が AI 利用のガイドラインを整備しており、適切な開示のもとでの利用は認められています。具体的なアプローチとしては、(1) 指導教員に相談した上で、文献レビューの効率化など広く許容されている用途を小さく試してみて、(2) AI なしの場合と比較した具体的な効率化の数字(「文献レビューが 6 時間から 1 時間になった」など)を示し、(3) AI 利用の開示方法と品質管理の方法もセットで説明する、というステップが効果的です。サウサンプトン大学の研究のような学術的な裏付けを引用すると説得力が増します。
Q: AWS アカウントがないのですが…
A: 今日すぐ Claude の無料版で始められます。AWS アカウントは Amazon Bedrock を使いたくなったときに AWS 無料利用枠のページから作成できます。学術向けクレジットプログラムもあるので、研究費の心配も軽減できます(AWS Cloud Credit for Research。条件や金額は変更される可能性があるため、最新情報は公式ページで確認してください)。また、所属機関が Claude for Education を導入している場合は、大学メールアドレスで無料の拡張機能が利用可能です。
Q: AI が生成したコードが動かないのですが…
A: よくあることです。まず「このエラーメッセージを説明して修正して」と AI に貼り付けてみてください。AI はエラーの修正も得意です。それでも解決しない場合は、プロンプトに使用言語(Python 等)のバージョンやライブラリのバージョンを明記すると改善することがあります。
Q: 研究費で AI の API 利用料を計上できますか?
A: はい、多くの場合計上できます。経費区分や計上方法の詳細は第 10 回で解説しています。科研費での取り扱いについては、所属機関の事務担当に事前に確認することをおすすめします。
Q: SPReAD に応募したいのですが、何から準備すればよいですか?
A: まず 文科省 SPReAD 公募HP で最新の公募要領と様式を入手してください。研究計画調書の記載事項は本シリーズの各回と対応しています(第 1 回の対応表を参照)。応募には AI インタビュー(オンライン音声、10~20 分)の実施が必須です。e-Rad への研究者情報の登録と、研究インテグリティの確保に係る誓約状況の登録も事前に必要ですので、早めに所属機関の事務担当に確認してください。なお、PoC・試作・予備的検証も成果として認められており、初めて AI を研究に取り入れる方にも応募しやすい設計です(2026 年 4 月公開の公募要領に基づく)。
Q: 研究倫理委員会(IRB)に AI 利用を申告する必要はありますか?
A: 研究データを AI サービスに送信する場合は、IRB への申告が必要になるケースがあります。特に個人情報を含むデータの場合は、事前に機関の倫理審査担当に相談してください(第 9 回のデータチェックリスト参照)。
今日から始めるアクションプラン
本シリーズの内容を踏まえ、段階的に AI 活用を広げていくためのアクションプランです。具体的な技術の進め方は第 2 回のロードマップを参照してください。
ステップ 1: まず触ってみる(所要時間: 30 分)
- Claude の無料版で研究に関する質問を 3 つ投げてみる(第 1 回)
- AI が返した回答の文献情報が正しいか、CiNii や PubMed 等の学術データベースで 1 件だけ確認してみる
- 達成チェック: AI の回答に「なるほど」と思えるものが1つでもあればOK
ステップ 2: ルールを確認する(所要時間: 1〜2 時間)
- 所属機関の AI 利用ポリシーを確認する(第 12 回)
- 投稿予定のジャーナルの AI 利用ガイドラインを確認する
- 第 2 回で自分の研究タイプ(A〜E)を特定する
- 達成チェック: 「自分の機関ではAIをこう使える」と説明できればOK
ステップ 3: 聞き方の工夫を身につける(所要時間: 1〜2 週間)
- プロンプトエンジニアリングの基本(Zero-shot / Few-shot / Chain-of-Thought)を身につける(第 3 回)
- AI の「でたらめ回答」(ハルシネーション)を見抜く経験を積む
- AI を使って文献レビューの下書きを 1 本作ってみる
- 達成チェック: AI が挙げた文献のうち、存在しないもの(ハルシネーション)を1つ以上見抜けたらOK
ステップ 4: 自分のデータで試す(所要時間: 1〜2 週間)
- 自分の論文 PDF を RAG に登録して Q&A を試す(第 4 回)
- AI コード生成でデータ分析のコードを書かせてみる(第 6 回)
- AI の出力を検証する習慣を確立する(第 9 回)
- 達成チェック: AI が書いたコードを小さなデータで検算し、結果が手計算と一致することを確認できたらOK
ステップ 5: チームと研究計画に組み込む
- コストの見える化と最適化を行う(第 10 回)
- 研究室やチームでの AI 活用ルールを策定する(第 12 回)
- 研究費申請に AI 活用の技術計画を盛り込む(第 1 回の対応表を参照)。SPReAD の応募を検討している場合は、公募要領の記載事項(I~V、VII)に沿って技術計画・コスト見積もり・ノウハウ共有計画を本シリーズの対応回を参考に準備する。第 1 回公募の締切は 2026 年 5 月 18 日正午、第 2 回は 6 月上旬予定
- 達成チェック: AI を使った研究プロセスを、再現性ログ付きで第三者に説明できたらOK
付録 A: 本シリーズに登場した AWS サービスの一覧
本シリーズで紹介した AWS サービスを「ひとこと説明」でまとめました。サービスの機能は頻繁に更新されるため、最新情報は各サービスの公式ドキュメントを参照してください。
- Amazon Bedrock: いろいろな AI モデルを 1 つの窓口から使えるサービス。
- Amazon Bedrock Knowledge Bases: 自分の資料を AI に参照させる RAG をかんたんに構築できる。GraphRAG にも対応。
- Amazon Bedrock Guardrails: AI への入力と出力の両方に安全装置を設ける。
- Amazon Bedrock AgentCore: AI エージェントの実行基盤。MCP をサポート。
- Amazon Bedrock Model Distillation: 大きな AI(教師モデル)の性能を小さな AI(生徒モデル)に自動で転写する蒸留サービス。ユーザーはタスクデータを用意するだけで、蒸留プロセスは Amazon Bedrock が自動実行する。
- Amazon SageMaker AI: AI モデルの学習・調整・公開を行う。
- Amazon SageMaker HyperPod: 大規模な AI 学習のための環境。
- Amazon EC2: GPU 搭載の仮想サーバー。オープンウェイトモデルの自己ホスティングに。
- Amazon EC2 Spot Instances: 大幅な割引で GPU を利用可能(割引率は変動、中断リスクあり)。
- Amazon S3: データや論文 PDF の保存場所。
- Amazon Transcribe: 音声をテキストに変換。日本語対応。インタビューの文字起こしに。
- Amazon Nova: AWS 独自の AI モデル群。音声処理(Nova Sonic)等に対応。
- Stability AI: Amazon Bedrock 経由で利用できる画像生成モデル。研究発表用の概念図作成等に。
- Kiro: Amazon が開発した仕様駆動の AI 開発環境(IDE)。要件定義からコード実装までを支援。
- Strands Agents: AI エージェントを作るための開発キット。
- AWS Trainium: AI モデルの学習と推論に対応した AWS 独自のチップ。
- Amazon Bedrock Model Evaluation: 複数のモデルをカスタムデータセットで自動評価。
- Amazon OpenSearch Serverless: Amazon Bedrock Knowledge Bases のベクトルデータベースとして利用。RAG の検索基盤。
- Amazon Neptune: グラフデータベース。Knowledge Bases の GraphRAG で利用。
付録 B: 用語集
本文中でも初出時に説明していますが、ここにまとめて掲載します。
- API(Application Programming Interface): プログラムから AI サービスを呼び出すための「窓口」。たとえば、自分のプログラムから Claude に質問を送り、回答を受け取る仕組みです。
- GPU(Graphics Processing Unit): AI の計算を高速に処理するための専用チップ。ファインチューニングなど大規模な計算に必要ですが、API 経由で AI を使うだけなら不要です。
- VRAM(Video RAM): GPU に搭載されたメモリ。AI モデルのサイズが大きいほど多くの VRAM が必要になります。
- トークン: AI がテキストを処理する際の最小単位。英語の 1 単語 ≈ 1〜1.5 トークン、日本語の 1 文字 ≈ 1.5〜3 トークンです。API の利用料金はこのトークン数で計算されます。
- プロンプト: AI に対する指示文のこと。質問や依頼の内容をテキストで入力します。
- プロンプトエンジニアリング: AI への指示(プロンプト)の書き方を工夫して、より良い回答を引き出す技術。プログラミングは不要です(第 3 回で詳説)。
- ハルシネーション: AI が事実でない情報をもっともらしく生成してしまう現象。「でたらめ回答」とも呼ばれます。文献情報では特に注意が必要です。
- 埋め込みモデル(Embedding Model): テキストの「意味」を数値の列(ベクトル)に変換するモデル。RAG で「質問と似た意味の文書」を検索する際に使われます。
- RAG(Retrieval-Augmented Generation): 自分の資料を AI に「参考書」として渡す仕組み。AI が回答する前に関連資料を検索し、それを参考にして回答を生成します(第 4 回で詳説)。
- エージェント: AI が自分で「次に何をすべきか」を判断し、ツールを使って複数のステップを自律的に実行するシステム(第 4 回で詳説。コーディングエージェントの選択肢と研究活用は第 6 回)。
- オープンウェイトモデル: モデルの中身(パラメータ)が公開されている AI モデル(Llama、Mistral 等)。自分のサーバーで動かしたり、カスタマイズしたりできます。API 経由でも利用可能です。
- ファインチューニング: 既存の AI モデルに、自分の研究分野のデータで追加学習させてカスタマイズすること(第 5 回で詳説)。
- 量子化(Quantization): AI モデルの数値精度を下げて、ファイルサイズを小さく・処理を速くする技術。性能は多少落ちますが、限られた計算資源でも大きなモデルを動かせるようになります。
- 知識蒸留(Knowledge Distillation): 高性能な大きいモデル(教師)の回答を使って、小さいモデル(生徒)を学習させる技術。高品質を保ちつつ運用コストを下げられます。
- MCP(Model Context Protocol): AI エージェントと外部ツール(データベース、Web API 等)の接続を標準化するオープンな規格。「AI 用の USB-C」のようなものです(公式サイト)。
- A2A(Agent-to-Agent): 異なる AI エージェント同士が互いに連携するためのプロトコル。「文献調査エージェント」と「データ分析エージェント」が協調して作業する、といった使い方が想定されています(A2A Protocol Guide)。
- temperature: AI の回答のランダム性を制御するパラメータ。0 に近いほど毎回同じような回答になり、高いほど多様な回答が得られます。研究の再現性を重視する場合は低く設定します。
- VPC(Virtual Private Cloud): クラウド上に構築する、外部から隔離されたプライベートなネットワーク環境。機密データを外部に出さずに AI を利用する際に使います。
- LLM-as-a-Judge: 高性能な LLM を自動評価者として使い、AI の出力品質をスコアリングする手法(第 9 回で解説)。
- クロスリージョン推論: 推論リクエストを複数のリージョン間で分散処理する機能。日本国内クロスリージョン推論では、推論リクエストが日本国内のリージョンで処理されます(第 11 回で解説。詳細は Amazon Bedrock のドキュメントを確認してください)。
- トークナイザー: 文章を単語や文字の単位(トークン)に分割する仕組み。モデルごとに異なるトークナイザーを使用しており、同じ文章でもトークン数が異なります。
参考文献
A. 学術論文(査読付きジャーナル・学会)
- OpenScholar: Synthesizing Scientific Literature with Retrieval-Augmented LMs [Asai et al., Nature, 2026]
- Autonomous chemical research with large language models [Boiko, D.A. et al., Nature, 2023]
- ChemCrow: Augmenting large-language models with chemistry tools [Bran, A.M. et al., Nature Machine Intelligence, 2024]
- CellVoyager [Nature Methods, 2026]
- A RAG-based framework for systematic literature reviews [Han et al., Applied Sciences, 2024]
- Ten simple rules for optimal and careful use of generative AI in science [Helmy, M. et al., PLOS Computational Biology, 2025]
- Hybrid Prompting for Statistical Reasoning [PMC, 2025]
- RAG-enhanced LLMs in medical question answering: a meta-analysis [Liu et al., JAMIA, 2025]
- RAG + quantized LLM for hydrogen storage alloy data extraction [Maharana et al., JPhys Materials, 2025]
- MatterGen [Nature, 2025]
- Scientific discovery in the age of artificial intelligence [Wang, H., Zitnik, M. et al., Nature, 2023]
- KG-RAG: Bridging the Gap Between Knowledge and Creativity [Soman et al., Bioinformatics, 2024]
- Suh et al., LLM 研究における再現性パラメータ報告 [European Radiology, 2026]
- UniProt [Nucleic Acids Research]
- ICU-GPT: Natural language querying of intensive care databases [Yang et al., JMIR, 2025]
- Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [Zheng et al., NeurIPS 2023]
B. プレプリント(arXiv 等)
- Agrawal et al. (2026). AI frameworks for autonomous biological research
- Akiba et al. (2024). Evolutionary Model Merge(EvoVLM-JP)
- Anderson, B.R. et al. (2024). Homogenization Effects of LLMs on Human Creative Ideation
- Ansari et al. (2026). LLM による要約の正確性
- Asai et al. (2023). Self-RAG
- Balaguer, A. et al. (2024). RAG vs Fine-tuning: Pipelines, Tradeoffs
- Balluff et al. (2024). Cover Song Detection with GitHub Copilot
- Berman et al. (2024). 再現性
- Bhardwaj et al. (2023). RoentGen 医用画像生成のバイアス評価
- Bogin et al. (2024). SUPER: Research Repository Setup & Execution
- CausalChat (2024)
- Chan et al. (2024). MLE-Bench
- Chen et al. (2024). ScienceAgentBench
- Chubb et al. (2025). AI チューターの効果を RCT で検証
- Continued Pre-training (2024)
- Deng et al. (2023). K2 / GeoGalactica
- Dhuliawala et al. (2023). Chain-of-Verification
- From AI for Science to Agentic Science (2025)
- Ganguly and Gupta (2026). Claude Code での物理化学計算
- Gao and Xiao (2026). 150 Claude Code エージェントによる nonstandard errors 定量化
- Gao et al. (2024). RAG サーベイ
- GenCast (2023)
- Godoy et al. (2023). HPC カーネルの Copilot コード生成評価
- Gridach et al. (2025). AI エージェントの研究活用サーベイ
- Guo et al. (2024). LLM マルチエージェントサーベイ
- Guo et al. (2024). RedCode: AI 生成コードの安全性評価
- Han et al. (2025). 文献スクリーニング CoT-Few-Shot
- Huang et al. (2023). MLAgentBench
- Ilin (2026). Vlasov-Maxwell-Landau の Lean 4 形式化(Claude Code)
- Jhaveri, A.R. et al. (2026). Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models
- Jing et al. (2024). DSBench
- Kapoor et al. (2024). AI Agents That Matter
- Kim et al. (2025). ClimateAgent
- Kim et al. (2025). 汎用マルチモーダル LLM による歴史的手書き OCR
- Kirk, R. et al. (2023). Understanding the Effects of RLHF on LLM Generalisation and Diversity
- Kong et al. (2024). Role-playing Prompting
- Labrak, Y. et al. (2024). BioMistral
- Lála et al. (2023). PaperQA
- Lean Copilot (Caltech, 2024)
- Legrand et al. (2026). Mimosa ベンチマーク
- Lewis et al. (2020). RAG 原論文
- Li et al. (2023). MolReGPT(分子-言語マルチモーダル)
- Li et al. (2024). 目標指向分解
- Li et al. (2025). データ前処理プロンプト
- Liang, T. et al. (2023). Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate
- Liu et al. (2022). Generated Knowledge Prompting
- LLM Citation Hallucination(引用捏造率)(2026)
- Lu et al. (2024). The AI Scientist
- Luo, Z. et al. (2025). LLM4SR: A Survey on LLMs for Scientific Research
- MACE-MP-0 (Cambridge, 2024)
- Madaan et al. (2023). Self-Refine
- Magesh et al. (2024). ハルシネーション実証
- Meng et al. (2024). ChartAssistant
- Miao et al. (2025). Paper2Agent(Claude Code + MCP)
- Min et al. (2023). FActScore
- Moreno et al. (2026). Claude Code による高エネルギー物理測定
- Newman et al. (2024). ArxivDIGESTables
- Peng et al. (2023). GitHub Copilot RCT
- Piccolo et al. (2025). Ten Simple Rules for Using AI-Assisted Coding in Scientific Research
- Qin and Xu (2026). StatsClaw(Claude Code マルチエージェント統計パッケージ)
- Sahoo et al. (2024). プロンプトエンジニアリングサーベイ
- Shakur et al. (2024). OSCE 動画の Whisper + GPT-4 自動採点
- Shumailov, I. et al. (2023). Model collapse
- Si, C. et al. (2024). Can LLMs Generate Novel Research Ideas?
- Starace et al. (2025). PaperBench
- Stoltz, D.S. et al. (2026). Selecting Language Models for Social Science
- Su et al. (2025). VirSci: マルチエージェントによるアイデア生成
- Suzgun & Kalai (2024). Meta-Prompting
- Tie et al. (2025). AI エージェントの研究活用 6 段階フレームワーク
- Tu et al. (2023). Med-PaLM M
- Urban (2026). Munkres 形式化(Claude Code)
- Wadhawan et al. (2024). ConTextual ベンチマーク
- Wang et al. (2023). Self-Consistency
- Wang et al. (2025). arXiv2Table
- Wu et al. (2023). GPT-4V 医用画像評価(17 臓器系)
- Xie et al. (2023). PIXIU / FinMA
- Xie et al. (2024). Knowledge Conflicts in RAG
- Xu et al. (2023). PointLLM(3D 点群理解)
- Xu et al. (2024). Knowledge Conflicts in RAG
- Xu et al. (2026). シングル vs マルチエージェント比較
- Yan et al. (2023). GPT-4V 医用画像 11 モダリティ評価
- Yang et al. (2025). R&D-Agent(MLE-Bench 35.1%)
- Yang et al. (2025). 論文執筆支援 3-shot
- Yue et al. (2023). MMMU ベンチマーク
- Yue et al. (2025). Foam-Agent 2.0(OpenFOAM + Claude Code + MCP)
- Zambrano Chaves et al. (2024). LlaVA-Rad
- Zhang et al. (2024). EarthGPT(衛星・リモートセンシング画像)
- Zheng, T. et al. (2025). From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery
- Zhong et al. (2025). 化学タスクにおける RAG の性能向上
- Zhou et al. (2024). RAG Trustworthiness
- Zimmerman (2025). AI 駆動出版パイプライン(Kiro 使用)
C. サーベイ・レポート(学術系)
- AI Index 2025 Report [Stanford HAI, 2025]
- Bommasani, R. et al. (2022). On the Opportunities and Risks of Foundation Models
D. AWS 公式ドキュメント
- Amazon Bedrock Guardrails
- Amazon Bedrock Guardrails Components
- Amazon Bedrock Guardrails Sensitive Filters
- Amazon Bedrock Knowledge Bases ドキュメント
- Amazon Bedrock Knowledge Bases Evaluation
- Amazon Bedrock Knowledge Bases 高度パーサー
- Amazon Bedrock Model Evaluation
- Amazon Bedrock カスタムモデル
- Amazon Bedrock クロスリージョン推論ドキュメント
- Amazon Bedrock のモデル一覧
- Amazon Bedrock プレイグラウンド
- Amazon Bedrock 推論 Reasoning
- Anthropic Models
- Anthropic Claude プロンプトエンジニアリングガイド
- Anthropic 構造化出力ガイド
- Model Invocation Logging
- Prompt Caching
- モデルアクセスのドキュメント
E. AWS 公式ブログ・事例
- A generative AI prototype with Amazon Bedrock transforms life sciences and the genome analysis process
- Amazon Bedrock Knowledge Bases の紹介(日本語)
- Amazon Bedrock でのプロンプトキャッシングの活用(日本語)
- Amazon EC2 P6 B200 Instances
- Amazon EC2 P6-B300 Instances
- Automated Reasoning Checks for Amazon Bedrock
- Biomni(Amazon Bedrock AgentCore Gateway)
- Claude for Education
- Democratizing climate data science: How Columbia University's LEAP center built AutoClimDS on AWS
- Federated Learning for Biobank Data at the CMU-NVIDIA Hackathon
- Guided multi-objective generative AI for drug design
- How Northwestern University built a multilingual generative AI search tool with AWS
- Weill Cornell Medicine digitizes historical medical archives with generative AI on AWS
- Introducing Riskthinking.AI Climate Earth Digital Twin on AWS
- Strands Agents SDK
- 日本国内クロスリージョン推論
F. AWS サービスページ・料金
- Amazon Bedrock
- Amazon Bedrock AgentCore
- Amazon Bedrock Data Privacy (FAQ)
- Amazon Bedrock Knowledge Bases
- Amazon Bedrock Model Distillation
- Amazon Bedrock Pricing
- Amazon Bedrock セキュリティ
- Amazon EC2 NVIDIA GPU pricing update
- Amazon EC2 Spot Instances
- Amazon EC2 インスタンスタイプ
- Amazon Neptune
- Amazon SageMaker AI
- Amazon SageMaker HyperPod
- Amazon Transcribe
- AWS CDP 生成 AI チャットアプリ(RAG コスト参考)
- AWS HealthOmics
- AWS Trainium
- Cloud Credit for Research
- Open Data on AWS
- Registry of Open Data on AWS
- AWS Open Data Registry(AIWP)
- Stability AI(Amazon Bedrock 経由)
- Sustainability
- Tax Help Japan
- Trainium Research
- 基盤モデルとは - AWS
- プロンプトエンジニアリングとは - AWS
- RAG とは - AWS
G. 企業・団体の技術ブログ・ガイド
- A2A Protocol Guide [Zuplo]
- Agent2Agent (A2A) Protocol [Apono]
- AI solves IMO problems at silver medal level [Google DeepMind]
- AlphaFold 3 [Google DeepMind, 2024]
- Anthropic 81K Interviews [Anthropic]
- Beampath: LLM Research Grant Writing [Beampath, 2024]
- Building effective agents [Anthropic, 2024]
- Claude Code best practices [Anthropic]
- Chain of Thought Prompting [Helicone]
- GNoME [Google DeepMind]
- How leading LLMs compare [RWS]
- LLM as Checklist Assistant(NeurIPS 2024) [Liang et al., CMU, 2025]
- LLM Fine-Tuning Methods [RunLoop]
- LoRA/QLoRA [Hugging Face]
- Prompt Engineering Techniques [Successive Tech]
- RAG Techniques [PuppyGraph]
- RAG vs Prompt Engineering [Meilisearch]
- Reasoning Prompt Engineering [Adaline Labs]
- Retrieval-Augmented Generation [EmergentMind]
- RFdiffusion [UW IPD, 2023]
- Southampton University LLM テキスト分析事例 [University of Southampton, 2025]
- State of OS HF Spring 2026 [Hugging Face, 2026]
- Statistical Modeling, Causal Inference, and Social Science [Andrew Gelman, 2025]
- Synthetic tabular data generation in the medical domain [ScaDS.AI]
- Token counting in Japanese [OpenAI Community]
- TNIK IPF Phase 2a [Insilico Medicine]
- Vibe Coding(Andrej Karpathy) [X, 2025]
H. 出版社・学会のポリシー
- AI Policy [ACS]
- COPE Position Statement on AI [COPE]
- Generative AI policies [Elsevier]
- ICMJE Defining the Role of Authors [ICMJE]
- Nature Image Integrity Policy [Nature]
- Springer Nature AI policy [Springer Nature]
I. 政府・公的機関の政策文書
- AI Act [European Commission, 2024]
- AI for Science の推進に向けた基本的な戦略方針 [文部科学省, 2026]
- AI for Science 萌芽的挑戦研究創出事業(SPReAD) [文部科学省]
- AI 事業者ガイドライン(第 1.2 版) [総務省・経済産業省, 2024/2026]
- Embracing AI with Integrity [UKRIO, 2025]
- NOT-OD-25-132 [NIH, 2025]
- Notice on AI [NSF, 2023]
- 個人情報保護委員会のガイドライン [個人情報保護委員会]
- 科学研究費助成事業 [JSPS]
- 科研費ハンドブック [JSPS]
- 人工知能学会 [JSAI]
- 日本 AI 法(人工知能関連技術の研究開発及び活用の推進に関する法律) [内閣府, 2025]
- 日本学術会議 [日本学術会議]
- 日本学術会議 提言一覧 [日本学術会議]
J. データセット・モデル・OSS リポジトリ
- Amazon Bedrock Samples [AWS Samples]
- AutoTrain [Hugging Face]
- DeepSeek-R1 [Hugging Face]
- DoWhy [PyWhy, OSS]
- EconBERT [Hugging Face]
- EconML [PyWhy, OSS]
- GenU (generative-ai-use-cases-jp) [AWS Samples]
- Hugging Face Datasets [Hugging Face]
- Hugging Face Models [Hugging Face]
- lm-evaluation-harness [EleutherAI]
- LoRA Conceptual Guide [Hugging Face]
- MatterGen(GitHub) [Microsoft, OSS]
- PubMed dataset [Hugging Face]
- RAGAS [OSS]
- SciBERT [Allen AI, OSS]
- Scientific papers [Hugging Face]
- Strands Agents SDK(GitHub) [AWS, OSS]
K. ニュース・メディア記事
- AI chatbots lack skepticism [Medical Economics]
- AI Coding Agents [Product Hunt]
- AI-powered research automation [freeCodeCamp]
- AI usage fees favor English [Tom's Hardware]
- AI won't replace qualitative researchers [Times Higher Education]
- Evo 2 AI genetic code [Phys.org, 2026]
- Gallup-Walton Family Foundation 教員 AI 利用調査 [Gallup, 2025]
- LLM Agent-Based Model [Bank of Japan]
- Measuring AI in Education [Bellwether]
- Model collapse [Nature News, 2024]
- Spirling, A. (2023). Why open-source generative AI models are an ethical imperative for science [Nature World View]
L. ツール・サービス
- AlphaFold Server [Google DeepMind]
- ASReview [Utrecht University]
- BirdNET [TU Chemnitz]
- CiNii [NII]
- Claude Code [Anthropic]
- Cline [OSS]
- Consensus [Consensus]
- Cursor [Anysphere]
- Elicit [Elicit]
- GitHub Copilot [GitHub]
- ICPSR [University of Michigan]
- J-STAGE [JST]
- Kiro [Amazon]
- MCP(Model Context Protocol)公式サイト [Anthropic]
- PaperQA2 (paper-qa) [Future House, OSS]
- NASA Earthdata [NASA]
- SINET クラウド接続サービス [NII]
Discussion