Open11
[メモ] データセット構築関連リンク
データセット構築に関して、いろいろと下調べ。とりあえずざっと拾いまくって、内容はあとで順次見ていく。
余談だが、データセットは「作成」ではなく「構築」するものみたい。「構築」の方が検索にヒットしやすい印象。
”良い”データセット構築を考える
大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み
バクラクのAI-OCR機能の体験を支える良質なデータセット作成の仕組み
RAGの回答精度評価用のQAデータセットを生成AIに作らせた話
Text-to-SQLの評価データセットを作って最新LLMモデルの性能評価をしてみた
ドメイン特化なCLIPモデルとデータセットの紹介
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
Data-centric AI入門
対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン
(なぜか埋め込みが効かない・・・)