🐵大規模言語モデルの性能の自動評価に関する問題点のメモ書き:Tanuki-8x8Bの事例からKan Hatakeyamain東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]5ヶ月前 3
📚国会図書館データをGoogle Colab で取得し、Hugging Face へアップロードする方法Yasutaka Nishiiin東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]5ヶ月前 18
🍣Tanukiモデルが全角数字・記号を認識出来ない問題とその解決(LLM学習コーパスの正規化の落とし穴)Aratakoin東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]5ヶ月前 15
🦊ChatbotArena的なシステムでTanuki-8x8Bを始めとする大規模言語モデルの日本語性能を評価する(2024年8月)Kan Hatakeyamain東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]6ヶ月前 11
🤖大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてーKan Hatakeyamain東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]6ヶ月前 75
🦝Tanuki-8B,8x8Bの開発完了までに考えていたことと、「科学の基盤モデル」の構築に向けた考えKan Hatakeyamain東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]6ヶ月前 9
🦝フルスクラッチで開発した大規模言語モデルTanuki-8B, 8x8Bの性能についての技術的な詳細Kan Hatakeyamain東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]6ヶ月前 8
📑【Team JINIAC】官公庁データセットの収集(Webスクレイピングによる事後学習用データセット作成)daichi_tin東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]6ヶ月前 6
😺【Team JINIAC】 個人情報(名前、電話番号、メールアドレス)のマスキング(Hojicharを活用したデータセットの前処理)daichi_tin東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]6ヶ月前 4
😀ある日突然,LLM開発チームのリーダーになったときに読む記事 | Team 天元突破Taisei Ozakiin東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]2024/08/02 5
📘【特別企画】松尾研GENIACプロジェクト「チームビジネス」メンバーにインタビュー!その熱意と挑戦の裏側に迫る(その2)福田 渉in東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]2024/07/24