💬
[週次報告] 第1回 Team ビジネス
開発テーマ・概要
- ビジネスで利用可能なLLMの開発
-
ハルシネーションの抑制
-
ビジネス向け日本語データセットの選定
etc…
-
チーム全体の開発状況
- ドキュメント構成の熟考(初見でも実施事項が分かりやすいように変更)
- 前処理、データセット、アーキテクチャー、学習・評価方法の調査
サブチームからの情報共有
サブチーム1(ドキュメント)
やったこと:Notionの構成を整理、slackでチームの入り口のページを作成中
計算資源へのログインを試した。
次にやること:slurmの検証アイディア出しと環境構築。
サブチーム2(前処理)
やったこと:Common Crowlのデータをきれいにする手法の検討。公開コードなどを用いて実施中。個別の環境で小規模データで実施中。web crawlのコードのテストを実施予定。トークナイズ化の手法についても検討中。
サブチーム3(データセット)
やったこと:前処理チームとの業務交通整理
独自データセットの各チームメンバーに割り振ってスクレイビング中
サブチーム4(アーキテクチャー)
やったこと
今後やるタスクを 以下の4つに大きく分けた。
1. LLM実装の全体像の理解(環境構築~事前学習~評価)
2. 松尾研標準コードの理解と動作確認
3. OSS, 有識者のブログ記事を参考に独自のモデル組込みの調査(Llama2, MoE)
4. 松尾研コードの改修
主担当をとりあえずでも決めた方が、各人が作業し易いと考え、20:40~21:15の時間に参加されていたメンバーで、それぞれの主担当を以下のように割り振った。勿論、ヘルプが必要になった場合は、その他のメンバーでフォローする方針で考えている。
1. 前河、李
2. 松永
3. 熊田
4. -
miro link: https://miro.com/app/board/uXjVNgYWJn8=/
LLM実装の全体像のまとめ(環境構築~事前学習~評価)について、まとめて頂くスライドの雛形を作成
Google slide link: https://docs.google.com/presentation/d/1yMjt5zqGDWCQlr-_jpHDN1eTFzSntIVVokBZMpbnJaA/edit#slide=id.p
松尾研で用意下さったGPUサーバーで、環境構築を試み中。
畠山さんのnotionを参考に、最初の設定2: 仮想環境のsetupまでは成功。
分かったこと
標準コードを改修するところまで、どのくらい時間がかかるか、懸念ではある。
また、job実行のスラムについても勉強しなくてはいけない。
次やること
LLM実装の全体像のまとめの記載
とりあえず、標準コードの実行まではできることを確認
LLMモデルの学習コードの調査(継続)
サブチーム5(学習・評価)
やったこと
Megatron deep speedでの学習実行
MoEの調査
ディスカッション
- サブリーダとリーダの打ち合わせ。
- slurmの扱いが難しい。経験者がいれば手伝っていただきたい。
- 運営とのミーティングは? → 対面での報告ではなく、週次内容を提出。
- 自己紹介記述のためのミーティングについて、ドキュメントチームで検討中。
- データはいつまでに必要か?→4/15迄にはデータ処理が終わって使える形にして欲しい。
- Common crawlやCC100の前処理の扱いは異なるのか?→前処理はどちらも必須で河越チームで実施する。
- データチームと前処理チームの役割は?→一旦2チームで集まっていただいて今後の役割分けを実施していただきたい。
- それをやっちゃだめというリストを作成していただきたい。環境構築のページを作成してそこに追加する。
- 環境構築に関してはハンズオンがビデオとか実施するのがいいか?
Discussion