💬

[週次報告] 第1回 Team ビジネス

松尾研 LLM開発 GENIAC

2024/03/28に公開

開発テーマ・概要

ビジネスで利用可能なLLMの開発
- ハルシネーションの抑制
- ビジネス向け日本語データセットの選定
  
  etc…

チーム全体の開発状況

ドキュメント構成の熟考（初見でも実施事項が分かりやすいように変更）
前処理、データセット、アーキテクチャー、学習・評価方法の調査

サブチームからの情報共有

サブチーム1（ドキュメント）

やったこと：Notionの構成を整理、slackでチームの入り口のページを作成中

計算資源へのログインを試した。

次にやること：slurmの検証アイディア出しと環境構築。

サブチーム2（前処理）

やったこと：Common Crowlのデータをきれいにする手法の検討。公開コードなどを用いて実施中。個別の環境で小規模データで実施中。web crawlのコードのテストを実施予定。トークナイズ化の手法についても検討中。

サブチーム3（データセット）

やったこと：前処理チームとの業務交通整理

独自データセットの各チームメンバーに割り振ってスクレイビング中

サブチーム4（アーキテクチャー）

やったこと

今後やるタスクを以下の４つに大きく分けた。

1. LLM実装の全体像の理解(環境構築~事前学習~評価)
2. 松尾研標準コードの理解と動作確認
3. OSS, 有識者のブログ記事を参考に独自のモデル組込みの調査(Llama2, MoE)
4. 松尾研コードの改修

主担当をとりあえずでも決めた方が、各人が作業し易いと考え、20:40~21:15の時間に参加されていたメンバーで、それぞれの主担当を以下のように割り振った。勿論、ヘルプが必要になった場合は、その他のメンバーでフォローする方針で考えている。

1. 前河、李
2. 松永
3. 熊田
4. -

miro link: https://miro.com/app/board/uXjVNgYWJn8=/

LLM実装の全体像のまとめ(環境構築~事前学習~評価)について、まとめて頂くスライドの雛形を作成

    Google slide link:   https://docs.google.com/presentation/d/1yMjt5zqGDWCQlr-_jpHDN1eTFzSntIVVokBZMpbnJaA/edit#slide=id.p

松尾研で用意下さったGPUサーバーで、環境構築を試み中。

畠山さんのnotionを参考に、最初の設定2: 仮想環境のsetupまでは成功。

https://matsuolab-geniac.notion.site/1gpu-79215be07ad845649cb40b8f602436fa

分かったこと

標準コードを改修するところまで、どのくらい時間がかかるか、懸念ではある。

また、job実行のスラムについても勉強しなくてはいけない。

次やること

LLM実装の全体像のまとめの記載

とりあえず、標準コードの実行まではできることを確認

    LLMモデルの学習コードの調査（継続）

サブチーム5（学習・評価）

やったこと

Megatron deep speedでの学習実行

MoEの調査

ディスカッション

サブリーダとリーダの打ち合わせ。
slurmの扱いが難しい。経験者がいれば手伝っていただきたい。
運営とのミーティングは？ → 対面での報告ではなく、週次内容を提出。
自己紹介記述のためのミーティングについて、ドキュメントチームで検討中。
データはいつまでに必要か？→4/15迄にはデータ処理が終わって使える形にして欲しい。
Common crawlやCC100の前処理の扱いは異なるのか？→前処理はどちらも必須で河越チームで実施する。
データチームと前処理チームの役割は？→一旦2チームで集まっていただいて今後の役割分けを実施していただきたい。
それをやっちゃだめというリストを作成していただきたい。環境構築のページを作成してそこに追加する。
環境構築に関してはハンズオンがビデオとか実施するのがいいか？

松尾研| GENIAC LLM開発プロジェクトPublication