💬

[週次報告] 第1回 Team ビジネス

2024/03/28に公開

開発テーマ・概要

  • ビジネスで利用可能なLLMの開発
    • ハルシネーションの抑制

    • ビジネス向け日本語データセットの選定

      etc…

チーム全体の開発状況

  • ドキュメント構成の熟考(初見でも実施事項が分かりやすいように変更)
  • 前処理、データセット、アーキテクチャー、学習・評価方法の調査

サブチームからの情報共有

サブチーム1(ドキュメント)

やったこと:Notionの構成を整理、slackでチームの入り口のページを作成中

計算資源へのログインを試した。

次にやること:slurmの検証アイディア出しと環境構築。

サブチーム2(前処理)

やったこと:Common Crowlのデータをきれいにする手法の検討。公開コードなどを用いて実施中。個別の環境で小規模データで実施中。web crawlのコードのテストを実施予定。トークナイズ化の手法についても検討中。

サブチーム3(データセット)

やったこと:前処理チームとの業務交通整理

独自データセットの各チームメンバーに割り振ってスクレイビング中

サブチーム4(アーキテクチャー)

やったこと

今後やるタスクを 以下の4つに大きく分けた。

1. LLM実装の全体像の理解(環境構築~事前学習~評価)
2. 松尾研標準コードの理解と動作確認
3. OSS, 有識者のブログ記事を参考に独自のモデル組込みの調査(Llama2, MoE)
4. 松尾研コードの改修

主担当をとりあえずでも決めた方が、各人が作業し易いと考え、20:40~21:15の時間に参加されていたメンバーで、それぞれの主担当を以下のように割り振った。勿論、ヘルプが必要になった場合は、その他のメンバーでフォローする方針で考えている。

1. 前河、李
2. 松永
3. 熊田
4. -

miro link: https://miro.com/app/board/uXjVNgYWJn8=/

LLM実装の全体像のまとめ(環境構築~事前学習~評価)について、まとめて頂くスライドの雛形を作成

    Google slide link:   https://docs.google.com/presentation/d/1yMjt5zqGDWCQlr-_jpHDN1eTFzSntIVVokBZMpbnJaA/edit#slide=id.p

松尾研で用意下さったGPUサーバーで、環境構築を試み中。

畠山さんのnotionを参考に、最初の設定2: 仮想環境のsetupまでは成功。

分かったこと

標準コードを改修するところまで、どのくらい時間がかかるか、懸念ではある。

また、job実行のスラムについても勉強しなくてはいけない。

次やること

LLM実装の全体像のまとめの記載

とりあえず、標準コードの実行まではできることを確認

    LLMモデルの学習コードの調査(継続)

サブチーム5(学習・評価)

やったこと

Megatron deep speedでの学習実行

MoEの調査

ディスカッション

  • サブリーダとリーダの打ち合わせ。
  • slurmの扱いが難しい。経験者がいれば手伝っていただきたい。
  • 運営とのミーティングは? → 対面での報告ではなく、週次内容を提出。
  • 自己紹介記述のためのミーティングについて、ドキュメントチームで検討中。
  • データはいつまでに必要か?→4/15迄にはデータ処理が終わって使える形にして欲しい。
  • Common crawlやCC100の前処理の扱いは異なるのか?→前処理はどちらも必須で河越チームで実施する。
  • データチームと前処理チームの役割は?→一旦2チームで集まっていただいて今後の役割分けを実施していただきたい。
  • それをやっちゃだめというリストを作成していただきたい。環境構築のページを作成してそこに追加する。
  • 環境構築に関してはハンズオンがビデオとか実施するのがいいか?

Discussion