🎃

[週次報告] 第1回 Team kumagai

2024/03/28に公開

週次報告

  • チーム名: team_kumagai
  • 日時: 3/26(火)

開発テーマ・概要

  • PR-MoEのような、MoEの構造のモデルの学習をする
  • 商用利用可能な良質なデータセットの作成

チーム全体の開発状況

データ: wiki40bja
モデル: Mixtral7*8Bのモデルサイズを小さくしたもの, zero3
トークナイザー: 日本語トークナイザー(ja-tokenizer-unigram-v1)
wandb
https://wandb.ai/geniac_kumagai/Mixtral-8x7b_wikijp?nw=nwuserkumagai
huggingface
https://huggingface.co/geniacllm/MixtralJauniv1Wikijp

  • Huggingfaceに登録されたモデルからのFinetuningの確認

サブチームからの情報共有

データチーム

  • Ask-LLMとプレ環境の環境構築
    • 進捗状況
      • Ask-LLM論文紹介勉強会を開催(3/17) 参加者10-15名くらい
      • Ask-LLMプロトタイプ実装が完成
      • Ask-LLM論文再現実験
      • プレ環境での環境構築
        • 計算ノードでのJupyterLab環境構築 (→Ask-LLMが実行出来るところまで確認済み)
        • ダウンロード済みCulturaXがロードできるか検証中
  • CulturaXのダウンロード
  • ucllm_nedo_prodのフィルタリングの箇所を調査
  • トークナイザーの学習と連携

次やること

  • モデルチームに仮の日本語データセットの連携
    CulturaXがダウンロード完了したので、ランダムサンプリングして、前処理して連携
  • 前処理方法の検討
  • 最適なトークナイザー探索

モデルチーム

  • 技術調査

    MoEモデルの精度を上げるには、ベースのサイズを大きくする必要がある。

    MegtronDeepspeedでMoEに適応できる並列化の手法が限られている。

    ベースのモデルのサイズが1.3Bまでは、MegtronDeepspeedで対応できるが
    それ以上のサイズにする場合に速度的に問題がある可能性がある

  • 開発方針の決定
    並列化した時の速度的な問題を考慮して以下の3つのモデルに関して、学習コードを作成する

    1. Deepspeed-MoE, ベースモデル GPT 6.7B, 並列化 TP EP
    2. Mixtral 7*8B, 並列化 zero3
    3. Denseモデル 10B (llama2?), 並列化 3D parallelism
  • 開発の進捗

    • Colabでの実験
      1.2.3のモデルサイズを小さくしたものの(3はGPTベース)、事前学習の実行確認
    • 配布環境での実験
      2に関して、wandb、hugginfaceへの登録の確認、標準コードの作成と展開
      3に関して、配布コードの実行確認、wandbまで
  • 次にやること
    学習コードの作成
    パラメータを変えて実験を行い、より良いパラメータを探索する

評価チーム

  • Argilla環境の説明と環境の作成
  • SFTとDPOを行う、SFTとDPOに関する調査
  • GCP環境でのコードの実装方法について確認
  • ORPOという手法に関して調査
  • 開発
    モデルチームから連携されたHuggingfaceの結果にfinetuningができることを確認(Colab)
    日本の首都は?というプロンプトに対して少なくとも国に関する言及は増えたものの、綺麗に都市名を答えるようにはならなかった。

次やること

  • SFT、DPOに関する調査
  • SFT、DPOに関するデータ調査

ディスカッション

  • ニュースデータの提供について、時事通信社様の社長室、NLPに知見のある方とのミーティング
    OSSで公開という点で、データの提供に関して、難しかった。
    日本のニュース系のサイトは、どこもLLMの学習に利用されないようにしている。
    →ニュースのスクレイピングはやめる。
    ライブドアのニュースコーパスは使用の検討を行う

その他

次やること

共有ディスクの運営ルールの策定

Discussion