📝

無能力から始めるLLM開発: 0(データ収集編) 随時更新

2024/03/20に公開

1. はじめに

触ってますか?ChatGPT、Claude、Copilot。

LLM(Large Language Model): 大規模言語モデルが世の中に出たおかげで、一気に世の中へのAI浸透が進んできている気がします。

それでも、オリジナルのデータでやってみたい、自分のパソコンだけで動かしてみたい。そんな思いがありつつも、どうやって開発すればいいのか、どんなデータが必要なのか、そもそも、言語モデルとは何?言語での性能の良さとは?と、悶々として日々を無駄に過ごしていました。

その折、ふとしたきっかけで見つけたこちらに興味を持ち、勢いで参加してみた記録になります。
https://note.com/kan_hatakeyama/n/n867e09f1d32c?sub_rt=share_h

なお、私はIT業界未経験、Udemyや書籍でちょっとやった程度の0エンジニアになります。

2. 行動してみたプログラム

データ収集

現在、下記GithubのWARCファイルのダウンロードと前処理をちまちまとお手伝い中です。

https://github.com/KanHatakeyama/JapaneseWarcParser/tree/main/warc

Colabは大して経験がなかったため、以下のようなことを経験させていただきました。

  • Colabで実況中のデータ(フォルダ)などは、GoogleDriveとは違うの?
  • Driveのデータはどこ?
  • 1セッションはいつまで実行可能?
  • ブラウザー閉じたらセッション切れてると思ったけど、進行状況表示されてるんだけど成功してるの?
  • 4,50分いったあたりでセッション死んでた!また、最初から!

などを経験し、(2024年3月20日時点の)Colab無料版だと以下の点が分かりました。

  1. BOT確認のための処理が入るため10バッチ放置は不可能
  2. Chromeブラウザーの仕様?か、ダウンロード処理を許可しておいても不許可にされる事あり
  3. リソースが大きいバッチに該当した場合、処理が不可能
    という事から、

4〜5バッチ程度がダウンロード完了まで放置してもいける

という知見を得ました。(と言いつつ、途中で死んだ事もあるため2、3時間おきにsubmitフォルダからのダウンロード行為をしています。BOTの確認しにくる条件が分からず)

内容によっては1バッチも行けない状態が続いてます(使い続けたせい?)

(2024/03/31 追記) ダウンロード処理が不許可になる件

寝て起きた場合など数時間以上放置処理していた場合、必ずセッションを切断されてしまうので、
定期的に、左のデータを手動でダウンロード処理を実行していました。

その際に、複数のダウンロードを同時に実行させると、不許可が設定される挙動というのを確認しました。一度この処理が入ってしまうと、その後のjupyterセルでダウンロード処理を書いておいてもダウンロードできずにセッションがやり直しになってしまいます。

が、1つずつダウンロード完了まで待ってダウンロードをすると、不許可にはならないようです。

※ データ収集の高速化バージョンはAWSサービス利用のため?試せていません。

3. 感想・学びなど

次回は、実際にデータを眺めて、処理などを経験してみようと思っていたのに、
自分が欲しいJSONリーダーアプリを開発という狂気に走ってしまい、時間を消費してしまった回になります。

4. おわりに

日本語LLM開発のためにデータセット作成に参加してみたい方は、下記の方からご助力お願いできればと思います。

https://note.com/kan_hatakeyama/n/n02201c8692f5

Discussion