無能力から始めるLLM開発: 0(データ収集編) 随時更新
1. はじめに
触ってますか?ChatGPT、Claude、Copilot。
LLM(Large Language Model): 大規模言語モデルが世の中に出たおかげで、一気に世の中へのAI浸透が進んできている気がします。
それでも、オリジナルのデータでやってみたい、自分のパソコンだけで動かしてみたい。そんな思いがありつつも、どうやって開発すればいいのか、どんなデータが必要なのか、そもそも、言語モデルとは何?言語での性能の良さとは?と、悶々として日々を無駄に過ごしていました。
その折、ふとしたきっかけで見つけたこちらに興味を持ち、勢いで参加してみた記録になります。
なお、私はIT業界未経験、Udemyや書籍でちょっとやった程度の0エンジニアになります。
2. 行動してみたプログラム
データ収集
現在、下記GithubのWARCファイルのダウンロードと前処理をちまちまとお手伝い中です。
Colabは大して経験がなかったため、以下のようなことを経験させていただきました。
- Colabで実況中のデータ(フォルダ)などは、GoogleDriveとは違うの?
- Driveのデータはどこ?
- 1セッションはいつまで実行可能?
- ブラウザー閉じたらセッション切れてると思ったけど、進行状況表示されてるんだけど成功してるの?
- 4,50分いったあたりでセッション死んでた!また、最初から!
などを経験し、(2024年3月20日時点の)Colab無料版だと以下の点が分かりました。
- BOT確認のための処理が入るため10バッチ放置は不可能
- Chromeブラウザーの仕様?か、ダウンロード処理を許可しておいても不許可にされる事あり
- リソースが大きいバッチに該当した場合、処理が不可能
という事から、
4〜5バッチ程度がダウンロード完了まで放置してもいける
という知見を得ました。(と言いつつ、途中で死んだ事もあるため2、3時間おきにsubmitフォルダからのダウンロード行為をしています。BOTの確認しにくる条件が分からず)
内容によっては1バッチも行けない状態が続いてます(使い続けたせい?)
(2024/03/31 追記) ダウンロード処理が不許可になる件
寝て起きた場合など数時間以上放置処理していた場合、必ずセッションを切断されてしまうので、
定期的に、左のデータを手動でダウンロード処理を実行していました。
その際に、複数のダウンロードを同時に実行させると、不許可が設定される挙動というのを確認しました。一度この処理が入ってしまうと、その後のjupyterセルでダウンロード処理を書いておいてもダウンロードできずにセッションがやり直しになってしまいます。
が、1つずつダウンロード完了まで待ってダウンロードをすると、不許可にはならないようです。
※ データ収集の高速化バージョンはAWSサービス利用のため?試せていません。
3. 感想・学びなど
次回は、実際にデータを眺めて、処理などを経験してみようと思っていたのに、
自分が欲しいJSONリーダーアプリを開発という狂気に走ってしまい、時間を消費してしまった回になります。
4. おわりに
日本語LLM開発のためにデータセット作成に参加してみたい方は、下記の方からご助力お願いできればと思います。
Discussion