💡
AI開発の初心者は何から始めたらいい?初心者のためのステップバイステップガイド🚀
始めに
- 私はAI開発の経験がほとんどなく、現在何から始めれば良いか考えている段階です。このブログ記事は、同じようにAI開発を始めたいと思っている方々に向けて、私が現在どのようにプロジェクトを探し、進めているかを備忘録として記録したものです。今後、詳細が固まり次第、追記していく予定です。
この記事の対象者
- AI開発に挑戦してみたい人
- 『ゼロから作るDeep Learning』やCS231nを学習したものの、その後何をすればいいのかわからない人
自己紹介
syno: シノ
-
研究分野
- 深層学習、特にコンピュータビジョン
-
作ったもの
- AcademiXというAIコミュニティで、バーチャルAIカフェアプリケーションのフロントエンド開発を担当し、東京大学五月祭で展示しました。
- APIとしてClaudeを、フロントエンドにはElectronとVue.js、バックエンドにAzureを使用しました。
https://x.com/AcademixAi/status/1791647451793015203
https://x.com/AcademixAi/status/1800556048673390767
-
今まで勉強したこと
- 東京大学 松尾・岩澤研究室: GCI2023 Winter(修了), Deep Learning基礎講座2024(修了), 大規模言語モデル2024(受講中)
- AcademiX Base: AI研修プログラム(受講中)
-
趣味
- 創作: イラスト制作, 音楽制作(初音ミクなど), 3DCG, 小説制作, それとDJなど
-
プログラミングでできること
- CNNなどの基礎的な深層学習モデルの実装
- ReactやVue.jsを用いた簡単なWebアプリ開発 (フロントエンド: Javascript/TypeScript、バックエンド: Flask)
- AWSを用いた簡単なデプロイ
- AnacondaやDockerを使った基本的な環境構築
- Githubでのチーム開発経験
-
その他
- 上記のAIを自主的に学び実践したい学生が集まるオンラインコミュニティAcademiX運営メンバー
AI開発の分野
私の認識では、AI開発では以下のような種類があると思います。
- ノーコードでのAI開発
-
APIをアプリに組み込む
- ニュースサイトで記事のページに要約機能がついていたりするのは便利だと思いました。
-
学習済みモデルのファインチューニング
- 参考にkaggleのコンペティションPlant Pathology 2020 - FGVC7で1位のSolution
- githubレポジトリも見ると、"seresnextnet50"というモデルを学習率調整,データ拡張,セルフ・ディスティレーション,TTAを行い、ファインチューニングしているようです。
-
AIに関するオープンソースプロジェクトへのコントリビュート
- 全然わからない分野です😇
-
モデル設計からデータ収集までフルスクラッチで開発
- 例えば、GENIAC 松尾研 LLM開発プロジェクト では、日本語LLMをフルスクラッチで開発しています。
- 対話、作文能力を評価する指標「Japanese MT-Bench」において「GPT-3.5 Turbo」と同等以上の性能を達成した「Tanuki-8×8B」のコードやモデルが公開されています
- ちなみに詳細についてオンラインで発表が行われており、またYoutubeにアーカイブもあります。無償で誰でも見られるため、興味がある方はご覧ください。
自分の興味と目標を明確にする
私の場合、次のような分野に興味があります。
-
興味がある分野
- 自然言語処理、LLM: ChatGPTを日常的に使っているため
- 創作関連の生成AI: イラスト、音楽、3DCGなどが趣味のため
- コンピュータビジョン: 研究テーマのため
-
最終目標
- 専門的に学び、最終的には論文を読んで実装できる技術を身につけたいです。
AI開発の題材を探す
適切かどうかはともかく私が深層学習分野で興味があること
-
深層学習によるノイズ除去、超解像
- Xなどから画像を集めるとJPRGのモスキートノイズが乗っていますが、Clip Studio Paintにノイズを除去する機能があるのが毎回助かっています。
- 画像を高解像度化する技術はイラストの画素数が少ないときに助かっています。
- Xなどから画像を集めるとJPRGのモスキートノイズが乗っていますが、Clip Studio Paintにノイズを除去する機能があるのが毎回助かっています。
-
顔,人体の映像をリアルタイムで変換する技術
-
Vroid StudioとVMagicMirrorを使用してビデオ通話をしているのですが、リアルタイムで映像を変換できればまた別の面白さがあると思いました。
参考イメージ: Vroid StudioとVMagicMirrorでアバターを使用したビデオ通話の画面
-
Vroid StudioとVMagicMirrorを使用してビデオ通話をしているのですが、リアルタイムで映像を変換できればまた別の面白さがあると思いました。
-
人体のイラストを動かす技術
- 一枚の画像からダンス動画を生成できるのは面白いと思いました。
- https://x.com/SuguruKun_ai/status/1798811975662948637
-
画像からのポーズ推定
- 上記のVMagicMirrorなどのアバターを使ったビデオ通話やゲームなどのモーションキャプチャーで結構身近なので、需要はあるかもしれません。
- Webカメラ一台で全身のモーションキャプチャーができるソフトウェア
-
ボイスコンバージョン
- 動画はアバター化できているので、音声も別のものに変換できたら面白いと思います。
-
深層学習の仕組みの可視化
- CNN可視化, Unity用のGPUベースのニューラルネットワーク実装, K近傍法の可視化など、インタラクティブに機械学習を体感できるデモを作るのは面白そうだと思います。
-
イラスト, 音楽, 音声, 動画などの生成
- 面白そうだと思っていますが、自分で開発するのはさすがにつらそうだと思います……。
- stable-diffusion-webuiなど、UI周りを開発するのは面白いかもしれません。
AI開発の進め方
個人的に感じた良さそうな進め方です。
-
AIツールを触ってみる
- 私の場合LLMならChatGPT, 画像生成ならniji・journey, 音楽ならSunoAIなど、とりあえずAIツールを使ってみて、どんな事ができそうなのか体感してみる
- 私がやってみたことの例:SunoAI+niji・journey+ChatGPTで、AIだけでアニソンDJリミックス風の曲を作った結果
-
X, GitHub, arXivなどで検索してみて, どんな先行事例があるのか調べてみる
- 個人, 少人数でどんな開発が可能なのかをあらかじめ把握しておくとあとで便利かもしれません
- Deep Learning Monitor(トレンドの論文まとめ), AI-SCHOLAR(最新のAIに関する論文の日本語解説), Papers with Code(GitHubでコードが公開されている論文まとめ)
- 上記のサイトは東京大学 松尾・岩澤研究室様の人工知能・深層学習を学ぶためのロードマップから
-
コミュニティーがあれば参加してみる
- LLMなら松尾研LLMコミュニティ, Discordのコミュニティー, 学生ならAcademiX(ダイレクトマーケティング)など
-
ハンズオン, ハッカソン, イベントに参加してみる
- connpassというサイトが無料でいろいろなイベントに参加できて便利だと最近知りました
- 会った人とXアカウントなどを交換しておくと、今後の情報源が増えるのでおすすめです
- Xでこまめにしたことを発信したり、ポートフォリオサイトを作っておくと自己紹介のとき便利です
- とりあえずいろいろコードを書いてみる
-
BlogやXなどで学習した内容を発信してみる
- Blogに書いておけば、自分で見返して思い出せますし、自分の成長記録にもなり、また他の人の役にも立つのではないかと思いました
最後に
私が初心者すぎて何も分かっていないので、AI開発や勉強を一緒に進めてくださる方がいれば嬉しいです……。私のXアカウントはこちら
ここまでご覧くださりありがとうございました。
Discussion