AI関連の技術まとめ

なんとなく情報を追ってたけど本格的にAI駆使しないと生き残れなくなりそうな気配を感じたので気になったものまとめておく場所

Deep Research
調査系のAIはあんまり使ってこなかったのでほとんど知らない。一応Perplexity何回か使ったけどあんまりピンとこなかったのと実際仕事してるときCursorのChatでClaudeに聞いて、解決しなかったり回答が怪しかったりしたときにググるくらいでだいたい解決することが多かったので必要性があまり感じれなかった。
ただ、もしかしたら今やっているAIまわりの技術調査とかするときにここらへん使いこなせていると生産性変わるのかなと思ったのでとりあえず一通り調べておきたい。
OpenAI Deep Research
ChatGPTから使えるやつ。詳細は以下の記事読めばだいたいわかるけど現状(2025年3月現在)無料プランでは使えなそう。Proなら使える。
そもそも、ChatGPTだけかと思ってたけどGeminiとかでも同じようなリサーチ系のAIモデルが公開されてるらしいが無料では使えなそう。
無料で使えるDeep Researchはないのか?
Perplexityが1日5回の制限で開放しているみたい。そんなにごりごりに調査系のAI使うことはなさそうなので使えそうなときにどんどん使って使えそうかどうかを探っていくのが良さそう。試しに使ってみたけど調査が終わったらデスクトップ通知してくれるので調査タスク投げて別の作業できるのはかなりいいよね。
以下使ってみたけどそれっぽい感じのレポートは出してはくれる。

AIモデル
なんとなく把握してるの
- ChatGPT
- 無料プランで使えるのはGPT-4o mini 1日5回くらいGPT-4oとo3-miniが使える
- Gemini(Google)
- 2.0Flashがたぶん無料
- Claude
- 3.5 Sonnetが無料で使える、たぶん
- DeepSeek R1
- R1が無料、たぶん。R1の性能はChatGPTのo1くらいらしいので推論系の高性能モデルを無料で使えるのはDeepSeekだけ?
2025年3月現在
DeepSeekは無料で使えたということもあり話題になってたので気になっていたが以下の記事が参考になった。
(今気付いたが生成AI系のニュース追うのにAI総研の記事めちゃ助かる)
Cursorに課金してるため各社チャットサービスの課金はやめたけど、一応無料でもそれなりに使えそう??頻繁に使わなければ特に追加で課金する必要はない気がしてるけどあんまり深く調べるのもめんどくさいのでとりあえず、ブラウザからAIに質問したくなったら各社のサービス使うようにしてみよう
どちらかといえばAPIの利用料金のほうがみんな気になっているのだろうか
CursorとかClineみたいなAIエージェントの利用にAPIトークンを指定することで従量課金的に使いたいということであってる??
今までのコーディングにチャットと補完によるAIサポートがついたくらいならCursorの課金だけで十分で追加でAPIトークンの必要性は今のところ感じてない
Cursor課金しないで従量制で使いたい場合とかはAPIトークン指定するとかか?
あとは開発とかでAIモデル使いたいときにAPIトークンが必要だと思うけど個人的にAIモデルを使った開発はしてないので必要性はない
ClineみたいなAIエージェントの利用に関してはちょっと必要性が出てきそうなので後で調べる
とりあえず、今のところはCursor課金で使える無制限のAIモデルと回数制限付きの高性能モデルを使い分けるのとブラウザ上で使える各社のチャット型サービスが使えるようになってることと従量課金型のAPIトークンの利用を頭の片隅に置いておけばいいかになった

その他生成AIの利用シーンとツールについて
ここらへん追うとキリなさそうなのであんまり深追いはしないでおく。とりあえずパッと思いつくのは以下。
-
議事録系のAI音声文字起こし系のサービス
- 業務上そこまで必要ではない
- 個人で必要になるケースは今のところそんなにない
- 必要になったらその時流行ってるのを使えばいいと思ってる
- ただ、企業的には導入して参加していないMTGの議事録が公開されているのはすごいいいと思う
- あとは議事録係とかいうクソだるい係がなくなるのは革新的だと思う
-
動画の要約
- これは主に海外の技術動画とか時間なくて見れていない技術系の動画の要約とかが考えられる
- 文字起こしや要約に特化したAIサービスとかもあるみたいだけどURLコピペしてこれ要約してっていうのが一番簡単そう
- 拡張機能なんかもあるけどちゃんと使えるのを探すの大変そう
要約系を調べてたらGoogleが出しているNotebookLMが良さそうな上に今のところ無料らしい。Google docsやslide、Youtubeなどをアップロードすることで要約やその内容について質問できる。
使うかわからないけどプログラミング関係で言うとドキュメントとか論文読み込ませて要約してもらったり質問したりとかだろうか。
あとはYoutubeの要約。使ってみて良さそうだったら要約系はNotebookLMでいい気がする。
実際使ってみたけどYoutubeの動画に関しては字幕が有効な動画であればURLを指定することで要約してくれるけど、割とあっさりした要約であんまり内容がないといえばない感じだった。
- Google各種ツールのAIサポート
- 主にスプレッドシートとかSlideとか
- geminiのサポート受けながらスプシの関数書けたりとかスライドいい感じに作ってくれたりとかするとすごい助かりそうな気はする
- メールはあまり使わないからGメールのAIサポートはなくてもいい
- 現状、個人で使ってる無料のGoogleアカウントだとgeminiのサポートは使えなさそう
- Google Workspaceがgeminiサポート組み込んだっぽいので仕事では使えそう
- そもそもあんまりスプシやスライド作ること自体が少ないのであんまり嬉しさを感じれていないが普段の業務でここらへんごりごりに使うならgeminiサポートはかなり強力な武器になりそう
- slideのgeminiのサポート具合では、スライドはマークダウンでかけるslidevとかmarpみたいなのが良いと思ってたけどGoogle Slideを使ったほうが効率的になるかもしれない
- 動画、画像生成系
- 使う機会がない
- デザインとかwebサイトのUI構築とかは使うかもだけど
- それらはCanvaとかV0とかがあれば無料でできそうだけども
何にせよ自分の場合、いずれもあんまり旨味がない事に気づいた

翻訳
コーディングの次に一番使うAIなことに気付いた。DeepL拡張で選択した部分を翻訳してるけど最近もさくなった気がするので改めて考えたい。
自作かGoogle拡張とか使えばページごと翻訳できそうだけど自作する情熱がないのとまともな拡張機能探すのがだるい
このままDeepLで良いといえばいいのだけど前後の文脈とか考慮して翻訳してくれそうだから生成AI使って翻訳したい
そこで、Raycastで選択した部分を翻訳するのは相性良すぎってどこかで聞いたの思い出した
とりあえず、課金したらRaycast AIが使えるっぽい
あんまりわかってないけどあらかじめプロンプトを埋め込んでおくとRaycastから実行できるっぽくて、ここに翻訳プロンプトを埋め込んで選択部分の翻訳に使うっぽい?
そもそもAIへの質問と検索がかなりサクッとできるっぽくて課金しようかなの気持ちになっている

Cursor
今、最も使ってる1軍AIツールなためもう少しちゃんと機能とかを把握しておきたい

AIエージェント
ClineとRoo-Codeについて
上記の記事を読むと違いがなんとなくわかるが、Clineをフォークしていろいろ機能拡張しているのがRoo-Codeで、どちらもVSCode拡張として使う。
今のところRoo-Codeを使うのがよさそうだけど、APIをどこで使うのがいいかは悩ましい
コストはなるべく安いに越したことはないのでCursorのcomposerがいわゆるAIエージェントなのだから、Clineみたいに使えないものか。
一旦Cursorのcomposerを使って検証してみたい
今AIエージェントを使って開発するなら黙ってCline(Roo Code)使っとけという意見をよく見かけるようになってきたので黙ってRoo Code使うことにした。

インフラ構成図の生成
- 生成AIでGCPとかAWSのインフラ構成図とterraformの生成ができるとも思うがざっと調べたところ当てはまるのがなかった
- draw.ioの形式でChatGPTとかに出力してもらうみたいなのが一番カンタンそうだけどあんまり良い出力は得られなかった
- terraformはCursorなりエージェントなり、チャットで聞けば十分な成果物が得られそう、特にそれこそインフラ設計がちゃんとしていれば
- インフラ設計からteraform生成までをいい感じにできるAIを使った作業フローが確率されたら知りたい
- 構成図からterraformを生成するフローについて。AIではないがAIになる余地はありそう
https://zenn.dev/cloud_ace/articles/developer_cheatsheet - terraformやCDKからdraw.ioで構成図をAIに書いてもらう
https://dev.classmethod.jp/articles/aws-drawio-genai/ - これはけっこう精度高く出せそう
- コードから構成図を生成するのか、構成図からコードを生成するのかみたいな話になりそう

RAG
- 検索拡張性というものがRAGらしい
- AIの回答に外部知識を埋め込むみたいなものらしい
- 学習済みのモデルを再チューニングすることなく最新情報を検索して回答するみたいなことであってる?
- AIを利用する側であればこれくらい知っていれば良さそう
- AI開発となるともう少しRAGについて知ってたほうが良いかもしれない

Lang Chain
以下の記事が参考に
- ChatGPTのようなLLMの機能拡張をするためのライブラリのことらしい
- 上記のRAG開発をLang Chainを用いて行うということらしい
- こちらもAIを用いた開発側の話なので利用者側はあまり知らなくて良さそう

Claude DesktopとMCP
気づいたらMCPの話で持ち切りだった。