生成AIサービスをいろいろ紹介してみた
はじめに
ここ1年程度の生成AIの進化はすごく速いですよね。
文章生成や検索、文字認識、アプリケーション開発、デザイン・UIの作成など、さまざまな分野でAIが活躍しています。
しかし、IT業界の人、エンジニアの人でも生成AIサービスを積極的に活用できている人ってあんまりいないんじゃないかな、と私は考えています。私の周りでもIT知識はあるけど生成AIはChatGPTのような有名なもの以外は何も知らない、という人が多いです。
そこで、私はより多くの人に生成AIを使ってほしい、知ってほしいという思いで、現在注目されている生成AIサービスを一挙に紹介してみました。
開発者やクリエイター、あるいは単純に生成AIに興味がある人に向けて、それぞれの特徴を簡単にまとめています。
まずは汎用的なモデルから
https://chatgpt.com)
ChatGPT(特徴:GPTsが豊富である。DeepResearchは有料プラン($20~)から使用可能。音声認識にも対応している。
最近4oの性能が下がっているような気がしている(確証はないが何人か同じ意見を述べている人がいた)。また、Canvasは使いにくく、あまりユーザーライクではない。
https://claude.ai)
Claude(特徴:コーディング分野においてはChatGPTやGeminiを上回る性能を持ち、生成された文章もchatGPT、Geminiと比較してより自然である。またアーティファクトが非常に見やすく使いやすい。
DeepResearchはまだないが、MCPを活用して疑似DeepResearchを作成することが可能らしい。
しかし、無料版だと1チャットにおける会話可能回数が少なく、コーディングにおける長文のエラーなどを張り付けたりするとすぐに制限が来てしまう(そうなった場合再度チャットを作成する必要があり面倒)。
https://gemini.google.com/app)
Gemini(特徴:上2つのモデルと比較して大きな性能差はない。
このAIの最新モデル(2.0 Flashなど)は、カタログスペックではClaudeやChatGPTを上回るとされているが、私の体感ではコーディング性能はClaudeより低いと感じる。
無料でDeepResearchを使用可能。
ただ、1つ大きなポイントとしてAPIを無料で使用することができる点がある。学生はGithub Copilotを無料で使用できるためわざわざGeminiAPIを使用することはないと思うが、それを除くと最もコスパが良い。
https://x.ai)
Grok(特徴:(こちらの文章はGrokで生成)
xAIが作ったAIで、人間らしいユーモアと外部視点での回答が得意。また、無料で、なおかつユーザー登録をせずに使える点が大きな魅力(無料がいつまで続くかは不明)。科学や宇宙に関する質問に強く、ストレートで分かりやすい説明が特徴である。
無料でDeepResearchを使用することができる。コーディング性能もClaudeと並ぶレベルで高い。
https://chat.deepseek.com)
DeepSeek(特徴:コード生成や数学的な問題解決に優れている。しかし、生成スピードは他モデルよりも遅くなっている。また、入力した情報は〇国政府に流れている可能性が高いので入力する際は注意が必要。
AIエージェント
https://devin.ai)
Devin(無料版は無く有料版のみ(月500ドル)。
完全自立型AIエージェントであり、指示を与えると、AIが自分で考え自動で様々な操作を実行する。
こちらに関しては使用したことが無いのであまり書くことがありません。
https://replit.com)
Replit(入力した指示をもとにフルスタックアプリを開発してくれる。また、フロントエンド、バックエンドのコードを生成し、そこからデプロイすることも可能。一応無料でも使える。
Cline(VScode拡張機能)
VScodeの拡張機能としてこのAIエージェントが提供されている。おすすめはClineをより使いやすく改良したものであるCool Cline、Roo Code(Roo Cline)である。プロンプトから指示を出すとファイル・フォルダの読み込み、コード生成、エラー修正、コマンドの実行などを勝手にやってくれる優れ物。
ただしAPIが必要なので、学生であればGithub CopilotのPro版のAPIを使用することをおすすめする。学生でない場合は何かしらのAIモデルの有料プランを購入してAPIを使用するか、無料で使用可能なGeminiAPIを使用するかになる。
ただし、無料のGeminiAPIでClineを使うとすぐにレート制限になり非常にストレスのため、選択肢は実質Copilotを使うか有料プランを契約するかのどちらかになる。
AI検索エンジン
https://felo.ai/search)
Felo(特徴: 検索内容をもとにプレゼンテーション資料を作成してくれる。DeepResearchを無料で使用可能。また、見出しや太字などを多く活用していて文章が読みやすい。
https://www.perplexity.ai)
Perplexity(特徴: DeepResearchを無料で使用可能。しっかりとソースを提示してくれるが、意外と文章の中で「これどこから取ってきたんだろう」という情報があったりする。
欠点としては、文章に太字などは活用されていないため多少読みにくさを感じることがある。
https://www.genspark.ai)
Genspark(特徴:DeepResearchを無料で使用可能。他の2つと比べるとあまり使用されていない印象。ただし、複数のAIエージェントによる多角的な検索が行われるため専門的な内容の検索に向いている。
アプリケーション開発
https://bolt.new)
bolt(特徴:ブラウザ上でフルスタック開発が可能だが、現状はPythonなどの実行はできない。npmパッケージのインストールやデプロイもAIが自動で行ってくれる。また、https://bolt.new/github.com/ユーザー名/リポジトリ名 とするとboltのページでリポジトリを読み込み、そこからリファクタリング等を行うことができる。
https://lovable.dev)
Lovable(特徴:Supabaseなどバックエンドとのスムーズな統合を実現している。また、ガイドなどがあって使い勝手も良いため開発初心者におすすめ。また最近になってFigmaと連携することもできるようになったようである。
https://v0.dev)
v0(特徴:フロントエンドに特化している。Next.jsやShadcnとの高い互換性があり、UIコンポーネントを即座に生成できる。デザインページの画像を渡すとかなり高精度でそのページのコードを作成してくれるので、モック作成などには最適。
https://a0.dev)
a0(特徴:v0をそのままネイティブアプリに特化させたようなもの。React Nativeが生成される。
https://www.create.xyz)
Create(特徴:自然言語で簡単にフルスタック開発ができる。また、特定の部分のみの修正を行うこともできるため柔軟性が高い。
https://www.chaoscoder.net)
Chaos Coder(プロンプトを入れると、様々なアプローチで9つのアプリケーションを生成してくれる。音声認識も対応?
UI・デザイン系
https://www.relume.io)
Relume(特徴:AIでウェブサイトの設計を支援するツール。テキスト入力からサイトマップやワイヤーフレームを生成する。
https://www.napkin.ai)
Napkin(特徴:アイデアをビジュアル化するAIツール。テキストから図解やフローを瞬時に生成する。
https://www.magicpatterns.com)
Magic Patterns(特徴:UIコンポーネント生成に特化したツール。プロンプトから読み取ったデザイン要素を提案する。
https://wegic.ai/ja)
Wegic(特徴:AIでウェブページやUIを生成する。
https://shuffle.dev/new)
shuffle(特徴:UIライブラリとAIを組み合わせたツール。ドラッグ&ドロップで直感操作が可能。
https://uxpilot.ai)
uxpilot(特徴:AI駆動のUI/UXデザインツール。ワイヤーフレームからUIまで生成可能。
https://uiverse.io)
Uiverse(特徴:オープンソースのUIコンポーネントライブラリ。
文字起こしAI
https://tactiq.io)
Tactiq(Zoomやgoogle meet、Teamsに対応していて、ミーティングに文字起こし用アカウントのようなものを参加させずに文字起こしが可能。無料でも月に10回使用できる。
また、作成した文字起こしデータ(議事録)をNotebookLM等に保存するようなワークフローを構築することもできる。
https://tldv.io/ja)
tl;dv(Zoomやgoogle meet、Teamsでのミーティングを無料で、なおかつ無制限で文字起こし可能。また、Tactiqは音声のみ記録可能だが、このサービスは録画にも対応している。
しかし、ミーティングにtl;dvのボットが参加するためミーティング相手に別途説明が必要となる場合がある。
OCR AI
https://mistral.ai/news/mistral-ocr)
Mistral OCR(画像やPDFを受け取り、その中のテキスト、表、数式、写真などを認識し抽出できる。
現状でもっともOCRの精度が高いといわれている。
使用するためには別途Mistral AIのAPIkeyを取得する必要がある。
Discussion