🤖

これからChatGPT（AI）と共存するために知っておくべきこと生成AIのサービスを知る

2023/12/07に公開

導入

前回の記事では次に生成AIの得意・不得意な領域の話をする予定でしたが変更しました。

その話の前に2023年12月の段階でどんなサービスがあるかを先に見ていくことにしました。
展開しているサービスを見た後に、得意な部分は○○だなと共通点を整理するためです。

大きく分けると文章・画像・音声・動画の4種類です。

生成AIと会話をしながらニュース記事やブログ記事、小説、脚本、メール、手紙など、さまざまなテキストを生成する事が出来ます。

代表的なサービスで言うとOpenAIのChatGPTやMicroSoftのBingAIですね。
GoogleのBardはまだ試験運用中なので正式なものではないですが、自分は最近の調べ物はBardを使ってます。BingAIに比べるとレスポンスも早いのと、無料時の使用制限がないからです。

これらの違いをBardに聞いてみました。

項目	ChatGPT	BingAI	Bard
開発元	OpenAI	Microsoft	Google AI
学習データ	テキストとコードの膨大なデータセット	テキストとコードの膨大なデータセット	テキストとコードの膨大なデータセット
生成内容	テキスト、コード、翻訳、音楽、絵画など	テキスト、コード、翻訳、質問への回答など	テキスト、コード、翻訳、質問への回答など
回答の特徴	独創的で創造的	簡潔で正確	簡潔で正確、かつ創造的
回答の速度	遅い	遅い	速い
料金	無料版と有料版あり	無料版と有料版あり	無料
日本語対応	あり	あり	あり

主な違い

ChatGPTは、創造的でオリジナリティのあるコンテンツ生成に重点を置いています。テキスト以外の幅広い機能に対応していますが、回答の速度は遅い傾向があります。有料版では、より多くの機能や制限の少ない利用が可能になります。
BingAIは、回答の簡潔さと正確性を重視しています。テキスト、コード、翻訳などの基本的なタスクに重点を置いています。回答の速度はChatGPTと同様に遅い傾向があります。有料版では、より多くの機能や制限の少ない利用が可能になります。
Bardは、回答の正確性と創造性のバランスを重視しています。BingAIと同じ基本的なタスクに対応しています。回答の速度はChatGPTやBingAIと比べて速い傾向があります。無料で利用できます。

大きな違いとしては情報源の違いかと思います。
ChatGPT以外は検索エンジンも？通しているためリアルタイムな情報も持っています。

個人的には会話をしていて楽しいのはChatGPTですね。
会話していると不思議と感情を持っているように感じます。

ChatGPT3.5の情報がいつまでか聞いたら更新されてた。2021年だと思ってた

画像生成AIは2パターンあります。
1つ目がテキストから画像を生成するもので2つ目が画像から画像を生成するものです。

各サービスの比較をBardに聞いてみました

項目	テキストから画像を生成するサービス	画像から画像を生成するサービス
入力	テキスト	画像
出力	画像	画像
用途	グラフィックデザイン、イラスト作成、動画制作など	画像の加工や編集、新規作成など
代表的なサービス	DALL-E 2、Midjourney、Novel AI Diffusion、Stable Diffusion、Niji Journey	Deep Dream、StyleGAN、CycleGAN、StarGAN、iGAN
特徴	テキストから画像を自由に生成できる	画像のスタイルを変更したり、新しい画像を生成したりするのに使用できる
課題	生成される画像の品質が安定しないことがある	生成される画像の品質がテキストから画像を生成するサービスに比べて劣ることがある

例えば「犬がボールを追いかけている画像」や「青い空と白い雲が見える画像」などと入力してお願いすると指定の画像生成をしてくれます。

OpenAIのDALL-E 2は2023年4月6日以前にOpenAIの会員になっている場合はお試しで生成する事が出来るので試してみてください。
https://labs.openai.com/

例えば「青空の画像」を「青空を雨雲の画像にして」とお願いすると雨雲の画像を生成するといったイメージです。

自分がこの分野に知見が無くて有名どころはわからなかったので紹介程度になります。
最近だとAdobeがFireflyというサービスをリリースしています。

Canvaも似たような事をやっています。

音声生成AIは2パターンあります。音声認識と音声合成の2パターンです。
音声認識のサービスは会議や電話の文字起こしをしてくれるのがメインのようです。

項目	音声認識	音声合成
提供形態	クラウド型、オンプレミス型	クラウド型、オンプレミス型
用途	会議の議事録作成、コールセンター業務、音声検索など	ナレーション、音楽、音響効果など
代表的なサービス	もじこ、Notta.、AmiVoice Cloud Platform、AI 議事録	Amazon Polly、Google Cloud Text-to-Speech、DeepMind WaveNet
特徴	高い認識精度、さまざまな言語に対応	人間の声に近い音声を生成
課題	高価な場合がある	大量の学習データが必要