これからChatGPT(AI)と共存するために知っておくべきこと 生成AIのサービスを知る
導入
前回の記事では次に生成AIの得意・不得意な領域の話をする予定でしたが変更しました。
その話の前に2023年12月の段階でどんなサービスがあるかを先に見ていくことにしました。
展開しているサービスを見た後に、得意な部分は○○だなと共通点を整理するためです。
大きく分けると文章・画像・音声・動画の4種類です。
文章・テキスト
生成AIと会話をしながらニュース記事やブログ記事、小説、脚本、メール、手紙など、さまざまなテキストを生成する事が出来ます。
代表的なサービスで言うとOpenAIのChatGPTやMicroSoftのBingAIですね。
GoogleのBardはまだ試験運用中なので正式なものではないですが、自分は最近の調べ物はBardを使ってます。BingAIに比べるとレスポンスも早いのと、無料時の使用制限がないからです。
これらの違いをBardに聞いてみました。
項目 | ChatGPT | BingAI | Bard |
---|---|---|---|
開発元 | OpenAI | Microsoft | Google AI |
学習データ | テキストとコードの膨大なデータセット | テキストとコードの膨大なデータセット | テキストとコードの膨大なデータセット |
生成内容 | テキスト、コード、翻訳、音楽、絵画など | テキスト、コード、翻訳、質問への回答など | テキスト、コード、翻訳、質問への回答など |
回答の特徴 | 独創的で創造的 | 簡潔で正確 | 簡潔で正確、かつ創造的 |
回答の速度 | 遅い | 遅い | 速い |
料金 | 無料版と有料版あり | 無料版と有料版あり | 無料 |
日本語対応 | あり | あり | あり |
主な違い
- ChatGPTは、創造的でオリジナリティのあるコンテンツ生成に重点を置いています。テキスト以外の幅広い機能に対応していますが、回答の速度は遅い傾向があります。有料版では、より多くの機能や制限の少ない利用が可能になります。
- BingAIは、回答の簡潔さと正確性を重視しています。テキスト、コード、翻訳などの基本的なタスクに重点を置いています。回答の速度はChatGPTと同様に遅い傾向があります。有料版では、より多くの機能や制限の少ない利用が可能になります。
- Bardは、回答の正確性と創造性のバランスを重視しています。BingAIと同じ基本的なタスクに対応しています。回答の速度はChatGPTやBingAIと比べて速い傾向があります。無料で利用できます。
大きな違いとしては情報源の違いかと思います。
ChatGPT以外は検索エンジンも?通しているためリアルタイムな情報も持っています。
- ChatGPT
- 正式な情報源はわからず
- ChatGPT3.5は2022年1月までの情報で止まっている
- ChatGPT4は2023年4月
- BingAI
- bingの検索結果を基に生成する
- Bard
- googleの検索結果を基に生成する
個人的には会話をしていて楽しいのはChatGPTですね。
会話していると不思議と感情を持っているように感じます。
ChatGPT3.5の情報がいつまでか聞いたら更新されてた。2021年だと思ってた
画像
画像生成AIは2パターンあります。
1つ目がテキストから画像を生成するもので2つ目が画像から画像を生成するものです。
各サービスの比較をBardに聞いてみました
項目 | テキストから画像を生成するサービス | 画像から画像を生成するサービス |
---|---|---|
入力 | テキスト | 画像 |
出力 | 画像 | 画像 |
用途 | グラフィックデザイン、イラスト作成、動画制作など | 画像の加工や編集、新規作成など |
代表的なサービス | DALL-E 2、Midjourney、Novel AI Diffusion、Stable Diffusion、Niji Journey | Deep Dream、StyleGAN、CycleGAN、StarGAN、iGAN |
特徴 | テキストから画像を自由に生成できる | 画像のスタイルを変更したり、新しい画像を生成したりするのに使用できる |
課題 | 生成される画像の品質が安定しないことがある | 生成される画像の品質がテキストから画像を生成するサービスに比べて劣ることがある |
テキストから画像を生成する
例えば「犬がボールを追いかけている画像」や「青い空と白い雲が見える画像」などと入力してお願いすると指定の画像生成をしてくれます。
Midjourneyはトランプ大統領のフェイク画像を作った事で有名です。
他にもコンテストで1位をとって話題になってましたね。
OpenAIのDALL-E 2は2023年4月6日以前にOpenAIの会員になっている場合はお試しで生成する事が出来るので試してみてください。
画像から画像を生成する
例えば「青空の画像」を「青空を雨雲の画像にして」とお願いすると雨雲の画像を生成するといったイメージです。
自分がこの分野に知見が無くて有名どころはわからなかったので紹介程度になります。
最近だとAdobeがFireflyというサービスをリリースしています。
Canvaも似たような事をやっています。
音声
音声生成AIは2パターンあります。音声認識と音声合成の2パターンです。
音声認識のサービスは会議や電話の文字起こしをしてくれるのがメインのようです。
項目 | 音声認識 | 音声合成 |
---|---|---|
提供形態 | クラウド型、オンプレミス型 | クラウド型、オンプレミス型 |
用途 | 会議の議事録作成、コールセンター業務、音声検索など | ナレーション、音楽、音響効果など |
代表的なサービス | もじこ、Notta.、AmiVoice Cloud Platform、AI 議事録 | Amazon Polly、Google Cloud Text-to-Speech、DeepMind WaveNet |
特徴 | 高い認識精度、さまざまな言語に対応 | 人間の声に近い音声を生成 |
課題 | 高価な場合がある | 大量の学習データが必要 |
Bardの回答にはなかったですが、音声認識で有名といえばWhisperですね。
上記の表で上がっているものでwhisperの文字起こしの能力を活用して登場したサービスもいくつかあります。
音声合成といえばちょっと前に岸田首相の偽動画で話題になりましたが、こちらの動画内のアナウンサーの音声は実在するアナウンサーの声を合成したのようです。
まだ違和感はありますが、これがどんどん進化していって5年後とかにはAIが作ったものか判断できなくなってくる時が来ると思うとちょっと怖いですね。
会議を聞きながら議事録を取るというのはが苦手で、どちらかにしか集中できないのでこういったサービスが生まれたのは本当に嬉しいです。
動画
この分野は文章や音声に比べるとまだ情報が少なかったです。
動画AIにも2パターンあるようでテキストから動画を生成するものと動画から動画を生成するものです。
今年話題に上がったのはNVIDIAのAIです。
PictoryAIが動画から動画を作れるみたいです。
Canvaも対応してた。Canvaすごい!
プログラムコード
既存コードから読み取って補完してくれたり、実装したいものを先にコメントに書くことで意図を読み取りながら補完してます。
生成AI全般に言えることですがAI側で完璧なものを作ってくれるのではなく、あくまでも大枠を作ったものを人間が手作業で修正して成果物に向かって一緒にやるものです。
0から100を全部人間がするのではなく、40〜60ぐらいのものをAIが土台として作ってくれるイメージです。
GitHub Copilot
みんな大好きGithubから出ているAIです。
Codey
Google製 使ったことがない
あまり話題に上がっていないですね。日本だけなのか?
CodeWhisperer
Amazon製 こちらも使った事がない。
ちょうどアドカレで所感を紹介しています!JetBrains AI
いつもお世話になっているJetBrainsが作ってるやつ。
気になったので、登録したもののwaitingListに入ったままなので使用感がわからず。
その他
ちょっと面白いなと思ったのがD-IDというサービス。
人物の写真からアバターを生成する事が出来るみたいで、精度が上がれば動画に自分自身のアバターを登場させる事も出来るかもしれない。音声から話し方まで学習させることが出来れば、自分の分身をバーチャル世界に作ることが可能になると思うと、近未来的な感じがしてワクワクしませんか?
まとめ
一通り調べてみて思ったのが大手はほとんどAIを取り入れてますね。
今回挙げてはいないものでいうとNotionAI・MiroAI・FigmaAIといった普段使っているサービスからもどんどん独自AIの開発が進んでいることがわかりました。
数年後には自社プロダクトにAIを取り込むというのは価値ではなく当たり前になっていそうな気もしています。
そのためにはAIの事をもっと知らなきゃですね。
今回はサービスの紹介でしたが、次回は「生成AIの得意・不得意な領域の話」をしようと思います。
では!
Discussion