画像生成AIと今無料で利用できるサービスについて調べてみる
はじめに
今回は画像生成AIを利用するには、今どんな方法があるかについて調べてみたいと思います。
画像生成AIとは
画像生成AIは、テキストや簡単な指示に基づいて、新しい画像を生成する人工知能技術です。
従来の画像編集ソフトとは異なり、ゼロから画像を作り出すことができることが特徴です。
仕組み
大きく2つのステップがあります。
- 学習: 画像生成AIは、膨大な数の画像データから学習します。このデータには、風景、人物、物体など、様々な種類の画像が含まれます。
- 生成: 学習済みのモデルに基づいて、テキストや簡単な指示に基づいて新しい画像を生成します。
活用シーン
- アート: 絵画やイラストなどの創作活動に利用できます。
- デザイン: ロゴやポスターなどのデザイン制作に利用できます。
- エンターテイメント: ゲームやアニメーションなどのコンテンツ制作に利用できます。
- ビジネス: 商品画像や広告画像などの制作に利用できます。
まだ発展途上の技術ですが、今後さらに進化していくことで、
私たちの生活や仕事に大きな変化をもたらすことが期待されていることもあり
今回は、以下の画像生成AIについて調べてみます。
- DALL-E3
- imagen2
- Stable Diffusion
DALL-E3
OpenAIによって開発された画像生成AIです。
テキストや簡単な指示に基づいて、リアルで高品質な画像を生成することができます。
従来の画像生成AIよりも、より詳細な指示を理解し、より複雑な画像を生成することができます。
特徴
- リアルな画像生成: 写真と見分けがつかないほどのリアルな画像を生成することができます。
- 詳細な指示への対応: 細かい指示を理解し、それに応じた画像を生成することができます。
- 複雑な画像生成: 複数のオブジェクトや人物を含む複雑な画像を生成することができます。
- 商用利用可能: 商用利用が可能です。
利用するには
ChatGPTでは有料プランのみDALL-E3が解放されていますが、
micorsoftのimage creator from designer を使用すれば
無料でDALLE-3を使用することができます。
ただしimage creator from designerで生成した画像を
商用利用する場合はChatGPT Plus(有料)への加入が必要となります。
例えば「犬の絵を描いて」と入力すると以下のように作成してくれます。
imagen2
Google社が提供している画像生成AIの新モデルです。
先代のimagenから大幅に進化していると言われています。
先行リリースされていたOpenAIのDALL-E2よりも高パフォーマンスを出力したことなどが報告されています。
特徴
- 画質: より高画質な画像を生成することができます。
- リアルさ: よりリアルな画像を生成することができます。
- 表現力: より表現力豊かな画像を生成することができます。
- 速度: より高速に画像を生成することができます。
利用するには
google geminiから無料で利用することができます。
ただし日本語にはまだ対応していないので英語で指示を出す必要があります。
例えば「Drawing a picture of dog」と入力すると以下のように作成してくれます。
googleの画像生成AIサービス
日本からではまだ利用できませんがimagen2モデルを利用したサービスがアメリカで公開されました。
そのうち日本からも利用できるようになると思います。
追記(20240520)
日本での提供も開始されていました
Stable Diffusion
stability.ai社によって2022年に公開されたOSSの画像生成AIです。
テキストや簡単な指示に基づいて、リアルな画像を生成することができます。
詳細な指示を理解し、複雑な画像を生成することができます。
特徴
- リアルな画像生成: 写真と見分けがつかないほどのリアルな画像を生成することができます。
- 詳細な指示への対応: 細かい指示を理解し、それに応じた画像を生成することができます。
- 複雑な画像生成: 複数のオブジェクトや人物を含む複雑な画像を生成することができます。
- 無料利用可能: 無料で利用することができます。
- 商用利用: 生成に利用するモデルによって規約が異なるのでしっかり確認してください。
利用するには
WEBサイト
以下がメジャーだと思います。
登録なしですぐに利用できるものもあるので試してみたい方はこの方法が一番簡単だと思います。
有料プランがあるのものも含みます。
自分で構築
ローカル環境やGoogle Colaboratoryで利用したい方は
GitHubで公開されているコードを利用できます。
docker
docker desktopで起動する場合は
メモリ16GB、GPU12GB程度が推奨されているのでPCのスペックによっては起動するのは難しいかもしれません。
サードパーティアプリ
MochiDiffusion
M1以降のMacで利用可能なGUIツールです。
モデルは自分でダウンロードしてくる必要がありますが、比較的簡単に導入できます。
モデルダウンロード
coreml版が必要です。
MochiDiffusionのモデル管理フォルダに格納してください。
Draw Things
MacやiOS端末で利用可能なアプリです。
こちらのほうが導入は簡単かもしれません。
モデルも選択するだけでダウンロードできます。
さいごに
画像生成AIを利用してエンジニアリングビジネスに装着できたらなと思うので
これからも動向を注視していこうと思います。
Discussion