🖼️

Mac miniでローカル画像生成AI(Stable Diffusion Web UI)動かしてみた

に公開

はじめに

こんにちは!
株式会社BTMの畑です。

前回に続き「Mac mini」のローカル環境上でAIを動かしてみた話です。

↓前回はLLMを動かしてみました。

https://zenn.dev/b_tm/articles/4b612cf6ee506b

今回は画像生成AIを動かしてみます!

画像生成AIとは
  • テキストや他の画像を入力として受け取り、新しい画像を生成する人工知能技術のこと
  • 主にディープラーニングを活用し、大量の画像データを学習して、リアルな画像やアートを作成する
  • 代表例として、Stable DiffusionやDALL·Eなどがあり、クリエイティブ分野で活用されている

画像生成AI、皆さんも一度は耳にしたことがあるのではないでしょうか?
2025年12月1日時点でいうと「Nano Banana Pro」がヤバいと話題になっていますね。

クラウドのAIがどんどん進化していくのを追いかけるのも面白いですが、今回もローカル環境でのAI活用に目を向けていきたいと思います。

今回やってみること

ローカル環境で画像生成AIを動かすための「Stable Diffusion Web UI」の準備から、ローカル画像生成AIの動作確認、生成した画像の確認までをやってみます。

使用する「Mac mini」は前回と同じものです。

IMG_1.jpg

使用したMac miniのスペック
  • CPU:Apple M4 Pro(12コアCPU,16コアGPU)
  • メモリ:64GB
  • SSD:1TB

Stable Diffusionとは

Stable Diffusion」は、オープンソースで提供されている画像生成AIです。
プロンプト(テキスト入力)を使って、簡単に高品質な画像を生成できるのが特徴です。

主な特徴

  • 無料で利用可能: オープンソースなので、誰でも自由に使えます。
  • 高いカスタマイズ性: プロンプトやモデルを調整することで、さまざまなスタイルの画像を生成可能。
  • ローカル環境で動作: Mac miniのようなデバイスでも動かせるため、プライバシーを守りながら利用できます。

準備

まずは、Stable DiffusionのWebUIをMac miniで動かすための準備をします。

必要なもの

  1. Python環境
    • Homebrewを使ってインストールするのがおすすめです。
      • Homebrewの導入については公式ページ 等を参考にしてください。
  2. Git
    • Stable Diffusion Web UIのリポジトリをクローンするために必要です。
  3. Stable Diffusion Web UIのリポジトリ
    • GitHubからクローンします。
  4. Stable Diffusionのモデルファイル
    • Hugging Faceからダウンロードします。

セットアップ手順

早速、Stable Diffusion WebUIをセットアップしていきます。

1. Python仮想環境の構築

仮想環境を利用することで、ローカル環境を汚さずに必要なライブラリをインストールできます。
以下の手順で仮想環境を作成していきます。

  1. Pythonをインストールした後、以下のコマンドで仮想環境を作成します。
python3 -m venv macmini-stable-diffusion-webui

IMG_2.png

  1. 仮想環境を有効化します。
source macmini-stable-diffusion-webui/bin/activate

仮想環境が有効になると、ターミナルのプロンプトに仮想環境名(例: (macmini-stable-diffusion-webui))が表示されます。

IMG_3.png

IMG_4.png

2. WebUIリポジトリのクローン

Stable Diffusion Web UIのリポジトリをGitHubからクローンします。

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

IMG_5.png

3. 必要なライブラリのインストール

仮想環境を有効化した状態で、以下のコマンドを実行して必要なライブラリをインストールします。

pip install --upgrade pip
pip install -r requirements.txt

IMG_6.png

4. モデルファイルのダウンロード

Hugging Faceの公式サイトからStable Diffusionのモデルファイル(例: stabilityai/stable-diffusion-xl-base-1.0)をダウンロードします。

Hugging Faceとは
  • Hugging Faceは、自然言語処理(NLP)や画像生成などのAIモデルを提供するプラットフォームおよびコミュニティです。
  • オープンソースのライブラリ(例: Transformers)や、モデル共有のためのモデルハブを提供します。
  • 開発者や研究者がAIモデルを簡単に利用・共有できる環境を整え、AIの民主化を目指しています。

今回は「stabilityai/stable-diffusion-xl-base-1.0」を利用します。

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Stability AIとは
  • 「Stability AI」は、生成AI技術の開発と普及を目指すイギリス拠点の企業です。
  • 代表的なプロジェクトが、オープンソースの画像生成モデル「Stable Diffusion」です。
  • 今回使用するモデル「Stable Diffusion XL」は、高解像度で詳細な画像生成を可能にする最新モデルで、研究やクリエイティブ用途に活用されています。

IMG_7.png

Filesへ移動します。

IMG_8.png

.safetensors形式のsd_xl_base_1.0.safetensorsをダウンロードします。

IMG_9.png

IMG_10.png

5. WebUIの起動

以下のコマンドを実行してWebUIを起動します。

python launch.py --no-half --precision full --skip-torch-cuda-test
Metal APIとは
  • Metal APIは、Appleが提供する高性能なグラフィックスおよび計算処理のためのフレームワークです。
  • GPUを直接操作することで、ゲームや3Dレンダリング、機械学習などの高速処理を実現します。
  • macOS、iOS、iPadOSなどApple製デバイス専用に最適化されています。

起動後、ターミナルに表示されるURL(例: http://127.0.0.1:7860)をブラウザで開くと、WebUIが利用可能になります。

IMG_11.png


画像生成してみる

セットアップが完了したら、WebUIを使って画像を生成してみましょう!
以下の手順で試してみてください。

  1. ブラウザでWebUIを開きます。
  2. プロンプト(生成したい画像の指示)を入力します。
  3. 必要に応じて設定を調整し、「Generate」ボタンをクリックします。
  4. 生成された画像をダウンロードして保存します。

プロンプトとネガティブプロンプトの活用

画像生成の品質を向上させるためには、プロンプトとネガティブプロンプトを適切に活用することが重要です。

プロンプトとは

プロンプトは、生成したい画像の内容をテキストで指定するものです。具体的な指示を与えることで、モデルが意図に沿った画像を生成しやすくなります。

ネガティブプロンプトとは

ネガティブプロンプトは、生成画像に含めたくない要素を指定するものです。これを活用することで、不要な要素を排除し、より意図に沿った画像を生成できます。

ネガティブプロンプトの例1

"blurry, low quality, pixelated, bad anatomy, extra limbs"
  • 意味: ぼやけた画像や低品質、ピクセル化、解剖学的に不自然な部分(例: 余分な手足)を排除する

ネガティブプロンプトの例2

"cluttered, messy, dark lighting, low resolution"
  • 意味: 散らかったり暗い照明、低解像度の画像を避ける

プロンプトとネガティブプロンプトを組み合わせることで、より意図に沿った画像を生成できます。


実際に画像生成してみた結果

サンプル1: IT企業のオフィス風景

"A modern IT company office with open workspaces, sleek desks, laptops, potted plants, bright natural lighting, and a collaborative atmosphere"
  • 意味: モダンなIT企業のオフィスをイメージしたプロンプトです。オープンな作業スペース、洗練されたデスク、ラップトップ、観葉植物、明るい自然光、協力的な雰囲気を指定しています。

プロンプトとネガティブプロンプトを入力して「Generate」ボタンをクリックすると、ぼやっとした画像が生成され始めました。

IMG_12.png

少しずつ輪郭が鮮明になってきます。

IMG_13.png

そして完成したのがこちら。

IMG_14.png

画像をダウンロードするとこんな感じです。

IMG_15.png

人工物の多いプロンプトだったこともあり、画像の質としては違和感ありますね^^;
別プロンプトも試してみましょう。

サンプル2: 生成AIのロボットが働く風景

"A futuristic AI robot working in an office, surrounded by glowing holographic screens, modern furniture, and a high-tech environment with bright lighting"
  • 意味: 近未来的なAIロボットがオフィスで働くシーンを表現しています。ホログラフィックスクリーン、モダンな家具、ハイテクな環境、明るい照明を強調しています。

IMG_16.png

こういった雰囲気の画像だと違和感が軽減できそうです

IMG_17.png

サンプル3: 山の上のファンタジーな城

更にファンタジーに寄せてみます。

"A majestic fantasy castle perched on top of a towering mountain, surrounded by misty clouds, glowing lights emanating from the windows, intricate architectural details, and a vibrant sunset in the background, mystical and enchanting atmosphere"
  • 意味: 山の上にそびえ立つファンタジーな城をイメージしたプロンプトです。霧に包まれた雰囲気や窓から漏れる光、建築の細部、背景の夕焼けなどを具体的に記述しています。

IMG_18.png

だいぶ良くなりました。
こういった幻想的な画像は作りやすそうですね。

19.png

サンプル4: 森の中に鎮座する巨大なクスノキ

自然系は作れそうなので植物をメインにした画像生成を試してみます。

"A massive camphor tree standing majestically in the middle of a dense forest, surrounded by lush greenery, soft sunlight filtering through the leaves, intricate details on the tree bark, roots spreading widely across the forest floor, serene and mystical atmosphere"
  • 意味: 森の中に鎮座する巨大なクスノキをイメージしたプロンプトです。木の細部や光の描写、神秘的な雰囲気を強調しています。

IMG_20.png

良いかんじですね。

IMG_21.png

ちなみに、同じプロンプトであっても生成し直すと別の画像を生成します。

IMG_22.png

IMG_23.png

サンプル5: SNSのプロフィール画像

XなどのSNSで見かけるイケてるビジネスマンっぽい画像も生成してみましょう。

"A confident and stylish businessman wearing a tailored suit, standing in front of a modern office building, sharp facial features, well-groomed hair, professional and approachable expression, soft natural lighting, highly detailed, professional portrait style"
  • 意味: 自信に満ちたスタイリッシュなビジネスマンをイメージしたプロンプトです。スーツや背景、表情などを具体的に記述し、SNSのプロフィールアイコンに適した仕上がりを目指しています。

IMG_24.png

それっぽいのが生成できました。
画像はそれぞれ単独でも生成されているので、一度に複数生成して気に入った画像のみ保存することも可能です。

IMG_25.png

ビジネスでの活用

サンプルでいくつか画像を生成してみました。

  • プレゼン資料: 背景画像やアイコンとして利用
  • 記事やブログ: 挿絵やアイキャッチ画像として活用
  • SNS投稿: 視覚的に目を引く画像を作成

などなど、アイデア次第で色々な活用できそうです!


日本語プロンプトについて

Stable Diffusionでは、日本語のプロンプトを使用することも可能ですが、モデルが主に英語でトレーニングされているため、英語のプロンプトを使用する方が安定した結果が得られます。日本語プロンプトを使用する場合は、翻訳ツール(例: DeepLやGoogle翻訳)を活用して英語に変換することをおすすめします。


商用利用についての注意点

1. モデルのライセンスを確認

  • Stable Diffusion XLは、CreativeML Open RAIL-Mライセンスで提供されています。このライセンスでは、商用利用が許可されていますが、以下の制限があります:
    • 違法行為や有害な目的での使用は禁止されています。
    • 特定の個人や団体を中傷する目的での使用は禁止されています。
  • ライセンス詳細は、モデルページのライセンス箇所やライセンスファイルで確認できます。
CreativeML Open RAIL-Mライセンスとは
  • CreativeML Open RAIL-Mライセンスは、生成AIモデル(例: Stable Diffusion)の利用に関する制約を定めたライセンスです。
  • 商用利用を含む幅広い用途を許可しつつ、不正利用(違法行為や有害な生成物)を禁止しています。
  • ユーザーに倫理的な責任を求め、AI技術の安全で公平な利用を促進することを目的としています。

2. 生成画像の著作権

  • 生成された画像の著作権は、使用するモデルやプロンプトに依存する場合があります。
  • 特定のアートスタイルやキャラクターに似た画像を生成した場合、元の著作権者からクレームを受ける可能性があります。

3. 商標やブランドに関する注意

  • 生成画像に特定のブランドロゴや商標が含まれる場合、それを商用利用すると法的な問題が発生する可能性があります。
  • 商標やブランドに関連する要素を含む画像を生成する際は、十分に注意してください。

4. 利用規約の遵守

  • Hugging Faceやモデル提供者の利用規約を遵守してください。
  • 特に、生成画像を再配布する場合や、画像を販売する場合は、利用規約に違反しないように注意が必要です。

WebUIの終了方法

Stable Diffusion Web UIを終了するには、以下の手順を実行してください。

1. ターミナルでの終了

WebUIを起動しているターミナルで以下のキーを押します

Ctrl + C

これにより、WebUIのプロセスが停止します。


2. 仮想環境を無効化

WebUIを終了した後、仮想環境を有効にしている場合は、以下のコマンドで仮想環境を無効化します。

deactivate

3. ターミナルを閉じる

仮想環境を無効化した後、ターミナルを閉じても問題ありません。


おわりに

今回は「Mac mini」のローカル環境で画像生成AI「Stable Diffusion Web UI」を動かしてみて、何ができるのかを見てきました。

ローカルでも手軽に画像生成できました

独立型グラフィックボードを搭載していないMac miniのローカル環境でも画像生成が動くのはワクワクしますねー!
クラウドAIと異なりリクエスト数やトークン数などの制限を気にせず、気軽に画像生成できるのは良いですね。

手軽な分の注意点も

手軽に画像生成できますが、Stable Diffusionを商用利用する際には、ライセンスや著作権に関する注意点を十分に理解した上で利用してください。
法的なリスクを回避し、安全に活用していきましょう。


以上、Mac miniでStable Diffusion Web UIを利用する方法について解説しました。

次回は、音楽生成か動画生成にチャレンジしてみようと思います。お楽しみに!


Discussion