2022年8月、Stability AIがテキストから画像を生成するAIモデル「Stable Diffusion 1.0」を公開。これまでテキスト中心だったAI分野に大きな衝撃を与えた。高性能なサーバーを使わずとも、個人のPC上で高品質な画像を生成できるという事実は、多くのクリエイターに強いインパクトを残した。
ただし当時は、要求されるマシンスペックが高く、環境構築にも技術的な知識が必要だった。そのため「面白そうだが難しそう」と感じて、実際に導入するまでには至らなかった人も少なくない。
しかし、その状況は次第に改善していく。2023年7月にStability AIが公開した「Stable Diffusion XL(SDXL)1.0」によって、1024×1024ドットの高解像度画像生成が実現。12GBのVRAMを搭載したGPU(RTX 4070クラスなど)があれば、安定して実用的に利用できるレベルに到達した。
さらに2024年8月には、Black Forest Labsが開発した新モデル「FLUX.1」が登場。画質や構図の安定性が大幅に向上し、量子化モデル(8bit版など)の登場によって、8GB VRAM環境でも十分な性能で画像生成ができるようになった。
また2024年10月には、Stability AIによるブラウザベースの統合ツール「Stability Matrix」や、ComfyOrgが開発したPython環境構築不要の「ComfyUI Desktop」など、導入の手間を大幅に軽減するツールが登場したのも大きい。
こういった経緯を踏まえ、この記事では、2025年11月時点の主要な画像生成モデルとツール、そして、ライセンスの最新動向を整理する。画像生成AIに関心がある読者にとって、比較の一助となれば幸いだ。
ローカル画像生成のメリット
まず、画像生成AIには、「Midjourney」やOpenAIの「DALL-E 3」、そして最近ではGoogleの「Nano Banana」のようなクラウドサービスと、Stable Diffusionのようなローカル実行型がある。後者のローカル環境で動かす方式には、明確なメリットがいくつもある。
完全無料・無制限
まず、一度環境を構築すれば、生成回数の制限はない。クラウドサービスのような月額課金や従量課金を気にする必要がなく、自由に試行を重ねられる。
プライバシーの確保
生成した画像はすべて自分のPC内に保存される。クラウドにアップロードする必要がないため、社内資料や個人制作など、外部に出せないデータの扱いにも安心して利用できる。
カスタマイズの自由度
モデルの選択、LoRAモデルの追加や学習、ControlNetによる構図制御など、生成プロセスを細かく調整できる。自分の目的や作風に合わせて環境を最適化できるのは、ローカル環境ならではの魅力だ。
検閲のない生成環境
クラウドサービスでは一部のテーマや表現が制限される場合があるが、ローカル環境ではそうした制約を受けない。芸術的・実験的なテーマを含め、幅広い表現を自由に試すことができる。
オフライン動作
必要なモデルをあらかじめダウンロードしておけば、インターネット接続がなくても動作する。通信状況に左右されず、安定して作業できる点も大きな利点だ。ただし、GPUを搭載したPCが必要になることは理解しておく必要がある。
ベースモデルと派生モデル(チェックポイント)
画像生成AIで最も重要なのが「モデル」だ。モデルとは、大量の画像データを学習したAIの「脳」にあたるもので、このモデルによって生成される画像の品質やスタイルが大きく変わる。
ベースモデルとチェックポイントの違い
モデルについて説明する前に、混乱しやすい用語を整理しておこう。
ベースモデル(Base Model)は、Stability AIなどの公式組織がリリースする基盤となるモデルだ。Stable Diffusion 1.5、SDXL 1.0、FLUX.1などがこれにあたる。
チェックポイント(Checkpoint)は、ベースモデルを元に追加学習や調整を加えた派生モデルを指す。例えば写実系に特化したモデルや、アニメ調のイラスト生成に特化したモデルなど、特定の用途向けに最適化されたものが数多く存在する。
これらの派生チェックポイントは「CivitAI」などのコミュニティプラットフォームで無料公開されており、誰でもダウンロードできる。ただし、派生モデルは有志が独自に作成・公開しているものであり、品質や安全性は作者によって異なる点に注意が必要だ。
本記事では、主要なベースモデルを中心に解説していく。
作例比較用プロンプト
以下、3つのモデルで同じプロンプトを使用した比較画像を掲載する。
プロンプト(アニメ系):a cheerful anime-style girl standing in a sunny rural landscape, both hands making peace signs, short wavy black hair, purple eyes, wearing a loose white T-shirt with "ASCII.jp" logo and black shorts, vivid summer sky with big white clouds and green rice fields, bright lighting, detailed background, masterpiece, high quality, 4k
プロンプト(実写系):portrait of a smiling young Japanese woman standing in a busy city crosswalk, wearing a black beanie and black jacket, soft sunlight, realistic lighting, shallow depth of field, cinematic street photography style, vivid colors, detailed face, Tokyo Shibuya background, masterpiece, high quality, 4k

この連載の記事
-
第33回
AI
初心者でも簡単!「Sora 2」で“プロ級動画”を作るコツ -
第32回
AI
【無料】動画生成AI「Wan2.2」の使い方 ComfyUI設定、簡単インストール方法まとめ -
第31回
AI
“残念じゃない美少女イラスト”ができた! お絵描きAIツール4選【アニメ絵にも対応】 -
第30回
AI
画像生成AI「Midjourney」動画生成のやり方は超簡単! -
第29回
AI
創作のプロセスを激変させる画像生成AI「Midjourney V7」の使い方 ドラフトモード、パーソナライズ機能に大注目 -
第28回
AI
ローカル動画生成AIの革命児「FramePack」の使い方 -
第27回
AI
【解説】Geminiの画像生成がすごい 無料で使えるうちに試してみて -
第26回
AI
人気の画像生成AIツール「ComfyUI」デスクトップアプリがめっちゃラク 初心者にオススメ -
第25回
AI
業界トップ級の画像生成AIツール「Recraft」 Adobeユーザーは体験する価値あり -
第24回
AI
SD3.0の汚名返上なるか?!画像生成AI「Stable Diffusion 3.5」を試してみた - この連載の一覧へ






