拡散モデルとは?画像生成AIを支えるDiffusion Modelの仕組み

AIを知りたい
先生、Stable DiffusionやDALL-Eで使われている「拡散モデル」って、どういう仕組みなんですか?

AIエンジニア
拡散モデルは、2020年頃に登場した画像生成の革新的な手法だよ。アイデア自体はとてもシンプルで、「画像にノイズを少しずつ加えていって完全なノイズにするプロセス」を学習し、その逆のプロセス「ノイズから少しずつ画像を復元する」を実行して画像を生成するんだ。

AIを知りたい
ノイズから画像が作れるなんて不思議ですね。GANとはどう違うんですか?

AIエンジニア
GANは生成器と識別器の2つのネットワークを対戦させて学習する方法だけど、学習が不安定になりやすいという問題があった。拡散モデルは学習が安定していて、より多様で高品質な画像を生成できるんだ。2022年以降、画像生成の主流はGANから拡散モデルに完全に移行したよ。
拡散モデルとは。
人工知能に関わる言葉である「拡散モデル(Diffusion Model)」について説明します。データにノイズを段階的に付加するフォワードプロセスと、ノイズを段階的に除去して画像を生成するリバースプロセスからなる生成モデルです。Stable Diffusion、DALL-E、Midjourneyなど、現代の画像生成AIの中核技術です。
拡散モデルとは
拡散モデル(Diffusion Model)は、ノイズの付加と除去を通じて高品質な画像を生成する深層生成モデルです。2020年にDDPM(Denoising Diffusion Probabilistic Models)として提案され、2022年以降、Stable Diffusion、DALL-E、Midjourneyなどの画像生成AIの中核技術として広く使われています。
拡散モデルの基本的なアイデアは非常にシンプルです。フォワードプロセス(拡散過程)では、きれいな画像に対してガウスノイズを段階的に加えていき、最終的に完全なランダムノイズにします。リバースプロセス(逆拡散過程)では、ニューラルネットワークを使ってノイズを段階的に除去し、ランダムノイズから元の画像(新しい画像)を復元します。
GANとの比較
拡散モデルが登場する前は、GAN(敵対的生成ネットワーク)が画像生成の主流でした。
| 項目 | 拡散モデル | GAN |
|---|---|---|
| 学習の安定性 | 非常に安定 | 不安定(モード崩壊等) |
| 生成品質 | 非常に高い | 高い |
| 多様性 | 高い | 限定的な場合がある |
| 生成速度 | 遅い(多ステップ) | 速い(1ステップ) |
| テキスト制御 | 優れている | 困難 |
潜在拡散モデル(LDM)
潜在拡散モデル(Latent Diffusion Model / LDM)は、Stable Diffusionで採用されている手法で、画像空間ではなくVAEで圧縮された潜在空間上で拡散過程を実行します。512×512の画像(786K次元)を64×64の潜在表現(4K次元)に圧縮してから拡散モデルを適用することで、計算コストを約50分の1に削減しました。
この効率化により、一般的なGPU(RTX 3060以上)でも画像生成が可能になり、画像生成AIの普及に大きく貢献しました。
Diffusion Transformer(DiT)
最新の拡散モデルでは、U-Netの代わりにTransformerをノイズ除去ネットワークとして使用するDiT(Diffusion Transformer)アーキテクチャが注目されています。Stable Diffusion 3、Sora(動画生成)、Fluxなどで採用されています。
DiTは、Transformerのスケーリング性能の良さを活かし、モデルサイズと計算量の増加に比例して生成品質が向上する特性があります。今後の画像・動画生成AIの主流アーキテクチャになると予想されています。
まとめ
拡散モデルは、ノイズの付加と除去という直感的な原理で高品質な画像を生成する技術です。学習の安定性、生成品質の高さ、テキスト制御の容易さから、GANに代わって画像生成の主流技術となりました。潜在拡散モデルによる効率化とDiTによるスケーリングにより、今後も画像・動画生成AIの進化を支える中核技術であり続けるでしょう。
