ControlNetとは?画像生成AIの構図・ポーズ制御テクニック

ControlNetとは?画像生成AIの構図・ポーズを自在に制御する技術

AIを知りたい

先生、Stable Diffusionで狙った構図の画像を作りたいんですが、プロンプトだけだとなかなか思い通りにならないんです。

AIエンジニア

それならControlNetを使うといいよ。ControlNetは、生成する画像の構図やポーズ、輪郭などを参照画像で指定できる技術なんだ。例えば、人のポーズを棒人間の図で指定したり、部屋のレイアウトを線画で指定したりすると、その条件に合った画像が生成されるよ。

AIを知りたい

棒人間で指定できるのは面白いですね!他にどんな条件を指定できますか?

AIエンジニア

いくつかのプリプロセッサがあって、Cannyエッジ検出で輪郭線を指定、OpenPoseで人体のポーズを指定、Depth推定で奥行き情報を指定、Scribble(落書き)で大まかなラフ画を指定、といった使い方ができるよ。プロのイラストレーターも構図の制御にControlNetを活用しているんだ。

ControlNetとは。

人工知能に関わる言葉である「ControlNet」について説明します。Stable Diffusionなどの画像生成AIに対して、参照画像(エッジ検出、ポーズ、深度マップなど)を条件として与えることで、生成画像の構図やポーズを精密に制御する技術です。2023年にスタンフォード大学の研究者により提案されました。

ControlNetとは

ControlNetは、2023年にスタンフォード大学のLvmin Zhangらが発表した、画像生成AIの出力を条件画像で制御する技術です。テキストプロンプトだけでは困難だった構図、ポーズ、レイアウトの精密な指定を可能にし、画像生成AIの実用性を飛躍的に向上させました。

ControlNetの仕組みは、U-Netのエンコーダ部分のコピーを作成し、条件画像を処理するブランチとして追加するものです。元のU-Netの重みは凍結され、追加されたブランチのみが学習されるため、ベースモデルの品質を損なうことなく条件制御を追加できます。

主要なプリプロセッサ

プリプロセッサ 入力 制御内容 用途
Canny エッジ検出画像 輪郭・形状 キャラクターの形状維持
OpenPose 人体ポーズ推定 体のポーズ 特定ポーズの人物生成
Depth 深度マップ 奥行き・立体感 構図・パース維持
Scribble ラフスケッチ 大まかな構図 ラフ画からの清書
Lineart 線画抽出 細かい輪郭 線画の着色
Seg セグメンテーション 領域分割 インテリアデザイン
IP-Adapter 参照画像 スタイル・顔 キャラクター一貫性

実践的な活用方法

ControlNetは、プロの制作ワークフローでも広く活用されています。イラストレーターは3Dポーズソフトでポーズを決め、OpenPoseで画像生成することで、正確なポーズのキャラクターを効率的に制作できます。建築デザインでは、Depthマップで空間の奥行きを指定し、スタイルだけを変更して複数のデザイン案を素早く生成できます。

複数のControlNetを組み合わせて使用することも可能です。例えば、OpenPoseでポーズを指定しつつ、Cannyで顔の輪郭を維持するという組み合わせで、より精密な制御が実現できます。

まとめ

ControlNetは、画像生成AIを「使えるツール」に変えた革新的な技術です。テキストプロンプトの限界を超え、構図・ポーズ・レイアウトを参照画像で直接指定できるため、意図した画像を高い精度で生成可能になります。Stable Diffusionを本格的に活用するなら、ControlNetの習得は必須です。

関連記事