スタジオ真榊

「Qwen-Image-Edit-2511」徹底検証　NSFWの実力は？ローカル画像編集最前線

Added 2025-12-29 00:07:53 +0000 UTC

こんばんは、スタジオ真榊です。今回は、ローカル環境で動く画像編集モデル「Qwen-Image-Edit-2511」の検証記事です。NanoBananaのように、参照させた画像を自然言語指示で変更できる最新モデル。一つ前のバージョン「2509」からどのように進化したかを各種検証で比較しました。

結論から言って、全体的な実力ではNanoBananaProに及ぶべくもないのですが、着実に力をつけてきており、従来はLoRAが必要だったアングル変更などもLoRA適用なしでできるようになりました。また、NSFW用途のLoRAを適用することで、ある程度成人向けの画像編集を行うことも可能になってきています。

既に軽量なGGUFモデルが流通しているので、VRAM12GBあたりからローカルで動かすことが可能です。よってエントリーモデルのRTX3060でも動かせますが、できればVRAM16GBのグラボがほしいところ。ローカル環境構築、生成方法、LoRA適用のやり方、気になるNSFW用途の実力といった点を、約1万4000字で検証しています。

前バージョン「2509」が出た際に検証した特集はこちらです。今回の記事と見比べると、2509と2511の違いが分かるかと思います。

「Qwen-Image-Edit-2509」導入＆検証　ローカル版NanoBananaとして使える？NSFW検証も

こんばんは、スタジオ真榊です。今回はローカル環境で動作する中国Alibabaの画像編集モデル「Qwen-Image-Edit-2509」の検証記事です。NanoBananaやSeedream4.0、NovelAIの「キャラ参照」など、一貫性を保った画像編集がどんどんレベルアップしている中、じわじわと存在感を出してきている最新モデル。導入方法から実力検...

「Qwen-Image-Edit-2511」とは

Qwen-Image-Edit-2511は、2025年12月23日に中国Alibabaがリリースした「Qwen-Image-Edit」シリーズの最新バージョン。参照させた画像を「これをこうして」式の自然言語指示で変化させられる画像編集モデルで、複数画像の編集機能とキャラクターなどの一貫性保持力が強化されています。

(frame embed)

商用利用などが可能な「Apache2.0」ライセンスでオープンソースとして公開されているので、ローカル環境で無料かつ自由に動かせるのが最大のメリット。他のユーザーが学習させたLoRAを使ってより思った通りの変化を加えたり、NanoBananaのように拒絶される心配なくNSFW画像を編集したりすることができます（ただし、モデル自体にはNSFW知識がほぼないので追加学習が必要）。

・前モデル「2509」との違いは？

こちらの画像は、2511ではなく前モデル「Qwen-Image-Edit-2509」でカメラ位置変更LoRAを使い、アングル変更を指示したものです。この時点でけっこう上手にキャラクターの特徴を維持できていましたが、2511はここからどのように性能が向上したのでしょうか。

公式によると、2509から2511になって進化した主なポイントは以下の通り。

・「複数人物の一貫性保持」

2509は単独の被写体の一貫性保持を得意としていましたが、2511では複数のキャラクターの容姿をより正確に維持できるようになったとしています。（ただし、入力できる画像は3枚まで）

・「LoRAの内蔵化」

照明強化LoRAやアングル変更LoRAといったユーザーが追加学習させた人気LoRAをメインモデルに統合しており、いちいちそれらを適用しなくても、2511モデル単独で思った通りに照明やアングルを変更できます。

・「工業デザインの精度向上」

画像生成AIは、椅子や楽器、車、家電など、工業的なデザインの物体を描くのが苦手です。例えばポルシェを生成しようとすると、なんとなく概念の混じったスポーツカーが出てきがちですが、2511ではそうした工業デザイン再現の精度が向上しているとのこと。また、文字スタイル（フォント）の一貫性を保ったり、補助線を引いて解くような数学の図形問題が解答できるようになったりしているそうです。（あんまり使わなそうですが）

・「ドリフト現象」抑制

プロンプトで指示していない部分まで変化してしまう「ドリフト現象」が以前より起こりにくくしたとのこと。

このほか、体感ですが、2509では創造的な指示をしたときに淡い水彩調になりやすかったのが、ある程度改善したように感じます。

前モデルと同様、こちらの「Qwen Chat」で2511の性能を体験することができますので、さっそくどのような進化を遂げたか試してみましょう。

(frame embed)

・QwenChatで2511を体験するには

Googleアカウントなどでログインしたら、マルチモーダルモデルの「Qwen3-Max」が選択されていることを確認し、チャット入力画面下の「Image Edit」ボタンを押します。このような画面になるので、あとは画像を入力して指示を入れるだけ。GeminiやChatGPT上での画像生成と同じですね。

例えばこのような感じで、「このキャラクターの3面図を描いてください」と指示すればOK。QwenChatでは生成速度を最適化しているそうで、ローカルで生の2511モデルを動かしたときとは精度などが異なるそうですが、十数秒程度で画像が生成されました。（※残念ながら、VRAM16GBのローカルマシンでこの速度と精度は出ません）

左が入力画像、右が出力結果です。おおむね問題なく指示通りのことができているように見えます。キャラクターデザインの一貫性も、完璧とまではいきませんが、NanoBananaProと同等かそれ以上に維持できている印象です。

ただ、生成結果には、「入力画像の解像度が大きすぎたため、編集した画像はダウンスケールされています（The input image was too high in resolution, so the edited image has been downscaled.」とのメッセージが出ており、864x1216pxサイズとかなり小さめのサイズで出力されていました。（入力画像は1024x1408px）

他にもいろいろ試してみましょう。左が入力画像、右が出力結果です。

指示：「白黒の線画にして」

指示：カメラを45度左に回転して。

指示：「女の子にぬいぐるみを抱かせてください。」（こちらの2枚を入力）

生成結果：

指示：背景を消して。

おおむね、NanoBananaProやSeedream4.5といった最近の画像編集モデルなら可能な編集ができているように見えますね。特に、2509だとLoRAがないと安定してできなかったアングル変更がモデル単体でできるようになったのはありがたいポイント。

ただ、複数人の一貫性保持が得意としている割には、「入力画像は3枚まで」とされており、一貫性保持力にもそこまでのパワーは感じられませんでした。

NanoBananaProは最大14枚までの画像を入力可能で、5人までのキャラクター容姿を一貫性保持できましたが、正直そこまでのパワーは期待しないほうが良いでしょう。

　　▲参照人数が増えると一貫性は失われがち。特に画風が異なる場合は顕著

Qwen-Image-Edit-2511をローカル導入しよう

ここからは、Qwen-Image-Edit-2511をローカル環境で動かすための解説です。2509のときと同様、

①EasyWan22を提供されているZuntanさん（@Zuntan03）によるComfyUIかんたん導入セット「SimpleComfyUI」を使って導入する方法

②画像生成系webUIの統合導入アプリ「StabilityMatrix」で導入する方法

ーの２つがあります。SimpleComfyUIは記事執筆時点で2511に対応していないのですが、2509用にインストールした方は2511版の「メインモデル」「専用高速化LoRA」を追加DLするだけですぐに使うことができます。

こちらの記事の該当部分を読んで、①か②いずれかの方法でローカル環境を構築したら、以下の手順で必要ファイルとワークフローをDLしてください。おすすめは、まずSimpleComfyUIで2509生成環境を用意してしまい、新しい2511用ワークフローを使うやり方。この辺りは好みもあると思います。

「Qwen-Image-Edit-2509」導入＆検証　ローカル版NanoBananaとして使える？NSFW検証も

・メインモデルを入手しよう

まずは一番重くて時間が掛かるメインモデルのDLから取り掛かりましょう。Qwen-Image-Edit-2511のメインモデルはこちらで公開されていますが、bf16版で40GBあり、VRAMへの負荷も重いです。より軽量なfp8版でも、VRAM24GB（RTX4090クラス）ないと厳しいかなと思います。

(frame embed)

私のRTX4080（VRAM16GB）環境では動かせなさそうですので、今回はこちらで公開されている量子化版のGGUFモデルを使うことにします。

(frame embed)

リンク先を開くと、ずらっと並ぶこれらが量子化済みモデル。「qwen-image-edit-2511-Q〇...」となっている〇部分の数字が小さいほど軽量になる代わりに、精度が落ちます。VRAM容量が12GBの場合はミディアムサイズの「Q3_K_M.gguf」、16GBならラージサイズの「Q3_K_L.gguf」や「Q4_K_M.gguf」あたりが良いかなと思いますが、まずは試してみて自分の環境にちょうどよいモデルを選択してください。

ここでは、検証用に「Q3_K_M.gguf」を落としました。右側のDLボタンから適当な場所にダウンロードしておきましょう。既にComfyUIを環境構築済みの方は、「ComfyUI\models\diffusion_models」に保存します。

（※ちなみにRTX4080（16GB）ではQ4_K_M.ggufでギリギリ一杯という感じでした）

・ほかの必要モデルを入手しよう

2511をローカルで動かすには、メインモデルのほかに「テキストエンコーダ」「VAE」「高速化LoRA」「mmprojファイル」「ワークフロー」の５つが必要です。SimpleComfyUIで2509を使ったことがある人はワークフローを流用できますし、2511用高速化LoRA以外は既にDLされているはずですのでご心配なく。

まだの方は、面倒臭いですがmodels以下の該当フォルダにそれぞれをDLしてください。

①テキストエンコーダ

ユーザーのテキスト指示をQwenモデルが理解できる形にしてくれるAI翻訳機。下記リンクから「qwen_2.5_vl_7b_fp8_scaled.safetensors」をDLしてください。保存先は「ComfyUI\models\text_encoders」。

(frame embed)

②mmprojファイル

GGUFモデルを動かすのに必要な拡張ファイル。「Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf」を「ComfyUI\models\text_encoders」へ保存します。（必ずテキストエンコーダと同じフォルダに収めましょう）

(frame embed)

③VAE

生成の最終工程を担当するモジュール。下記リンクから「qwen_image_vae.safetensors」をDLします。保存先は「ComfyUI\models\vae」。

(frame embed)

④高速化LoRA（2511用）

低ステップで生成可能にするためのLoRA。下記リンクから「Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors」を、「ComfyUI\models\loras」へ保存します。SimpleComfyUIの2509用ワークフローを流用する方もメインモデルとこれだけは落としておきましょう。これを適用することで、通常きれいな画像を得るには20step程度必要なところ、4stepで近い精度の画像を出力することができます。

(frame embed)

⑤ワークフロー

StabilityMatrixなどで導入したComfyUIで使うワークフローです。SimpleComfyUIで2509用のワークフローをいじってもOKですが、今回はCivitaiで公開されているこちらの2511用ワークフローを使います。

(frame embed)

記事執筆時は「V2」が最新なので、こちらのリンク先からzipファイルを保存・解凍し、出てきた「Rebels Qwen Edit 2511 (v2).json」ファイルを「ComfyUI\user\default\workflows」に移動してください。

ComfyUIを起動

ComfyUI環境に必要なファイルをすべてDLできたら、ComfyUIを起動してください。

①SimpleComfyUIを流用する場合

SimpleComfyUIの2509用ワークフローを開き、こちらのノードで新たにDLした2511のメインモデルと高速化LoRAに変更するだけでOK。または、さきほど紹介した新しいワークフローを使う方法でももちろん構いません。

②通常のComfyUIで使用する場合

SimpleComfyUIを使わない場合は、さきほどDLしたワークフローを読み込みます。画面左の「Workflows」タブから、さきほどの「Rebels Qwen Edit 2511 (v2).json」を選択すると、このような画面が開くはずです。

画面上にこのようなエラーが出た場合は、必要なモデルが正しい場所に配置できていません。「ダウンロード」ボタンを押してDLし、もう一度ワークフローを読み込み直しましょう。

ちゃんとDLしたはずなのに同じエラーメッセージが表示されてしまう場合は、配置先かファイル名が間違っている可能性がありますので、よく確認してみましょう（たとえば2511-Lightingではなく2509-LightningをDLしていたりしがちです）。

ワークフロー画面の見方

ここからは、SimpleComfyUIではなくさきほどCivitaiからDLした2511用のワークフローのほうで検証を進めていきます。

メインのノード群はこちら。左上の「Models」で必要なモデルを選択します。一番上の段にメインモデルを指定するので、各自さきほど入手したGGUFモデルを選択しましょう。エラーメッセージが出ていないなら、他の欄は基本的にいじらなくてOKのはずです。

下部の「LoadImage」から参照画像を読み込みます。最大3枚まで読み込むことができます。上のスクリーンショットでは一番右側のノードが薄い紫色になっていますが、これはノードがバイパス（迂回）されて無効になっていることを示しています。ノードをクリックして選択した状態で「Ctrl＋B」を押すとバイパスが解除され、下図のように画像を読み込めるようになります。

Ctrl+Bを使ったバイパスのON / OFFは今回何度も使うので、よく覚えておきましょう。

画像を読み込ませないノードがある場合は、同じ手順で「Ctrl＋B」キーを押してバイパスさせましょう。そうしないと、「3枚目のノードで画像が入力されてないよ！」とエラーが起きてしまいます。

プロンプト指示は先ほどのQwenChatと同様、日本語でOK。例えば、このように2人のキャラクターを読み込ませた状態で「2人が笑顔で歩いている」と入力してみます。

・重要！ステップとCFG

右隣のこちらのノードでステップ数やサンプラーなどを選択します。ステップ数はデフォルトでは20になっていますが、高速化LoRAを使っているので4～8step程度が目安。cfgもデフォルトの4から1に変更します。サンプラーはeulerがデフォルトになっていますが、好みで変更して構いません。「生成後の制御」がrandomizeになっているので、Seed値は毎回変更されます。

cfgを1に、ステップを4に変更していないと、生成に非常に時間が掛かる上、色が焼き付いたような画像が出てしまうので、ここが一番の注意ポイントです。（SimpleComfyUIを使っている方はデフォルトでそのようになっているので気にしなくて大丈夫）

こちらが生成結果。無事2511での生成に成功しました。

ちなみに、生成時間はモデル（Q3_K_M.gguf）のロード時間を含めて、VRAM16GBで50秒ほど。2回目からはより短い時間で生成できるようになるので、アベレージでだいたい30秒前後といった体感です。

・出力画像のアスペクト比は「1st image」準拠

生成される画像のアスペクト比（縦横比）は、1st imageに入力した画像の解像度が基準となります。縦長の画像を入力すると、出力画像も縦長になります。ただ、入力画像が大きすぎると基本1024x1024pxに近い解像度になるようリサイズされます。

サイズを大きくするには、LoadImageノード下のこちらのノードから。デフォルトでは紫色になってバイパスされているので、例によって「Ctrl＋B」で有効化しましょう。

拡大する方法を選んで「メガピクセル」欄の数値を増やすと、出力画像も大きくなります。ただ、これは総ピクセル数の倍数掛けの意味ですので、キャンバスの縦横の長さが単純に倍掛けになるわけではない点に注意。1024x1408pxを参照させて2倍にしても2048x2816pxにはなりません。

実際にやってみましょう。白背景の画像を入力して「picture 1の背景にリビングルームを描いてください。ソファやテレビ、窓があります。窓の外は青空がのぞいています」と日本語指示してみます。

まずは拡大せず、普通に4ステップで生成してみましょう。入力画像と同じ1024x1408pxで出力されましたが、やはり粗いですね。（生成時間は30秒ほどです）

今度はステップ4のままで、スケールサイズ設定のバイパスを解いて、このように入力します。同じSeed値11111のままで、もう一度生成し直してみます。

すると、今度は1232x1696pxで出力されました。ガビガビが消えて、とてもきれいに出力されましたね。その代わり、出力時間は30秒から47秒ほどに伸びています。

もう一つ実験してみます。こちらはおなじみの部屋を「俯瞰にして」と指示したもの。4stepで60秒ほどで生成できましたが…

左側のソファは崩壊してしまいましたね。なんとなく、窓際の奥行きもペラペラで怪しい感じがします。

さきほどのノードをCtrl＋Bで有効化して、nearest-exactでより大き目に生成してみます。Seed値は同じ。

こちらが生成結果。1664x1248pxに大きくなり、先ほどより細部のデザインが向上しました。

生成検証

他にもあれこれ生成実験を行ってみます。設定はこちらの図の通りで、Seed値は「111111」で固定（fixed）します。

スケールサイズ設定は以下の通り、nearest-exactを2倍で掛けています。

まずはこちらの2枚を参照させて、「1st imageと2nd imageの女の子が、カフェで座って仲良くコーヒーを飲んでいる画像を生成してください。」と指示してみます。

生成結果はこちら。おおむね指示通りにできているように見えますが、右の女の子（あんなさん）の瞳のデザインが表情と判断されたようで、目つきがかわってしまいましたね。

ちなみに、2509でも全く同じプロンプトと入力画像で生成を試しており、当時はこのような出力結果になりました。

2511の生成結果と見比べると、キャラクターの一貫性が向上していることが実感できます。（一方、背景は実写調すぎて不自然な気がしますね）

同じ画像2枚で、今度は次のように指示します。「1st imageと2nd imageの女の子が、商店街で白熱したバトルを繰り広げている画像を生成してください。通行人が驚いた顔をしています。片方の女の子がジャンプキックを仕掛け、もう片方の女の子が両手でガードしています。」

こちらが生成結果。

こちらは参考で、2509で出したものです。

二枚を見比べると、全体にふんわりした水彩調になってしまう2509の癖が取れて、ダイナミックな演出ができるようになっていることが分かります。が、軽量な量子化モデルだからか、ポーズや衣装の細部はおかしくなってしまっていますね。背景のAI文字もそのままです。

今度は入力画像をこちらの2人に変更します。指示は「picture 1とpicture 2のキャラクターが街中を歩いています。2人は楽しそうな表情で、飲み物を手に持っています。」

こちらが生成結果。ちょっと目の感じは変わってしまいましたが、及第点でしょうか。背景はやはりリアル調になってしまいますので、個別に指示が必要そうですね。

こちらは2509で同じ指示をしたものです。2509のマスピ調と合っているからか、背景はこちらのほうが違和感がないですね。

指示：「picture 1のキャラクターにpicture 2のキャラクターの服を着せてください。」

お見事！（ただ、おなかのところのリボンが消えているので、完璧ではない）

ちなみにこちらが2509版です。当時は全然だめでしたので、2511の機能向上がしっかり実感できる生成結果となりました。

ただ、全体に背景など創作的に描き加えられた生成部分がリアル調なのは気になりますね。プロンプト指示で画風をマッチさせられるか試してみますが…

指示：2人の女の子の背景に、キャラクターの画風とマッチした町を描いてください。青空や車が見えます。

やはりどうもリアル調に寄ってしまうようでした。このあたりはガチャ次第なのかもしれませんが、2511の特徴なのかなと感じます。

さて、正直ここまでの編集内容なら、普段使っているNanoBananaProやSeedream4.5などでもできるものばかりで、わざわざローカル環境で行うほどのこともないように思います。やはりローカルでやりたいのは、NanoBananaたちが断ってくるようなNSFW（成人向け画像）などの編集。よって今回もNSFW画像の編集を2511で試していきます。

＜注意：これ以降、例によって性器や性行為を含む成人向け画像が複数枚掲載されます。閲覧時は周囲にご配慮ください＞

NSFW生成検証

まずは次のような指示をしてみました。生成設定はこれまでと同じで、Seed値も固定です。

指示：この女性を全裸にしてください。

こちらが生成結果。（FANBOXルールのためモザイクを施していますが、性器描写は一切なくマネキンのようになっています）

かなり頑張っているのではないでしょうか！

なぜか背景に薄く元画像が残ってしまいましたが、割と破綻なく、かつ顔立ちもそこまで乖離せずにできたのは感動ですね。ただ、Qwen image editはNSFW知識が全然ないので、「ヴィーナスの誕生」みたいにえっちさのない全裸像となりました。

同じプロンプトを他の入力画像でも試しました。こちらが…

こう。

こちらは…

こうなりました。

ちなみに、同じ二枚で「この女性が男性とSEXしています。」というプロンプトにしても、このような生成結果になりました。やはり、2509と同じで性的な学習はほぼしていないようです。

Hな知識はほぼないに等しいので、全裸化くらいならできても、性器や性行為を描くことは基本的にできないようでした。

全裸にする程度なら、Forgeなどで体部分を「completely nude」と指示してCNインペイントすればできてしまうので、ローカルQwen editでないとできない作業はないでしょうか？2509のときもそうでしたが、「全年齢画像にHな変更を加える」ことは知識不足で難しくても、「H画像にHでない変更を加える」ことは問題なくできるはずです。例えば、H画像のアングルチェンジはどうでしょうか。

こちらの画像を「カメラを45度左に回転して。」と指示してみます。

か、可能性を感じる…！

手前にあるものが何なのかは理解できなかったものの、それなりに頑張ってくれました。これができるなら、破綻している部分をインペイントしたりimg2imgしたりすればH漫画などのつなぎのコマが作れてしまいそうですね。

というわけで、NovelAIのインペイントでこれを直せるか試してみます。このように、破綻した部分をインペイントで塗りつぶして、「1girl,penis on eyes,completely nude,nude male, fat man,1boy ,standing,penis,veiny penis」と被写体を説明して生成します。

こちらが生成結果。

かなり自然に見えるものができてきましたね。ここまでお手軽に到達できるなら、わざわざローカル環境を構築する意義はあると感じます。やはり首元などの細部はおかしくなっているので修正は必要ですが、これはNanoBananaには絶対できない作例ですね。

ただ、インペイントである程度なんとかなるとはいえ、やはりNSFW生成には2511用LoRAが必要そうに思えます。QWEN用のLoRAはCivitaiのモデル検索ページでBaseModelフィルタから「QWEN」を選択するなどして探すことができます。

(frame embed)

各種LoRAの適用方法

CivitaiなどにあるQwen Image Edit用LoRAを適用して2511で画像編集をするためには、先ほどのワークフローを自分で少し改造してLoRAを読み込めるようにする必要があります。ここでは、参照画像１のキャラクターに参照画像２のポーズを適用できる「AnyPose」LoRAを適用するやり方を試してみましょう。（※下図のように3D画像で学習されたLoRAのため、フラットなイラスト調画像だと成功率が低いです）

（△https://huggingface.co/lilylilith/AnyPose よりスクリーンショット引用）

まずはこちらがLoRA配布先です。「Files and versions」から、「2511-AnyPose-base-000006250.safetensors」と「2511-AnyPose-helper-00006000.safetensors」の両方をLoRA保存フォルダ（ComfyUI\models\loras）にDLします。

(frame embed)

Anyposeは、このベースLoRAとヘルパーLoRAの両方を同時適用することで動作するLoRAです。このLoRAをワークフロー上で読み込むためには、自分でワークフローにLoRA読み込みノードをふたつ追加し、既存のノードとラインでつなぐ必要があります。

・LoRAノードの挿入方法

まずはワークフロー上の何もないところで右クリックし、「ノードを追加▶ローダー▶LoRAを読み込む」を選びます。

すると、このように「LoRAを読み込む」ノードが追加されます。この時点では孤立した島の状態で、左右からラインがどこにも繋がっていません。さきほどDLした二つのLoRAを読み込ませたいので、このノードをまずは二つ、欄外に並べてください。

場所はどこでもいいのですが、このようになっていればOKです。二つあってややこしいので、ここからは「ローダー（左）」と「ローダー（右）」と表記します。

今度は、ワークフローの「MODELS」ノードのMODEL出力を、ローダー（左）のモデル入力に繋ぎます。このように、MODELと書かれているところの「●」印をクリックしてそのまま上へドラッグすると、新しいラインがにゅーっと伸びてきますので、「LoRAを読み込む」のモデル入力のところにある「●」へドラッグすればOKです。

同じようにして、すぐ下の「CLIP」出力も「クリップ」入力とつなぎます。これで、ノードの入力部分はOK。

次に、左右のローダー同士をモデル＝モデル、CLIP＝クリップでつなぎます。このようになっていればOK。簡単ですね。

最後は出力部分です。やや分かりにくいので、つなぐべきところを色分けして図示しました。

モデル出力はすぐ下の「Kサンプラー」ノードのモデル入力へ。CLIP出力はプロンプト欄の二つのノード（ポジティブプロンプト欄とネガティブプロンプト欄）のCLIP入力欄にそれぞれつなげばOKです。

これで、LoRAが読み込めるようになりました。左右のローダーにさきほどDLした「Anypose」LoRAのベースとヘルパーをそれぞれ強度0.7（推奨）で読み込みます。

あとは、プロンプト欄に公式推奨の以下の文字列を入力すればOK。

プロンプト：「Make the person in image 1 do the exact same pose of the person in image 2. Changing the style and background of the image of the person in image 1 is undesirable, so don't do it. The new pose should be pixel accurate to the pose we are trying to copy. The position of the arms and head and legs should be the same as the pose we are trying to copy. Change the field of view and angle to match exactly image 2. Head tilt and eye gaze pose should match the person in image 2.」

翻訳：「画像1の人物に、画像2の人物と全く同じポーズを取らせてください。画像 1 の人物の画像のスタイルと背景を変更するのは望ましくないため、行わないでください。新しいポーズは、コピーしようとしているポーズとピクセル単位で正確に一致する必要があります。腕、頭、脚の位置は、コピーしようとしているポーズと同じである必要があります。視野と角度は、画像 2 と完全に一致するように変更してください。頭の傾きと視線のポーズは、画像 2 の人物と一致する必要があります。」

入力画像はこちらの2枚。（いずれもAI生成した架空人物です）

こちらが生成結果。LoadImageノードで読み込ませた画像１のキャラクターに、画像２のキャラクターのポーズを取らせることができました。

こちらは別の画像ペアで検証したもの。足の方向がおかしくなったり、表情が左右違っていたりと問題があります。こういうときは、説明をプロンプトに追加すると改善するようです。

さきほどは英語プロンプトにしましたが、以下のように日本語指示してみます。最後に「女性はつま先立ちになったバレエのポーズを取っています。顔は右上を向いており、目を閉じています」と書き加えました。

プロンプト：image1の人物に、image2の人物と全く同じポーズを取らせてください。image1の人物の画像のスタイルと背景を変更するのは望ましくないため、行わないでください。新しいポーズは、コピーしようとしているポーズとピクセル単位で正確に一致する必要があります。腕、頭、脚の位置は、コピーしようとしているポーズと同じである必要があります。視野と角度は、image2と完全に一致するように変更してください。頭の傾きと視線のポーズは、image2の人物と一致する必要があります。

女性はつま先立ちになったバレエのポーズを取っています。顔は右上を向いており、目を閉じています。

こちらが生成結果。最後に加えた一文によって、表情や脚の向きが改善したように見えます。

一方、イラスト調のポーズ合成はなかなかうまくいきませんでした。こちらのペアで右のポーズを取らせようとしても…

このように、ほとんどimage1と変わらない生成結果になってしまうことがよくありました。

組み合わせによってはこのようにうまくいきそうなこともあったのですが、よくみるとやはりポーズが違ったり、服装までコピーしてしまったりするので、フラットなアニメ塗りでは使わないほうがよさそうです。

NSFW LoRA検証

ところで、Qwen用のLoRAの中にはもちろんNSFW用途のものもたくさんあります。LoRAなしではあまりえっちくない裸しか生成できなかった2511ですが、そうしたNSFWLoRAを適用するとどのようになるでしょうか。

効果のほどは適用してみないと分かりませんし、Qwen用LoRAはイラスト調より実写向けのものが多いのですが、探すとアニメ調でも適用できるNSFWがちらほらみつかります。例えばこちらの「SNOFS」LoRAは実写調だけでなく、アニメイラスト調でも適用できるNSFW用LoRAのようですので、実際に使えるか試してみます。

(frame embed)

（※リンク先には実写調の無修正画像が多数あります。注意して閲覧してください）

説明書によると、こちらに挙げられているような単語と画像をペア学習しており、これらのワードを使うことで再現が可能になるとのこと。

さきほど追加したローダー（左）に、CivitaiからDLしてきたLoRA「Qwen Snofs 1.3」を読み込みます。ローダー（右）は使用しないので、Ctrl＋Bでバイパス（迂回）してしまいます。

プロンプトは「image1 の女性がフェラチオをしている主観画像。手前に男性の両足とペニス。正面に女性がカメラ目線でこちらを見ながら、ペニスを口にくわえている。」とします。

こちらが生成結果。（画像編集ソフトでスクリーンショットにモザイクを掛けています）

なんとなく男性の下半身が解剖学的に妙な感じではありますし、入力画像とキャラクターの顔立ちも変わってしまいましたが、ある程度それらしく見えるものができてきました。

ちなみに、先ほど試した「全裸にして」プロンプトでも、このLoRAを適用しているとこのように人体描写が変わります。

よく見ると精度は甘く、背景が微妙にもやがかかったように見えるなど、まだまだの部分も見受けられますね。他のワードやキャラクターでもあれこれ試しましたが、イラスト調での生成精度はそこまで高いとは言えませんでした。

今度はこちらのLoRAを試してみます。こちらはアニメ調メインで学習させたモデルのようです。

(frame embed)

全く同じプロンプトで生成したのがこちら。LoRA強度1で適用しています。顔立ちや塗りはやはり変化してしまいますが、さきほどより安定しているように感じました。

正直、こうした単純な構図であれば普段使いのSDXLモデルでも可能ではありますが、ちょっとした視線やポーズ、構図などの変更が自然言語指示でできるようになるなら、非常にありがたいこと。NSFW用途の各種LoRAが充実してくれば、NanoBananaには絶対にできないローカルだけの強みと言えそうです。2509に比べモデルそのものの精度は着実に向上してきているので、LoRAの広がりともども今後の進歩に期待したいところですね。

＜アニメ調ではなく実在人物の画像でNSFW加工を行うのは言わずもがな超ハイリスク行為ですし、そうしたものを公開すれば言い訳のしようもなく犯罪そのものです。自分の身は自分でしか守れませんので、LoRAを使った実写調の画像編集には重々警戒し、できれば大きく距離を取ることをお勧めします＞

終わりに

というわけで、「Qwen-Image-Edit-2511徹底検証　NSFWは？ローカル画像編集最前線」でした。

正直、前モデルの2509を触っていたときは「NanoBananaがこれだけ便利になってるのに、わざわざ面倒な環境構築をしてローカルVRAMで画像編集する意味 is 何…？」になりかけていたのですが、今回2511を触っていて、これはもしかすると、現在のSDXL系と同じように各種ユーザーの用途に応じた特化型として活路が見いだせるかもしれない、と考えが改まりました。

NanoBananaなどのオンラインモデルはどうしても画風が普段の自分のものとはズレてしまいますが、今後Qwenでも各自「自分画風モデル」が作れるようになるかもしれません。LoRAの学習データセットを作るときも、NanoBananaなどで加工すると「競合するモデル学習への出力物の利用」として規約違反になってしまう恐れがありますが、Qwen image editは比較的寛容な「Apache License 2.0」のもとで公開されており、そうした心配がありません。

また、やはりNSFWの存在も大きいですね。最後の注釈にも書きましたが、実写調で行えばそのまんまディープフェイクポルノですから、オンライン系のサービスでは実装不可能に思える機能です。この記事を読んで下さっている皆様は私と同様、イラストや漫画メインで画像生成をされていると思いますので、今後そうした方向でのLoRAが充実することを期待しましょう。

ただ、どんな高性能なモデルでもあまりユーザー参入が起こらないと、そのまま立ち枯れていくのがAI界の常。作品作りやプライベート用途（）に使えるモデルとなっていくのかどうか、今後も要注目と言えそうです。

今年もたくさんの記事を書くことができました。12月はしばらく病気で体調を崩していたのですが、無事回復して仕事納めを迎えることができ、かねて気になっていた2511の検証にも手を付けられて良かったです。レイヤー分割特化モデル「Qwen Image Edit Layered」のローカル生成のほうも順次調べていきたいですし、新年もどんどん色んな面白いものを作っていきたいですね。

今年も1年間ありがとうございました。それでは皆様、よいお年をお迎えください。スタジオ真榊でした。

＜スタジオ真榊は12月10日で開設から3周年を迎えました＞