こんばんは、スタジオ真榊です。今回はローカル環境で動作する中国Alibabaの画像編集モデル「Qwen-Image-Edit-2509」の検証記事です。NanoBananaやSeedream4.0、NovelAIの「キャラ参照」など、一貫性を保った画像編集がどんどんレベルアップしている中、じわじわと存在感を出してきている最新モデル。導入方法から実力検証までを約1万7000字でレビューしていきたいと思います。
Qwen-Image-Edit-2509は、NanoBananaなどのように1枚~複数の画像を入力して、任意に変化させられる画像編集モデルです。「背景をつけて」「服装を変えて」「1枚目のキャラを2枚目の車に乗せて」といったさまざまな指示を自然言語で行うことができます。
NanoBananaやSeedream4.0と比べると精度はやや見劣りするのですが、NSFW画像を入力してもエラーが出ず、無償でいくらでも生成ができ、LoRAなどの拡張性があることがローカル生成のメリット。例えばこのように、カメラ位置変更LoRAを使うことでアングルを自由に変えられます。
記事中では、ローカルでの環境構築のやり方から、NSFW生成実験、LoRAの適用方法やプロンプト指示などを紹介。NanoBananaのために高価なPhotoshopやFreepikといった契約をしなくても代替になるレベルなのかどうか、じっくり検証しています。
<※Qwen-Image-Edit-2509のワークフローに必要な容量はモデルだけで合計30GBを超えます。また、VRAM12GBでもなんとか動くようですが、16GBあたりから快適に動くようになるので、あらかじめインストール先のストレージやVRAM容量に余裕があるか確認しておきましょう>
1.Qwen-Image-Edit-2509とは
・オンラインで体験可
2.Qwen-Image-Edit-2509をローカル導入しよう
<①SimpleComfyUIで導入する場合>
<②StabilityMatrixで導入する場合>
<量子化モデルについて(分かる方向け)>
3.ワークフロー画面の見方と使い方
・出力画像のアスペクト比は「1st image」依存
4.入力画像2枚で検証
<感想>
5.NSFW生成検証
6.LoRA適用はどうやる?
7.カメラ位置変更LoRAを試す
8.アングル変更実例集
終わりに
(https://huggingface.co/Qwen/Qwen-Image-Edit-2509 より画像引用)
Qwen-Image-Edit-2509は、これまでリリースされてきた中国Alibabaの画像編集特化モデル「Qwen-Image-Edit」シリーズの最新バージョン。NanoBananaやSeedream4.0と同様に、複数画像の編集機能とキャラクターなどの一貫性保持力が大幅に強化されているのが特徴で、文字入力(画像内へのテキスト合成)も可能です。
NanoBanana等と異なるのは、Qwen-Image-Edit-2509はStableDiffusion系のような無料のオープンモデルであるということ。自分のPC内(ローカル環境)で完結して生成できるので、NSFW系の画像やプロンプトを入力してもエラーが出ませんし、Controlnetなどの拡張機能も利用可能。また、SDやWanなどと同様に追加学習が可能なので、Qwen2509用のLoRAを使って任意の変化を加えることもできます。
こちらはCoppyLoRAで知られるとりにくさん(@tori29umai)が公開されている、入力画像のカメラ位置を変更できるQwenImageEdit2509ベースのアプリ。カメラ位置をプロンプト通りに変更することを追加学習したLoRAを動かすことで、ナマの2509モデルより高い精度でカメラ位置を調整することができています。
ただ、まだ出たてのモデルということもあり、正直言ってControlnetもLoRAもあまり充実しているとは言いがたい状況。過度の期待は禁物です。
・オンラインで体験可
慌ててローカル導入しなくても、公式の「Qwen Chat」を使えば、Qwen-Image-Edit 2509の性能を誰でも体験することができます。未ログインの状態でも生成できるので、非常にお手軽です。
画面左上のモデル選択欄から、同社のマルチモーダルLLM「Qwen3-Max」を選択し、「画像編集」トグルをONにした状態で指示を入力するだけです。参照させる画像は最大3枚までアップロードできます。
プロンプト指示はこのような日本語指示でOK。「図1の女性は図2の車の横に立っています」と指示すると、1枚目の女性を2枚目の車の横に立たせることができました。
イラストの加工ではどうでしょうか。このようにミナちゃんの画像を与えて、3面図の生成を指示してみます。
上の指示で一発で出てきた生成結果がこちら。ファーストインプレッションとしては、首元のデザインが少し変だったり、横からのカットで眼鏡がなかったりするので、「NanoBananaにはやや劣るかな?」という感じがしますね。また、NanoBananaと同様に画像のヨコタテ(アスペクト比)は指示できず、基本的に入力画像に近い比率で生成されるようです。
他にもいろいろと試してみました。全て一発生成でやり直しなしです。
指示「線画にしてください」
指示「白黒の線画にしてください」
指示「この線画を着色して。背景は白、セーラー服は白、襟はピンクで眼鏡は緑、髪の毛は金髪。スカートは黒。バッグは黄色。髪留めはオレンジ。セーターはグレー」
指示「背景を削除して。」
指示「白い背景を、コンビニの前に変更して。女の子は地面に座っている」
指示「このキャラクターが笑顔でこちらに手を振っています。もう片方の手は腰に当てています。背景は学校の教室にしてください。」
と、ここまで試したところで、未ログインの状態だと1日あたり5枚程度の生成でこのようにエラーが出てしまいました。
NanoBananaやSeedream4.0をふだん使い倒している身としては、ちょっぴり「うーん・・・?」という感じの生成結果でした。眼鏡がなくなったり、一発で線画化ができなかったりと、ちょっと「うっかり者」という印象です。ただ、その後もあれこれローカルでいじっていると、プロンプト次第でかなり精度の向上が見込めることや、良質なLoRAがあれば狙った通りの再現ができる底力があることがだんだんとわかってきました。
惜しむらくは、まだ生成環境が初心者向けには整っておらず、LoRAなどもほとんど充実していないこと。そのあたりはおいおい見ていくとして、まずはローカル導入のやり方から紹介していきます。
この記事では、Qwen-Image-Edit-2509のローカル導入のやり方を二つ紹介します。
今後利用環境は多様化していく可能性がありますが、記事執筆時点ではComfyUIで試すのがスタンダード。スタジオ真榊ではForge系のUIをメインに紹介しているので、動画生成の「EasyWan22」で初めてComfyUIに触れた方も多いと思いますが、Qwen-Image-Edit-2509は最新バージョンのComfyUIでないと対応していませんので、EasyWan22の環境とは別にComfyUI環境を用意する必要があります。
この記事では、①EasyWan22を提供されているZuntanさん(@Zuntan03)によるComfyUIかんたん導入セット「SimpleComfyUI」を使って導入する方法と、②画像生成系webUIの統合導入アプリ「StabilityMatrix」で導入する方法の両方を紹介します。
SimpleComfyUIのほうは量子化済みモデルの配置とUIの高速化が最初から済んだ状態で導入されますので、とりあえずローカルで動かしてみたい方はこちらがオススメです。(※ちなみに、スタジオ真榊のRTX4080(VRAM16GB)環境では、StabilityMatrixで構築した素のComfyUI上で素のモデルを動かすとギリギリVRAM容量がいっぱいになってしまい、本来数十秒で済むはずの1枚生成に10分くらい掛かってしまいました)
こちらのリポジトリから導入できます。導入方法はここに書かれている通りでごくシンプルですので、ほとんど解説は不要ですね。
まず、インストール先となる空フォルダを浅い階層に用意して、「SimpleComfyUI」など分かりやすい名前を付けておきます(日本語や変な記号は使用しないこと)。上記のリポジトリから「SimpleComfyUiInstaller.bat」を右クリックして「リンク先を保存」を選び、その空フォルダにDLしましょう。あとはこのbatを実行し、「発行元を確認できませんでした。このソフトウェアを実行しますか?」と表示されたら「実行」するだけです。
「WindowsによってPCが保護されました」と表示されたら、「詳細表示▶実行」でOK。Microsoft Visual C++ 2015-2022 Redistributable のインストールが必要となり「このアプリがデバイスに変更を加えることを許可しますか?」と表示された場合は「はい」 とします。あとは放っておけば、黒いコマンドプロンプト画面が消えて導入終了です。
・実行前にアップデート作業を済ませよう
先ほど作ったフォルダ内にComfyUIを動かすのに必要なファイルが揃いました。が、さっそく立ち上げる前に、アップデート作業とQwen-Image-Edit-2509を動かすための下準備を行う必要があります。
まずは「EasyTools/ComfyUi」フォルダ内にある「ComfyUi_LatestVersion.bat」と「ComfyUiManager_LatestVersion.bat」をそれぞれ実行して、ComfyUIとComfyUIManagerを最新版にアップデートしておきます。これはSimpleComfyではなく、中身のComfyのほうのバージョンをアプデする作業です。
続いて、SimpleComfyUIをインストールしたフォルダ内にある「Update.bat」を実行してSimpleComfyUIを最新版にします。それぞれ大容量のダウンロードを伴うので、作業終了まで数十分かかることもあります。コマンドプロンプト画面がフリーズしているように見えてもいじらず、アップデートが終わって自然に消えるまで放置しましょう。
ここまで済んだら、Qwen-Image-Edit-2509で生成できるよう環境整備してくれる「Setup-QwenImageEdit2509.bat」を実行。これも大容量モデルのDLを行うので時間が掛かりますが、しばらく放置していればインストールが済みますので、最後に「ComfyUI.bat」を実行すればComfyUIが立ち上がります。(EasyWan22などComfyUI環境を利用したことがある方は、初回立ち上げ時にその際のワークフローが読み込まれてエラーが起こりますが、気にせずワークフローを閉じてください)
あとは、画面左側の「ワークフロー」タブからこちらの「QwenImageEdit2509.json」というワークフローを開けばおしまいです(当該ワークフローにはH画像が初期登録されていますので、周囲にご注意下さい)。
こちらがワークフロー画面。これが問題なく開けばインストールは無事終了です。(本当は下のノードに18禁画像がデフォルトで読み込まれますが、記事掲載にあたりサンプル画像に差し替えています)
以降はStabilityMatrixを導入する方向けの説明ですので、SimpleComfyUIを使う方は「ワークフロー画面の見方と使い方」まで読み飛ばしてOK。お疲れさまでした!
おなじみStabilityMatrixでComfyUI環境を導入する場合は、以下のような手順になります。ComfyUI公式のワークフローを使って生成するのですが、あらかじめ必要なモデルを手動DLしてフォルダに配置する必要がありますし、軽量なGGUF版を使う場合は自分で環境構築を行わないといけないため、SimpleComfyUIに比べて導入ハードルはやや高めです。
StabilityMatrixの基本についてはこちらの記事をご覧ください。
まずはStabilityMatrixそのものを最新版にアップデートしておきます。最新版になっていない場合は画面左下の「↓」ボタンが表示されていますので、そちらからアップデートを実施しましょう。StabilityMatrix上でComfyUIをまだインストールされていない方は、「パッケージ▶パッケージの追加」で、上の方にあるComfyUIを選択。
このように最新版が選ばれていることを確認して、「インストール」するだけです。下図のスクショ時点での最新verは「v0.3.60」でした。(これ以降のverならQwen-Image-Edit-2509を利用するための公式ワークフローが同梱されています)
あとは普段と同様に「Launch(起動)」すればOKですが、その前にこちらの歯車ボタン(Launch Options)から・・・
こちらの「auto launch」をオンにして「保存」しておくと、自動でブラウザ上にUIが開かれるので便利です。
ついでに、歯車ボタンの隣にあるジグソーパズル型の「Extensions」ボタンから、「ComfyUI Manager」を探してインストールしておきます。これは、ComfyUIを管理したり、必要なノードなどを追加したりできるツールです。インストールはすぐ済むので、ComfyUIを起動してみましょう。
無事起動できれば、こちらの画面が開かれます。Easywan22を導入されている方は、以前使ったEasyWan22のワークフローを再び開こうとして、必要ファイルが見つからずにエラーが起こりますので、気にせずそのワークフローを閉じましょう。
細かいComfyUIの環境整備については、ここでは時間が掛かるので割愛して、さっそく専用ワークフローを開いてQwen-Image-Edit-2509を動かしていきましょう。画面左側の「Templates」から「画像」タブを開くと、このように「Qwen-Image-Edit-2509」用ワークフローがありますので、クリックします。
必要なモデルをまだDLしていませんので、このようなエラーが出ます。親切に「ダウンロード」ボタンが出ていますので、一つ一つクリックしてDLしましょう。(これらは量子化されていない通常モデルです)
【注意!】ここで大事なのは、この画面に表示されている通りの場所に各safetensorsファイルをDLすることです。StabilityMatrixで導入した場合は「Data\Packages\ComfyUI\models」フォルダ内の各フォルダが保存先になりますので、例えばqwen_image_vae.safetensorsは「Data\Packages\ComfyUI\models\vae」に保存しましょう(下図参照)
インストールが終了したら、さきほどのワークフローをもう一度開いてみます。「モデルが見つかりません」のエラーが起きずにこちらのワークフローが開けば、無事インストール完了です。(ちゃんとDLできているはずなのに「見つかりません」エラーが出る場合は、ファイル名が変わっていないか、後ろに(1)などと入ったりしていないかなどを確かめて下さい)
既に有志によってQwen-Image-Edit-2509をGGUF形式に量子化したモデル(下記リポジトリなど)が公開されていますので、こちらを利用することでVRAM負担を軽減することが可能です。
ZuntanさんのSimpleComfyUIではGGUFモデルと必要なワークフローが自動導入されるのですが、StabilityMatrixでGGUFモデルを導入したい場合は自分でモデルをDLしてワークフローを準備しなくてはなりませんので、正直ComfyUI初心者にはおすすめできません。
リンク先のリポジトリを見ると、このように重さの異なるさまざまな種類がありますが、グラボのVRAM容量が16GBならこちらのQ3~Q5あたりを使うのが無難かと思います。こちらのVAE以外のモデルをそれぞれLocation欄の場所にインストールしましょう。
GGUF版はさきほどの公式ワークフローそのままでは使えませんので、GGUF用のワークフローを自分で準備して、自分でDLしたモデルを参照するようjsonファイルを書き換える必要があります。まゆひらaさん(@riddi0908)がGGUF版向けのワークフローを配布してくださっているので、自分で構築するのが難しい方はこちらを利用することをおすすめします。
さて、ここからはSimpleComfyUIのほうのワークフローでQwen-image-edit2509の使い方を見ていきます。基本的に緑色のノードをいじるだけで直感的に操作できるシンプルなワークフローですので、ほとんど説明は不要でしょう。
既に必要なモデルなどは読み込まれていますので、ModelやStep数はとりあえず以下のように設定。下部の画像入力欄から参照画像を入力したら、緑の「Prompt」欄に英語で自然言語指示を入力するか、Prompt欄の右側にある「TranslatePrompt」欄に日本語で指示すればOKです。(翻訳結果は隣のPositivePrompt欄に表示されますので、誤訳されていないかチェックしましょう)
このあたりのノードの意味も、だいたい見れば分かりますね。
「Randomize each time」をクリックしてSeed値が「-1」になっていれば、毎回違う画像になります。「Use」欄で読み込む画像の枚数を指定し、「Model」で使用するGGUFモデルを選択します。数字が大きいほど高性能かつVRAM負担が重くなりますので、Q3のほうが軽量な代わりに精度がややオミットされています。ステップ回数は4stepと8stepから選択可能で、4ステップの方が早く済みます。
速度やVRAM節約重視ならQ3で4stepが基本かなと思います。(※私の環境ではQ5+8stepLoRAで生成しようとするとエラーが出ました。再現性があるかは分かりませんが書き添えておきます)
今回はこのように、白背景の画像を入力して「picture 1の背景にリビングルームを描いてください。ソファやテレビ、窓があります。窓の外は青空がのぞいています」と日本語指示してみました。
こちらが生成結果。モデルロード時間も含めて80秒ほどで生成できました。(出力画像は「SimpleComfyUI\ComfyUI\output」フォルダに日付別に保存されています)
・出力画像のアスペクト比は「1st image」依存
このワークフローでは、生成される画像のアスペクト比は(縦横比)は1st imageに入力した画像の解像度が基準となります。縦長の画像を入力すると、出力画像も縦長になりますし、デフォルトではこちらのノードで、だいたい1024×1024pxの面積と同等になるようサイズが調整されます。
この「メガピクセル」欄の数値を増やすと、出力画像も大きくなります。こちらは「2.00」に増やして生成したもの。872x1200pxから1232×1696pxに拡大し、さきほどより品質が向上しています。(単純に倍掛けにならない点に注意)
「3.00」に変えると1512x2080pxに拡大しましたが、このようにキャンバス全体に対するキャラクターのサイズも変容しました(seed値は-1でランダム)。基本は2.0にするのが良いのではないかと思います。
入力画像1枚では無事に生成できたので、次は入力画像を2枚に増やして検証してみます。このようにQ3+4stepsで、オリジナルキャラクター二人がカフェで談笑している設定の画像を日本語指示しました。
VRAM容量負担は16GB中、最大時で11GB~12GB程度でした。初回77.92秒で生成されたのがこちらです。
指示:1st imageと2nd imageの女の子が、カフェで座って仲良くコーヒーを飲んでいる画像を生成してください。
(Google翻訳結果:Generate images of girls from the 1st and 2nd images sitting in a cafe and drinking coffee together.)
初回生成時はモデルのロードなどに余計な時間がかかるようで、2回目からはより高速になります。参考までに、全く同じ設定でseed値だけが異なる4枚生成はこれくらいの時間で出力されました。プロンプトにも左右されるようですが、アベレージ30~40秒程度という体感です。
こちらは入力画像は同じで、別の指示をしたもの。
指示「1st imageと2nd imageの女の子が、商店街で白熱したバトルを繰り広げている画像を生成してください。通行人が驚いた顔をしています。片方の女の子がジャンプキックを仕掛け、もう片方の女の子が両手でガードしています。」
(Google翻訳結果:Create images of girls from the 1st and 2nd images having a heated battle in the shopping district.Passersby looks surprised.One girl launches a jump kick, while the other girl is guarding her with both hands.)
4枚生成だとこのようになります。最初の1枚はやはりプロンプト処理などで多めに時間が掛かる傾向にありますね。また、Seed値が異なっても、ほとんど構図は変わらないのがQwenImageEdit2509の特徴のようです。
今度は入力画像を変更してみます。複数の入力画像について指示するときは「1枚目の画像をー」とか「金髪の女の子がー」などとするより、「picture 1」「picture 2」などと指示すると良い結果になることが知られています。
PP:picture 1とpicture 2のキャラクターが街中を歩いています。2人は楽しそうな表情で、飲み物を手に持っています。(翻訳後:The characters in picture 1 and picture 2 are walking around town.The two look like they are having fun and are holding drinks in their hands.)
服装の一貫性はきちんと取れているのですが、表情変更をしようとするとモデル固有のマスピ顔がひょっこり顔を出すイメージですね。左の子は頑張ってくれていますが、右の子はだいぶ印象が変わってしまいました。
次はこちらのプロンプト。
PP:「picture 1のキャラクターにpicture 2のキャラクターの服を着せてください。」(翻訳後:Dress the character in picture 1 in the clothes of the character in picture 2.)
割と頑張ってくれましたが、髪の毛やポーズが混じってしまいました。やっぱりNanobananaなどと比べると、やや精度が落ちる感じがしますね。(八重歯はどこから来たんだろう…)
というわけで、全体にそこそこやってほしい意図は汲んでくれましたが、ここまではちょっと詰めが甘いかなあという印象。プロンプト支配力が非常に強いのか、seed値を変えてやり直してもさほど生成結果が大きく変わらないこともQwenImageEdit2509の特徴の一つのようです。
キャラクターの容姿の一貫性は、NanoBananaよりやや劣る程度。衣装はそこそこ正確ですが、顔立ちはあまり維持されないようです。さきほど生成させたミナちゃん(眼鏡の子)はかなり上手に再現されていますが、キャラクターとして記号的な特徴の少ないあんなさん(ロングヘアの子)は別人という感じですね。表情やポーズを変更する指示だと、かなり「QwenImageEdit顔」になるというか、モデル独自のマスピ顔になってしまう印象があります。
背景はなかなか正確で、かつキャラクターに馴染んだものをチョイスしてくれるようです。リアル等身のキャラではリアルタッチに、デフォルメキャラではかわいい系のタッチの背景を出してきました。背景は全体に淡いというか、茶色っぽい落ち着いた雰囲気になることが多かったですが、このあたりはプロンプト次第であろうと思います。
こちらの画像は、左の白背景画像を読み込ませて「リビング」や「街中」の背景を描き加えるように指示したもの。ただし、右の画像では「キャラクターの画風とマッチした背景を描いてください」と依頼していたため、フラットではっきりした塗りになっていることが分かります。
PP例:女の子の背景に、キャラクターの画風とマッチした町を描いてください。青空や車が見えます。(Draw a town in the background of the girl that matches the character's drawing style.You can see the blue sky and cars.)
さて、ここまでの実力なら、わざわざローカルでやらなくても素直にNanoBananaやSeedream4を使えばよいなという話になりますが、NSFW生成ができるとなれば話は変わってきます。さっそく検証してみましょう。
<注意:これ以降、例によって性器や性行為を含む成人向け画像が複数枚掲載されます。閲覧時は周囲にご配慮ください>
まずは次のような指示をしてみました。いずれもQ3・step4設定です。
指示:この女性を全裸にしてください。
(Google翻訳結果:Let this woman be completely naked.)
こちらが生成結果。
このように、上半身のみ裸になる結果になりました。また、よく見ると表情もわずかに変更されていますね。
入力画像やプロンプトによってはこちらのようにきちんと「全裸」にできましたが、いずれにせよR-15程度の描写で、性器などは描画されませんでした。
CivitaiにあるSD系モデルのようにNSFW知識に特化して学習をしているわけではないでしょうから、全裸程度ならできても、露骨な性描写を依頼してもなかなかうまくはいかないものと思います。
一応、さきほどの入力画像で次のような指示をしてみました。
PP:この女性が男性とSEXしています。(This woman is having sex with a man.)
こちらが生成結果。
おおむね予想した通りで、学習データセットにそうした画像がない(もしくは生成されないような学習をしている)ため、性行為をプロンプト指示してもほとんど再現できないようです。このあたりはLoRAで補完しないと、基本的には難しいと思ったほうがよいでしょう。
ただ、「もともとR-18の画像を編集する」ようなことならある程度はできました。2509にはHな知識がないので「全年齢画像にHな変更を加える」ことはできませんが、「H画像にHでない変更を加える」ことなら問題なくできるという理屈ですね。
例えば以下のようなケースです。入力画像はサンプルとしてNovelAIで生成したもの。
PP:この女性の服装をセーラー服に変更してください。(Please change this woman's outfit to a sailor suit.)
こちらが生成結果です。
スカートなどの構図は入力画像に引っ張られるのですが、新たにR-18な部分を作り出さないような変更指示なら、このように断られずに実行することができます。
ただ、Hシーンの理解はかなり浅いので、少し構図が難しくなるとあまり上手にはできないようです。例えばこちら。
PP:この女性に両手でVサインをさせてください。両手以外の部分は元画像のままにしてください。(Let this woman make the V sign with both hands.Please leave the parts other than the hands as they are in the original image.)
結果はこのような感じになりました。
なんとなくそれらしくはなっているのですが、入力画像の情報から女性の手をどのように変更すればよいのか推論し切れなかったようで、肩と腕がきちんとつながっていませんね。
NSFW用途はこのように、素の状態の2509では「自在にできる」とは言いづらく、例えばH画像の背景を変更するとか、H画像の服装を入れ替える、H画像の顔部分だけを別のキャラクターに変更する・・・といったことなら可能、といった感じ。それなら、従来のインペイントやNovelAIによるキャラ固定である程度叶ってしまいますね。
そこで重要になってくるのが、QwenImageEdit2509用のLoRAの存在です。さまざまな画像ペアを与えてどのような変化を加えさせればよいのか追加学習させることで、素の2509モデルでは再現できないスタイルやシチュエーション、コンセプトを実現することができます。SDXLなどに比べると数は少ないですが、Civitaiから「qwen」「LoRA」を選択して検索すると探すことができます。
ただ、いまのところ、QwenImageEdit2509用のLoRAは実用系を除くと、実写用NSFW用途のものが大半のよう。イラスト系のLoRAはかなり数が限られます。
ここでは、試しにこちらのサイバーパンクスタイルLoRAを適用してみます。保存先は「ComfyUI\models\loras」です。
SimpleComfyUIでLoRAを追加で読み込ませるには、少し面倒ですがノードを自分で割り込ませる必要があります。まずは画面左側の「ノードライブラリ」から「LoRAローダーモデルのみ」を探してクリック。これがLoRAを読み込ませるためのノードです。
すると、どこにもつながっていない「LoRAローダーモデルのみ」ノードがワークフロー上に表示されますので、下図のようにラインでつなげてあげます。初めてだと全く意味が分からないと思いますが、もともと、ModelPatchTorchSettingsノードから左下の「LoRAローダーモデルのみ(4steps用LoRA)」へ紫の線が伸びていると思いますので、その線が生えている「●」を右クリック▶「Disconnect links」でいったん切断し、その間にさきほど作ったLoRAノードをはさみこみます。(ラインはノード上の紫色のドットをクリックしてドラッグするとにょーんと伸びます。間違えたらCtrl+Zで一つ前に復元可)
チャートにすると下記のようにつながっていればOKです。ラインの入り口と出口(左右)を間違えないようにしましょう。
【Torchコンパイルモデル(紫のノード)→Model Patch Torch Settings→NewLoRA ★ここに新しい「LoRAローダーモデルのみ」を割り込ませる→LoRAローダーモデルのみ(4stepsLoRAが読み込まれている左下のノード)→AnySwitch(高速化LoRAを切り替えるスイッチャー)→モデルサンプリングオーラフロー】
これで、新たに別のLoRAを読み込ませる準備ができましたので、上の画像のようにDLしてきたLoRAを選択しましょう(強度は1)。あとはこのように、「この女の子がサイバーパンクな町を走っている」と指示してみると、LoRAの効果が反映されました。
wan2.2のようにNSFW系LoRAが充実していればさっそくあれこれ試してみるところなのですが、正直現時点では海外ニキ向けの実写系がメインのようで、あまり私の食指が動くLoRAは(Civitai上には)見当たりませんでした。海外ニキたちがこうしたNSFW実写LoRAを何に使っているのかは予想ができますが、実在人物の写真を読み込ませてそうした画像を生成するのはイラスト用途とは比べものにならないレベルでハイリスクですので、真剣にやめておくことをおすすめします…。
さて今度は、記事冒頭で紹介したカメラ位置変更LoRA(dx8152氏提供)を試してみます。正直、NSFWLoRAが充実していない現状では、2509をAIイラスト活用するのに最も有望なのはこうした「LoRAで打率を高めた実用的画像加工」ではないかと考えます。
こちらからDLしましょう。
「File and versions」から「镜头转换.safetensors」の横の「↓」をクリックして、ComfyUI\models\lorasフォルダにDLすればOK。簡体字のファイル名は「multiangle.safetensors」などに変名しておいたほうが無難でしょう。
さきほどと同様、無理やり割り込ませた「LoRAローダーモデルのみ」ノードから、今DLしたLoRAを読み込みます。lightning-4stepsの左側から線がのびて、multiangle.safetensorsを読み込ませているノードの右側へ繋がり、そのノードの左側と「ModelPatchTorchSettings」が繋がっていればOKです。(無論、生成時には緑のノードで「4steps」を選びましょう)
あとはプロンプトで普通に指示するだけです。トリガーワードは不要で、以下のような英語指示をすることでカメラ位置を動かせます。ここにない文言でもOKで、NanoBananaのようにかなり柔軟にカメラ位置を動かせるようです。
「Move the camera forward.」カメラを前方へ移動
「Move the camera left.」カメラを左へ移動
「Move the camera right.」カメラを右へ移動
「Move the camera down.」カメラを下方へ移動
「Rotate the camera 45 degrees to the left.」カメラを45度左に回転
「Rotate the camera 45 degrees to the right.」カメラを45度右に回転
「Turn the camera to a top-down view.」カメラを俯瞰に
「Turn the camera to a wide-angle lens.」カメラを広角レンズに
「Turn the camera to a close-up.」カメラをクローズアップ
例えばこのような感じ。女の子の画像を読み込ませて、カメラを前方へ移動するよう指示してみます。
こちらが生成結果です。きちんとクローズアップできました。
背景がない画像だと単に切り抜いたようで効果が分かりにくいので、こちらの画像でもテスト。単に顔の周りを切り抜いたのではなく、ちゃんとカメラがクローズアップになり、人物と背景の位置関係(林の高さ)が変わっていることが分かります。
他にもいろいろなプロンプト指示でアングル変更を試してみました。以下はすべて一発生成チェリーピックなし(Q3、4steps)。左の画像を読み込ませ、記載した英語プロンプトで生成した結果が右列になっています。
・「Rotate the camera 45 degrees to the left.」カメラを45度左に回転
・「Rotate the camera 45 degrees to the right.」カメラを45度右に回転
・「Turn the camera to a top-down view.」カメラを俯瞰に
・「Turn the camera to a wide-angle lens.」カメラを広角レンズに
・「Turn the camera to a top-down view.」カメラを俯瞰に
「Tilt the camera upward.」ティルトアップ(アオリ構図)
「Tilt the camera downward.」ティルトダウン(俯瞰構図)
「Pan the camera to the left.」パンして左へ回転
「Pan the camera to the right.」パンして右へ回転
「Roll the camera slightly.」カメラを少し傾ける
「Roll the camera 20 degrees to the left.」左方向へ20度回転
「Low-angle shot.」アオリ構図
「High-angle shot.」俯瞰構図
「Extreme low-angle shot.」超アオリ構図
(※天井の手前を想像できず破綻。ただ、インペイントで直せそうではある)
「Bird's-eye view.」真上からの俯瞰
(High-angle shotよりも強めの煽り構図に)
「Dutch angle.」斜め構図
特に背景のアングル変更は、SeedreamやNanoBananaよりも正確にできているのではないかと思います。細かく見ていくと、窓の外の天候が変容していたり、「元画像に存在しない続き」を想像しきれず破綻してしまっている部分もあるのですが、正直このレベルでポン出しできるなら大変助かりますね。今後もう少しさまざまなLoRAが充実し、もっと2509の底力を引き出せるようになるのが楽しみです。
というわけで、一通りQwenImageEdit2509の現状を総覧してみました。
QwenImageEdit2509について、ある方が「貧者のNanoBanana」と表現していましたが、かなり的を射ているように思います。全年齢用途の画像編集ならNanoBananaやSeedream4.0に課金したほうがずっと幸せになれますし、NSFW用途の精度もナマのモデルでははなはだ弱い。光明はControlnetやLoRAといったカスタマイズ性にあるのですが、初心者が環境構築して普段から絵作りに振り回すにはあまりにUIが不親切なので、もう少し環境整備が進むとよいですね。
「NSFW用途OKなローカル環境向け画像編集モデル」というのは需要がしっかりあるジャンルですので、今後UIのとっつきにくさが改善し、LoRAや拡張機能などが充実してくれば、状況は大きく変わると思います。生成AI全般に言えることなのですが、新しいものが出てきたときにすぐ触る価値があるものとないものをきちんと見極めないと時間が吸われまくるので、今後も「いま触るべきものか、そうでないか」を念頭に、使い勝手をまとめていければと思います。
・FreePikは「使い放題」が改悪
少し話題は変わりますが、先日から紹介しているFreepikの使い放題プランがひっそり改悪されたことも、この場でお伝えしておきたいトピックです。もともと、月額5,850円のPremium+プランではNanoBananaやSeedream4.0で無制限生成(キュー連打)ができるのが最大のメリットだったわけですが、先日からこのような「Unlimited」なるモードのON/OFF概念が導入されています。
詳しくはこちらに書かれていますが、ざっくり言うと「Premium+モードでは無制限生成がこれまで通りできるよ。ここの"∞無制限ボタン"をONにしてね。でも月間最大800生成を超えたら、他のユーザーとの公平性のために速度制限するよ。その後も同じスピードで生成したかったら、さっきの無制限ボタンをOFFにしてね。そしたらクレジットを消費する代わりに、いつもと同じスピードで生成ができるようになるよ」…ということです。
それって…
とかなり不満に思っているのですが、まあいま月間そこまでFreepikで生成しているかというとしていないので、とりあえず矛を納めています。それにしても、もともと「持続可能性的に無理がある大サービスでは…?」とは思っていましたが、こんなに早く改悪されると「さすがに年払い契約は早まったか…」と思ってしまいますね。正直、使い勝手は最高なので、そこに文句は言えないのですが。
話をQwenImageEdit2509に戻しますと、そんな事情もあって、高価なNanoBananaやSeedream4.0に比べるとやはりローカルで、無料で、エッチな生成をしても文句を言われず、あとから何を覚えさせてもいい画像編集モデルというのはやはり待ち望まれている存在なわけです。現状、QwenImageEdit2509がその需要を満たせているかというと、個人的にはやや厳しい見方になるのですが、今後環境が整っていけば、そうした需要を満たすツールが自然と使われるようになっていくのではないかなと思います。
というわけで、長くなりましたが今回はこのへんで。スタジオ真榊でした。