FLUX.1 и SwarmUI. Генерируем картинки новой открытой моделью

Ком­пания Black Forest Labs, осно­ван­ная выход­цами из Stability AI (раз­работ­чик Stable Diffusion), без пред­варитель­ных анон­сов выпус­тила новую модель генера­тив­ного искусс­твен­ного интеллек­та Flux. Релиз взор­вал сооб­щес­тво генера­тив­ного ИИ: все раз­говоры теперь толь­ко о новой модели. И она того сто­ит! Давай раз­берем­ся, как ее исполь­зовать и на что она спо­соб­на.
 

ЧТО ЗА FLUX?

Flux — новей­шая базовая модель (а точ­нее — семей­ство моделей) генера­тив­ного искусс­твен­ного интеллек­та для соз­дания изоб­ражений по тек­сто­вым опи­сани­ям. Flux, соз­данный покинув­шими ком­панию Stability AI раз­работ­чиками, уже пред­лага­ет все то, что дол­жна была обес­печить архи­тек­тура Stable Diffusion 3, которая до сих пор в под­вешен­ном сос­тоянии.

Мо­дель Flux отли­чает­ся новым тек­сто­вым декоде­ром с 12 мил­лиар­дами парамет­ров, что поз­воля­ет ей нам­ного уве­рен­нее рас­позна­вать зап­росы и точ­нее сле­довать им. При обу­чении модели не было той жес­ткой цен­зуры, которая при­вела к прак­тичес­ки пол­ной нерабо­тос­пособ­ности Stable Diffusion 3 Medium; в резуль­тате позы людей у Flux выг­лядят более естес­твен­ными. С количес­твом паль­цев на руках дело ста­ло луч­ше, но проб­лема побеж­дена не до кон­ца; добав­лена работа с тек­стом на изоб­ражени­ях — то, что заяв­лялось как прин­ципи­аль­ное отли­чие Stable Diffusion 3.

Мо­дель сущес­тву­ет в трех вари­антах:

  • FLUX.1 [pro] — пол­ная вер­сия модели, дос­тупная толь­ко через API. Да, раз­работ­чики тоже хотят кушать, а их инвесто­ры — получить при­быль;
  • FLUX.1 [dev] — самая круп­ная модель с 12 мил­лиар­дами парамет­ров, дос­тупная для локаль­ной уста­нов­ки. Модель откры­тая, весовые коэф­фици­енты дос­тупны для ска­чива­ния и даль­нейше­го обу­чения, но с ого­вор­ками: лицен­зия на эту модель не­ком­мерчес­кая; воз­можность ком­мерчес­кого исполь­зования ого­вари­вает­ся отдель­но;
  • FLUX.1 [schnell] — дис­тилли­рован­ная тур­бо‑вер­сия модели, поз­воля­ющая соз­давать изоб­ражения все­го за четыре шага. Эта модель рас­простра­няет­ся по лицен­зии Apache 2.0, но обу­чить ее про­изводные, ско­рее все­го, не получит­ся в силу тех­ничес­ких огра­ниче­ний.

Нас инте­ресу­ют две пос­ледние модели — dev и schnell.

А кто разработчики?

О том, что Black Forest Labs сос­тоит из выход­цев из Stability AI, не написал толь­ко ленивый. Эта коман­да раз­работ­чиков сто­яла у исто­ков тех­нологии латен­тной диф­фузии, впос­ледс­твии покинув Stability AI и осно­вав собс­твен­ную ком­панию. На Reddit есть нем­ного до­пол­нитель­ной информа­ции.

 

ВОЗМОЖНОСТИ FLUX

Flux — гигант­ская по сов­ремен­ным мер­кам модель, спо­соб­ная вос­при­нимать огромное количес­тво кон­цепций и рисовать в широком диапа­зоне сти­лей. На сло­вах это мало отли­чает­ся от воз­можнос­тей моделей SDXL, осо­бен­но с уче­том мно­гочис­ленных ремик­сов и лор. На деле же резуль­таты работы Flux поража­ют. И ведь это толь­ко пер­вая вер­сия базовой модели на осно­ве новой архи­тек­туры. Улуч­шения навер­няка на оче­реди.

Мо­дель спо­соб­на работать с тек­стом, то есть добав­лять на кар­тинки над­писи в точ­ности, как про­сили. Кста­ти, обра­ти вни­мание на очки — сла­бое мес­то SDXL.

Flux неп­лохо понима­ет необыч­ные кон­цепции.

Спо­соб­на вос­про­изво­дить улич­ные сцен­ки (обра­ти вни­мание на руки; это исходная генера­ция без исполь­зования вос­ста­нав­лива­ющих моделей).

Вы­дает кад­ры из псев­доис­торичес­ких гол­ливуд­ских филь­мов (на руке с пер­вой попыт­ки — пять паль­цев; незамут­ненное счастье).

И даже рису­ет иллюс­тра­ции для дет­ских книг.

Для все­го это­го раз­нооб­разия не пот­ребова­лось ни «бро­сания кос­тей» в виде мно­гочис­ленных попыток генера­ции, ни поис­ка и ска­чива­ния соот­ветс­тву­ющих лор.

Хо­чешь поп­робовать новую модель на сво­ем компь­юте­ре? Ни AUTOMATIC1111, ни WebUI Forge для это­го не подой­дут. На момент написа­ния статьи единс­твен­ный софт, под­держи­вающий Flux, — ComfyUI или он же с обо­лоч­кой SwarmUI.

Даль­ше мы рас­смот­рим прод­винутый инс­тру­мен­тарий, поз­воля­ющий не толь­ко получить дос­туп к боль­шому чис­лу тон­ких нас­тро­ек ней­росети, но и авто­мати­зиро­вать генера­цию высоко­качес­твен­ных изоб­ражений.

Читай также

Ра­нее мы уже изу­чили базовые воз­можнос­ти Stable Diffusion и ус­танов­ку ней­росети на компь­ютер, рас­смот­рели нес­коль­ко базовых моделей и на­учи­лись работать с лорами, сти­лями и рефай­нерами в при­ложе­нии Fooocus. Это при­ложе­ние прек­расно под­ходит для начала работы, поз­воляя сра­зу же получить кра­сивые изоб­ражения, но доволь­но ско­ро поль­зователь упи­рает­ся в потолок. В Fooocus нет воз­можнос­ти сра­зу генери­ровать кар­тинки в высоком раз­решении или авто­мати­чес­ки исправ­лять проб­лемы с руками и лицами; для это­го сущес­тву­ют более прод­винутые, но и нам­ного более слож­ные в исполь­зовании вари­анты, один из которых мы будем изу­чать. А в прош­лой статье мы разоб­рались еще с одним прод­винутым интерфей­сом — WebUI reForge.

 

COMFY И SWARMUI

ComfyUI — одновре­мен­но и бэкенд, то есть дви­жок, и фрон­тенд, то есть интерфейс, для генера­ции изоб­ражений по тек­сто­вым опи­сани­ям. Дви­жок Comfy — один из луч­ших, а управле­ние памятью, пожалуй, луч­шее из име­юще­гося на сегод­няшний день. В то же вре­мя интерфейс ComfyUI сво­еоб­разен, сло­жен в осво­ении и нра­вит­ся не всем. Ниже — при­мер прос­тей­шей нас­трой­ки генера­ции в Comfy с исполь­зовани­ем модели SDXL и рефай­нера.

Ус­ложне­ние усло­вий генера­ции усложня­ет и диаг­рамму. Впро­чем, у такого под­хода есть и положи­тель­ные сто­роны: пол­ный дос­туп ко всем внут­реннос­тям движ­ка и воз­можность как сох­ранять, так и ска­чивать готовые диаг­раммы‑ворк­флоу, поз­воля­ющие бук­валь­но в нес­коль­ко кли­ков пов­торить то, на соз­дание чего у авто­ра диаг­раммы ушли мно­гие часы работы.

Ес­ли же тебе хочет­ся чего‑то более при­выч­ного, то на помощь при­дет SwarmUI — обо­лоч­ка для Comfy, интерфейс которой очень похож на A1111. SwarmUI — про­дукт оче­ред­ного выход­ца из Stability AI (инте­рес­но, там вооб­ще кто‑нибудь остался?). Его мес­то сре­ди про­чих интерфей­сов мож­но опи­сать так:

  • Fooocus — прос­той про­дукт для начина­ющих;
  • AUTOMATIC1111 — «клас­сичес­кий» WebUI, апс­трим для раз­нооб­разных фор­ков;
  • WebUI Forge — форк AUTOMATIC1111 с более высокой ско­ростью работы и опти­мизи­рован­ным механиз­мом работы с виде­опа­мятью. На дан­ный момент ведет­ся активная раз­работ­ка, репози­торий в ста­тусе экспе­римен­таль­ного; в про­дук­те будут отра­баты­вать­ся новые тех­нологии — от интерфей­са Gradio 4 до нового движ­ка;
  • WebUI reForge — активный форк WebUI Forge, в котором при­сутс­тву­ют как опти­миза­ции Forge, так и новин­ки из AUTOMATIC1111 и ComfyUI;
  • ComfyUI — мощ­ный и отлично опти­мизи­рован­ный про­дукт с самой широкой сов­мести­мостью с раз­личны­ми тех­нологи­ями диф­фузии. Интерфейс в сти­ле блок‑схем — не для всех;
  • SwarmUI — обо­лоч­ка для Comfy, напоми­нающая WebUI. «Вы находи­тесь здесь!»
 

УСТАНОВКА И НАЧАЛО РАБОТЫ

SwarmUI сей­час име­ет ста­тус бета‑вер­сии и активно раз­рабаты­вает­ся. Готово­го фай­ла для ска­чива­ния пока нет; для уста­нов­ки SwarmUI в Windows тебе при­дет­ся самос­тоятель­но уста­новить:

Пос­ле это­го ска­чай .bat-файл уста­нов­щика и запус­ти его. Дис­три­бутив уста­новит­ся в пап­ку SwarmUI. В про­цес­се уста­нов­ки ска­чает­ся и рас­паку­ется архив с пор­татив­ной вер­сией Comfy, который исполь­зует­ся в качес­тве движ­ка.

По­ка не спе­ши ничего запус­кать; для работы с Flux тебе при­дет­ся ска­чать еще нес­коль­ко фай­лов. Про­цесс опи­сан в до­кумен­тации в раз­деле Black Forest Labs’ Flux.1 Models.

---
Подробнее
+2