И я не про то, что вы сейчас подумали, а про самую что ни на есть тривиальную геометрическую ориентацию в пространстве, которая у нейросетей , оказывается, вполне себе не детская проблема. Не верите? Ну тогда попробуете сами сгенерировать простейшую картинку типа той, что на заставке.
Попробуйте поставить девушек так, что б их лиц не было видно.
Легко и просто двигаясь по улице с обычной камерой, делать вот такие фотки.
Но попытка повторить этот же приём нейросетями упирается в непонимание.
По умолчанию, (а порой мне кажется, что уже по внутреннему убеждению) Сlipdrop stable Doodle AI считает, что если в промпте сказано про "девушку", то обязательно надо показать лицо
И , к сожалению, лицами дело не заканчивается. Любой нестандартный ракурс воспринимается в штыки: пароход - с кормы, автомобиль - со стороны багажника, даже задняя стенка компьютера.
Если по замыслу кадра , предмет должен быть "поврнут спиной к зрителю" - сеть бомбит. И на просторах инетернета уже полно рендеров с танками, у которх ствол орудия торчит из выхлопной трубы, подводных лодок у которых гребной винт спереди, и прочего всяческого непотребства.
Казалось бы - что проще вот такой картинки?
Но нет же : любой ценой - лицо
И как вы понимаете, цена как правило - непроходная.
В любой изобразительной технологии присутствует три уровня ориентации пространства:
Первый: Ориентация предметов друг относительно друга в одной сцене
Второй: ориентация источников света по сцене
Третий : ориентация вектора движения , если сцена не статичная
... а статичные сцены, как правило не интересные. Да и не бывают в чистом виде.
Даже если сами модели нечего не делают, всё равно - что-то да происходит.
И не важно: рисуете вы карандашём, снимаете на камеру или делаете 3D-анимацию, все эти три уровня вы непременно учитываете, а главное - управляете ими при помощи соответствующих инструментов.
Но только не в нейросетях. Тут всё по другому.
Их возможности динамики приятно впечатляют. Даже с избытком.
Чтобы привести в движение сцену достаточно упомянуть в промпте слово "танец".
Слегка по хуже ситуация со светом
Просто поставить модель на фоне "хромакей" "циклорама" (как это хорошо работает в реальной студии или виртуальной 3D)- не получится.
Модели утрачивают связь с системой координат.
Их либо рвёт на части и выкручивает им конечности
Либо плющит по масштабу, что тоже не от хорошей жизни.
Сеть успокаивается, когда в качестве базы назначаются реальные предметы: допустим - плинтус. И это всё потому, что она... вообще не имеет собственного виртуального пространства. Она по-просту не знаете, что такое "объёмный мир" - и сразу строит красивую картинку "как вам нравится".
Нравится то оно конечно нравится...
но её вольности в трактовке человеческой анатомии не дают расслабиться.
И так, что мы имеем? Свет - камера - движение.... И лицо, которого быть не должно.
Напоминаю в Сlipdrop stable Doodle AI несуществует секции для негативных промптов - "лицо", как и много другое, тут не отменить
Простую просьбу : "Девочки , отвернитесь," - она не понимает.
"Не смотрите в камеру" - такой же результат.
Модель будет крючить и колбасить, но своего она добъётся, даже покалечившись.
В какой-то мере членовредительства удаётся избежать, прописывая конечности , но это удлиняет промпт и делает его нестабильным.
Генерация ломается и всё равное модель стремится восстановить привычный статус кво.
Потом эту расчлёнёнку по всему полю собирай. А дальеше , чьё упрямство победит.
Либо сеть сгенерирует сверх-гибкие, но анатомически всё ещё жизнеспособные модели, не желающие смотреть в ту же сторону, что и зритель
Либо, полный шотдаун, перезагрузка итераций и начниаем всё с начала.
То что вы видите сейчас, это как раз свидетельство того, что моё упрямство как минимум не меньше сетевого: предствленные здесь генерации начинаются где-то от 300-го запроса. Но это ещё не всё. Поняв, что измором меня не взять, сеть предложила другую версию развития событий
Называется : "ни нашим - ни вашим". Да, модель встала, так как я прошу, но ... курточка одета задом на перёд.
И на борьбу с таким вызывающим дрескодом тоже ушло немало времени.
Пришлось опять минимизировать одежду и так, мало-помалу, дело пошло на лад
За хорошее поведение, одёжка понемножку добавлялась
К финишу процесса я мог позволить вполне уверенно масштабировать результат
Подводя черту , отмечу : да - вертеть моделью, как в обычной 3D-среде или консольной версией STABLE DIFFUSION тут боле-менее можно, но отсутствие древовидной иерархической структуры промпта у чисто браузерного движка - этот процесс сильно затрудняет ,
ОДНАКО!
Поскольку это компенсируется высокой скоростью генерации рендеров и их фотографическим качеством (с разрешение 1024 по длинной стороне, кстати), то в принципе к этой беде можно привыкнуть , и даже приноровиться.
The picture is clickable for high resolution
. . . . . . . . .
All images shown here
generated by the Neural Network
Сlipdrop stable Doodle AI
The generation prompt was written by
the author of the post.
Number of iterations 100
Editing Artifacts completed in
Photoshop Online
.