Проблема ориентации

d269922f-9324-439a-a888-599ea5995679.jpgИ я не про то, что вы сейчас подумали, а про самую что ни на есть тривиальную геометрическую ориентацию в пространстве, которая у нейросетей , оказывается, вполне себе не детская проблема. Не верите? Ну тогда попробуете сами сгенерировать простейшую картинку типа той, что на заставке.

2f07ae20-d263-4520-932d-8fedb7b653d0.jpgПопробуйте поставить девушек так, что б их лиц не было видно.

bfbfb736-29c9-4dc1-b9db-7afa180da261.jpg Легко и просто двигаясь по улице с обычной камерой, делать вот такие фотки.

8b3032e0-44ae-43be-99c1-5aa8d8b8a15f.jpg Но попытка повторить этот же приём нейросетями упирается в непонимание.
По умолчанию, (а порой мне кажется, что уже по внутреннему убеждению) Сlipdrop stable Doodle AI считает, что если в промпте сказано про "девушку", то обязательно надо показать лицо

829b8e79-f8c8-4f36-b99c-9fbd28358f71.jpg И , к сожалению, лицами дело не заканчивается. Любой нестандартный ракурс воспринимается в штыки: пароход - с кормы, автомобиль - со стороны багажника, даже задняя стенка компьютера.
Если по замыслу кадра , предмет должен быть "поврнут спиной к зрителю" - сеть бомбит. И на просторах инетернета уже полно рендеров с танками, у которх ствол орудия торчит из выхлопной трубы, подводных лодок у которых гребной винт спереди, и прочего всяческого непотребства.

ae2420f7-3f0d-4637-aa69-8a9d7961bbb0.jpg Казалось бы - что проще вот такой картинки?
Но нет же : любой ценой - лицо

38480190-5076-485b-bb92-962a560cae2f.jpg И как вы понимаете, цена как правило - непроходная.

В любой изобразительной технологии присутствует три уровня ориентации пространства:
Первый: Ориентация предметов друг относительно друга в одной сцене
251799ee-9dd5-40db-a466-d42c1317e074.jpg

Второй: ориентация источников света по сцене
d21b1d85-edfb-450a-bdcd-0ec4fd70e6cc.jpg

Третий : ориентация вектора движения , если сцена не статичная
2edf6be7-940d-42e2-b0d4-4067b5337359.jpg

... а статичные сцены, как правило не интересные. Да и не бывают в чистом виде.
0f92e4a7-23a4-4387-8232-33f41a8037c9.jpgДаже если сами модели нечего не делают, всё равно - что-то да происходит.
И не важно: рисуете вы карандашём, снимаете на камеру или делаете 3D-анимацию, все эти три уровня вы непременно учитываете, а главное - управляете ими при помощи соответствующих инструментов.

Но только не в нейросетях. Тут всё по другому.

4b3b59c6-f514-41ba-86d1-9966547191aa.jpg Их возможности динамики приятно впечатляют. Даже с избытком.

4cef57b7-a4e4-4471-9276-0a01dbb4ec06.jpg Чтобы привести в движение сцену достаточно упомянуть в промпте слово "танец".

Слегка по хуже ситуация со светом
00988ddb-5745-4a3d-8fb7-9ec3de8229c2.jpg Просто поставить модель на фоне "хромакей" "циклорама" (как это хорошо работает в реальной студии или виртуальной 3D)- не получится.

65b7d210-d33a-484c-bc00-22bacf79ccab.jpg Модели утрачивают связь с системой координат.

a1ab8e9c-bb3c-4a9c-91cb-d450e82c65d6.jpgИх либо рвёт на части и выкручивает им конечности

7b62eb06-a954-4955-a8c0-91b1571f04ca.jpg Либо плющит по масштабу, что тоже не от хорошей жизни.

b5b947aa-e648-4bc2-a8a0-436034720826.jpgСеть успокаивается, когда в качестве базы назначаются реальные предметы: допустим - плинтус. И это всё потому, что она... вообще не имеет собственного виртуального пространства. Она по-просту не знаете, что такое "объёмный мир" - и сразу строит красивую картинку "как вам нравится".

Нравится то оно конечно нравится...

198961cb-f3ce-4071-8653-cba01667202e.jpgно её вольности в трактовке человеческой анатомии не дают расслабиться.

09299b0f-047b-4acc-bbb3-e1e336dbb1d9.jpg И так, что мы имеем? Свет - камера - движение.... И лицо, которого быть не должно.

Напоминаю в Сlipdrop stable Doodle AI несуществует секции для негативных промптов - "лицо", как и много другое, тут не отменить

c14fa82b-01b4-451a-94e6-5849becefb46.jpg Простую просьбу : "Девочки , отвернитесь," - она не понимает.

27084bf8-c735-4c1a-9edf-e3a334236173.jpg"Не смотрите в камеру" - такой же результат.

153fa9af-7d16-4210-9761-2579ddbdeb25.jpg Модель будет крючить и колбасить, но своего она добъётся, даже покалечившись.

63e79b09-0af7-4322-b319-b74057adcd41.jpgВ какой-то мере членовредительства удаётся избежать, прописывая конечности , но это удлиняет промпт и делает его нестабильным.

d4d29e5f-c40f-4f9f-a248-fad4f33b2528.jpg Генерация ломается и всё равное модель стремится восстановить привычный статус кво.

47167587-3187-42a8-a90c-5dd403158eae.jpg Потом эту расчлёнёнку по всему полю собирай. А дальеше , чьё упрямство победит.

36512f6c-e30d-43ff-85a7-31a6a6ac73e0.jpgЛибо сеть сгенерирует сверх-гибкие, но анатомически всё ещё жизнеспособные модели, не желающие смотреть в ту же сторону, что и зритель

b00f940f-07a3-4127-a77c-5a9a29f17e62.jpg Либо, полный шотдаун, перезагрузка итераций и начниаем всё с начала.

6e98a099-bc80-458f-a5b3-8d4e5933743d.jpg То что вы видите сейчас, это как раз свидетельство того, что моё упрямство как минимум не меньше сетевого: предствленные здесь генерации начинаются где-то от 300-го запроса. Но это ещё не всё. Поняв, что измором меня не взять, сеть предложила другую версию развития событий

63b6a584-a0cf-436d-b658-16d90a394d79.jpg Называется : "ни нашим - ни вашим". Да, модель встала, так как я прошу, но ... курточка одета задом на перёд.

8f034a19-c950-4cd8-b08a-c544dd08c7c0.jpg И на борьбу с таким вызывающим дрескодом тоже ушло немало времени.

c8ce70b7-4d0f-4ab0-beed-e8ef9ea05904.jpg Пришлось опять минимизировать одежду и так, мало-помалу, дело пошло на лад

a41e3458-bc35-418d-9e16-d176d0af772d.jpg За хорошее поведение, одёжка понемножку добавлялась

b51902e3-6318-4ee5-bf33-60734a551880.jpg Добавлялся свет...

174da565-6a32-4a9f-a797-57514d2fb3db.jpg... вариативность сцены...

41097990-853e-4ae5-868b-42464154b5d1.jpg К финишу процесса я мог позволить вполне уверенно масштабировать результат

86781bde-16f2-4c71-9941-d49f4efff89f.jpg Подводя черту , отмечу : да - вертеть моделью, как в обычной 3D-среде или консольной версией STABLE DIFFUSION тут боле-менее можно, но отсутствие древовидной иерархической структуры промпта у чисто браузерного движка - этот процесс сильно затрудняет ,
ОДНАКО!
ae6edc69-f93f-4455-95cb-eec7ff067553.jpgПоскольку это компенсируется высокой скоростью генерации рендеров и их фотографическим качеством (с разрешение 1024 по длинной стороне, кстати), то в принципе к этой беде можно привыкнуть , и даже приноровиться.

. . . . . . . .
The picture is clickable for high resolution
. . . . . . . . .
All images shown here
generated by the Neural Network
Сlipdrop stable Doodle AI
The generation prompt was written by
the author of the post.
Number of iterations 100
Editing Artifacts completed in
Photoshop Online
.

AI art
. . . . . . . . .19a23.jpg. . . . . . . . .
ect.

H2
H3
H4
3 columns
2 columns
1 column
12 Comments