Почему ИИ‑изображения стали скучными: 12 одинаковых визуальных троп

Новое исследование объясняет, где исчезает творчество

Натали Фир

Опубликовано 26.12.2025 в 02:56 2 мин

2 мин

Основные идеи

При циклической генерации ИИ‑изображений модели сходят к 12 одинаковым визуальным шаблонам.

Stable Diffusion XL + LLaVA демонстрируют эффект «визуальная музыка лифта» при многократной генерации.

Исследование подчёркивает ограниченность ИИ как источника оригинальных художественных идей.

Человеческий творческий вклад остаётся незаменимым для создания новых образов.

Мнение автора

Натали Фир

Я вижу, что ИИ пока не может полноценно творить сам по себе: генерация ограничена шаблонами, и только человек способен внести настоящую художественную оригинальность.

Оглавление

Вы когда‑нибудь замечали, что картинки, сгенерированные ИИ, часто выглядят как будто их штампуют на конвейере? Бесплодные пейзажи, однотипные сцены, «нюансированные» интерьеры — всё это уже никого не удивляет. Так почему же у ИИ не получается по‑настоящему творить? Новое исследование учёных даёт шокирующий ответ: при циклической генерации моделей изображения со временем деградируют до набора из всего двенадцати визуальных шаблонов.

Исследователи из Швеции и США провели эксперимент, где две нейросети — генератор изображений Stable Diffusion XL и модель для описания изображений LLaVA — работали в связке друг с другом, передавая результат по цепочке без участия человека. Чем больше «обмена» происходило, тем дальше изображения уходили от оригинального замысла и тем одинаковее становились визуальные мотивы.

ИИ‑изображения стали скучными: 12 шаблонов | DGL.RU

Видео от DGL.RU

Учёные назвали этот эффект «визуальная музыка лифта» — отсылка к тому, как монотонно фоновые мелодии повторяются снова и снова. В результате ИИ не раскрывает творческий потенциал, а возвращается к самым распространённым и привычным образам — например, пасторальные пейзажи, дождливые ночи, пляжи или стандартные интерьерные сцены.

Как проходило исследование

Цикл выглядел так:

Stable Diffusion XL генерировал изображение по исходному текстовому описанию.
LLaVA читал и описывал это изображение текстом.
Описание возвращалось генератору как новый запрос.
Процесс повторялся многократно — до ~100 раз подряд. При этом визуальные результаты стремились к всё‑тем же ограниченному набору стилей вне зависимости от начального сюжета.

Это похоже на телефонную игру, где фраза теряет свой смысл от участника к участнику, но в случае ИИ такая деградация происходит не из‑за человеческой ошибки, а из‑за внутренних ограничений моделей.

Что это значит для творчества

Такой феномен подчёркивает фундаментальный недостаток современных генеративных моделей: они не являются источником оригинальной художественной идеи, а лишь делают статистически вероятные визуальные варианты на основе своей обучающей выборки. Это ставит под сомнение их способность создавать действительно новые и неожиданные образы без сильной человеческой направляющей.

Коротко говоря: как бы вы ни пытались «переспросить» ИИ тысячу раз, он рано или поздно вернётся к своим самым удобным и стандартным шаблонам. И именно поэтому человеческий творческий вклад остаётся незаменимым в визуальном искусстве.

Ваш текст мертв: как нейросети убивают авторский стиль и превращают интернет в свалку

Натали Фир

Она пишет о новостях в мире искусства и дизайна. Она любит литературу и музыку. Но есть у неё одна слабость. Она обожает интернет-культуру и может часами «залипать» в ТикТоке.