День 3 · Лекция

Генерация и модификация изображений с помощью нейросетей

Вадим Булгаков — Преподаватель Школы дизайна НИУ ВШЭ, руководитель направления «Цифровой продукт и ИИ»

18 февраля 2026  ·  Курс «Быстрый старт в ИИ за 4 дня»

Длительность
35мин
Разделов
7
Инструментов
DALL-E, MJ, SD, Flux
Тема
Генерация изображений
Главный тезис лекции Качественная генерация изображений строится на универсальном принципе: объект + атрибуты + контекст + стиль. Этот подход работает во всех нейросетях и переиспользуется для видео, звука и 3D. Лучший способ прокачать навык — пытаться воссоздавать существующие изображения, а не генерировать из головы.
Содержание лекции
История генеративной графики: DeepDream, GAN, Diffusion 00:00 Модификация изображений: апскейлеры и перенос стиля 05:30 Генерация изображений: специализированные нейросети 13:00 Принципы промптинга: объект, атрибуты, контекст, стиль 17:30 Работа с английским языком и переводчики (DeepL) 24:00 Особенности разных нейросетей: DALL-E, Midjourney, Stable Diffusion, Flux 27:00 Практические советы: воссоздание существующих изображений 31:30

📖 История генеративной графики: DeepDream, GAN, Diffusion 00:00

00:00

Всем привет! Меня зовут Вадим Булгаков, и сегодня поговорим про работу с графикой, видео и звуком при помощи искусственного интеллекта. И первое видео у нас с вами будет про работу с изображениями. Здесь, наверное, стоит начать с некой исторической справки — вообще, как мы до этого дела добрались. Работа с графикой при помощи алгоритмов началась достаточно давно. Хотя на слуху нейросети всего пару лет, на самом деле это достаточно долгий процесс.

01:00

Я хотел бы остановиться на одной из картинок из 2015 года — иллюстрации для статьи в одном из медиа, связанных с искусством и критикой искусства, которая называется «Google DeepDream: Getting to Good». Модель генерации изображений от Google в то время называлась DeepDream. Уже тогда, в 2015 году, люди воспринимали её как что-то действительно хорошее и качественное. Но само качество изображения вы, думаю, можете представить. Этот подход — когда при помощи кода и алгоритмов создавалось что-то, похожее хотя бы на какие-то объекты — был прорывным и интересным.

02:10

Если мы возьмём то же самое изображение и попробуем воспроизвести его современными средствами, оно будет выглядеть гораздо более живописно, детализировано. Переход от непонятных клякс, немного галлюциногенных изображений до вполне воспринимаемых комфортных картинок прошёл благодаря двум технологиям. Первая — это генеративные состязательные модели, GAN. Они в первую очередь решали задачу улучшения качества уже существующего изображения. Именно с этой технологии начались первые эксперименты с генерацией изображений.

03:15

Истинный прорыв произошёл значительно позже, пару лет назад, когда разработчики решили взять принцип из физики — принцип диффузии — и использовать его для создания изображений. Основная идея: мы не с нуля пытаемся создать картинку, а берём некий шум и при помощи технологии очистки изображения от шума, если сообщаем нейросети, что там находится, оно потихонечку вытягивает изображение, оно становится более качественным. Это изменение подхода привело к той революции, которая произошла в восприятии нейросетей широкой аудиторией.

Исторический контекст Если пять лет назад генерация изображений была уделом учёных, небольшого количества художников и разработчиков-энтузиастов, то сейчас это полноценный мейнстрим. Мы ежедневно сталкиваемся с изображениями, сделанными при помощи нейросетей.

🔧 Модификация изображений: апскейлеры и перенос стиля 05:30

05:30

Процесс работы с генеративной графикой строится из двух глобальных подходов. Первый — это модификация изображений. Когда у нас уже есть какое-то изображение, фотография или иллюстрация, неважно каким путём полученная — сфотографировали, взяли где-то или даже сгенерировали. Процесс заключается в том, что мы имеем исходное изображение и на выходе получаем то же самое изображение с точки зрения его содержания и смысла, но с изменёнными параметрами.

Технология 1 — Апскейлеры
06:20

Наверное, старейшие технологии, связанные с использованием искусственного интеллекта для модификации изображений — это апскейлеры. Технология, которая позволяет изображение плохого качества сделать гораздо более высокого качества. Именно массовое внедрение нейросетей в креативную индустрию началось с апскейлеров, потому что изначально вся технология двигалась за счёт потребности улучшать изображение, в основном фотографии.

07:30

Здесь важно понимать: то, что дорисовывает нейросеть, — это не то, что на самом деле изображено на фотографии. Она просто пытается предсказать, какие там пиксели могут быть. Это просто улучшение потребительских качеств изображения, а не его смысловой части. Если вы увеличили изображение и увидели что-то, чего не было в исходной фотографии, это абсолютно нормально — нейросеть просто не знает, что там было, и делает картинку более приятной для восприятия.

08:15

Возможность увеличения качества изображения сильно улучшает работу, особенно если ваша деятельность связана с печатью. Для отображения на дисплеях достаточно среднего качества изображения, но если речь идёт про печать — иллюстрации, маркетинговые материалы — там качество требуется гораздо выше. Апскейлеры позволяют довести изображение до нужного состояния по размеру и плотности пикселей для печати, что сильно облегчает рабочие процессы.

Технология 2 — Style Transfer (перенос стиля)
09:10

Вторая технология, связанная с модификацией — это то, что называется style transfer, то есть перенос стилей с одного изображения на другое. Возможно, вы слышали про популярное приложение Prisma, которое фотографии переделывала в художественные стили. Это был один из первых мейнстримовых продуктов, где было заявлено, что это нейросети.

10:00

Из использования — у вас есть исходная картинка, например яблока, и вы при помощи картины Ван Гога применяете его стиль и получаете нужное изображение в нужном стиле. Этот приём существует уже примерно 8-9 лет как технология, и качество, естественно, с годами сильно повысилось. Сейчас мы можем очень качественно воссоздавать стилистику художников.

10:50

Здесь мы входим немножко в серую зону с точки зрения морали. Для некоторых специалистов — иллюстраторов, художников — их стиль является фирменным почерком, авторской находкой, и именно за счёт неё они монетизируют своё творчество. Это может оказаться болезненным для ныне живущих авторов. При этом, если ваша задача — просто достилизовать изображение, используя стилистику классических художников, это в целом воспринимается достаточно лояльно и потребителями, и индустрией.

11:50

Важный момент: перенос стиля не перестраивает внутреннее содержание изображения, не перестраивает объекты, из которых оно состоит. Оно только трогает стилистику. Если раньше это был самостоятельный инструмент, то сейчас очень часто используется как завершающий этап работы над графикой: вы сгенерировали то, что вам необходимо, и потом финально приводите серию работ в единый стиль при помощи таких инструментов.

Генерация изображений: специализированные нейросети 13:00

13:00

Теперь непосредственно про генерацию изображений. Мы сейчас находимся в точке, где качество генерации уже такого уровня, что, во-первых, если это качественно сделанная генерация, человек особо не отличит её от реальной фотографии или картины. Машины, которые раньше могли детектировать изображения на предмет их подлинности, тоже сейчас очень часто ошибаются просто потому, что мы достигли определённого уровня качества.

14:00

Вся индустрия сейчас движется в первую очередь в сторону оптимизации производительности — чтобы изображения генерировались быстрее. При этом важно отметить существующий тренд последних пары лет — создание специализированных генеративных нейросетей, обученных генерировать определённые объекты.

14:50

Если мы говорим про популярные инструменты — DALL-E, Midjourney, Stable Diffusion, Flux — это просто модели, которые могут генерировать в принципе всё что угодно. При этом если вам надо делать не фотографии и не художественные иллюстрации, у них уже могут возникать проблемы, как минимум с промптингом, потому что качественно написать промпт для генерации объектов промышленного дизайна в них сложнее.

15:30

Ради этого создаются специальные нейросети, которые очень хорошо делают узкоспециализированные задачи. Есть нейросети для дизайнеров интерьеров, для архитекторов, для графических дизайнеров, которые отлично генерируют логотипы и паттерны и сразу делают их в векторе. Если у вас есть специализированная задача, возможно, есть смысл посмотреть не на популярные инструменты, а на что-то, что уже непосредственно сделано под вашу индустрию.

Ключевой принцип выбора инструмента Тот же самый результат во многом можно получать при помощи популярных нейросетей, но трудозатраты могут оказаться несоизмеримыми. Поэтому важно смотреть на инструменты широко и наблюдать за тем, что происходит на рынке, особенно если ваша отрасль специфичная.

🎯 Принципы промптинга: объект, атрибуты, контекст, стиль 17:30

17:30

Если мы просто сообщим машине слово «яблоко», она может отработать совершенно по-разному. Так же, как и любой человек — если скажете ему представить яблоко, каждый представит своё. Когда мы не специфицируем объект, нейросеть генерирует в том формате, как у неё матрицы пересчитались. С точки зрения алгоритма это будет корректно, но с точки зрения вашей задачи — совсем нет.

18:20

Таким образом, мы подходим к очень простому и понятному принципу. Если мы научимся воспринимать мир как сущность в виде объекта с набором атрибутов — свойств — то описание яблока начинается с того, что оно целое (потому что можно написать половинки), у него есть форма, цвет, текстура и так далее. Чем лучше мы научимся описывать любые объекты максимально подробно, тем лучше мы сможем контролировать процесс генерации.

Компонент 1 — Тип изображения
19:00

Первое, на что стоит обратить внимание при составлении промпта — определить, что за тип и жанр изображения мы должны получить. Это будет иллюстрация, картина, фотография, 3D-рендер, скриншот модели и так далее. Это первая вступительная часть промпта: «фотография чего-то», «картина чего-то», «иллюстрация чего-то». Этот подход невероятно сильно повышает качество финального результата.

Компонент 2 — Объект и его атрибуты
20:00

После того, как определили тип изображения, переходим к описанию объектов. Описываем сам объект, который хотим видеть, и его атрибуцию — набор свойств. Помним про форму, цвет, текстуру. В зависимости от задачи может быть ещё какая-то специфичность. Для сложного объекта важно учитывать его положение в пространстве: на столе находится, висит в воздухе и так далее.

Компонент 3 — Контекст и окружение
21:00

Дальше мы дописываем контекст: объект лежит на чём-то, висит и так далее. Если он лежит на чём-то — на чём именно? Какой у него фон, какое окружение, какое освещение, какая оптика, если речь о фотографичном изображении. Все эти факторы, которые уже вокруг объекта — это следующая часть промпта, и она тоже невероятно сильно влияет на итоговый результат.

Компонент 4 — Стиль
22:10

В самом конце определяем стилистику или оптику, если говорим про изображение, похожее на снятое камерой. Мы завершаем промпт стилистическим описанием — это те вещи, которые позволяют из просто изображений сделать уже именно качественный продукт, который люди не будут воспринимать как что-то из нейросети, а просто как хорошее изображение.

Универсальная формула промпта [Тип изображения] + [Объект с атрибутами: форма, цвет, текстура, положение] + [Контекст: фон, освещение, оптика] + [Стиль и стилизация]. Этот базовый набор приёмов универсальный и хорошо работает во всех нейросетях. Эти же приёмы переиспользуются для работы с видео, звуком и 3D-объектами.
23:00

Один из хороших приёмов, который очень сильно помогает в работе — использовать нейросети, которые умеют интерпретировать изображение в текст. Как один из примеров — нейросеть CLIP-Interrogator, особенно вторая версия. Алгоритм CLIP и процессы unclipping/clipping использовались при обучении нейросетей: им на вход давалось множество изображений, и они учились описывать объект и его свойства. Раз таким образом обучалась нейросеть, то чтобы из неё добыть нужное изображение, этот же подход работает максимально качественно и эффективно.

🌐 Работа с английским языком и переводчики (DeepL) 24:00

24:00

Что важно понимать дополнительно: почти все нейросети сейчас работают на английском языке. Даже если речь идёт про нейросети, сделанные российскими компаниями — Яндексом, Сбербанком и так далее — всё равно сам механизм и ядро нейросети, на которой они существуют, тоже англоязычное. Если мы говорим про русскоязычные сервисы, то при получении промпта происходит простой шаг — перевод с русского на английский, и потом уже на английском оно загружается в алгоритм и генерируется изображение.

24:50

Это можно заметить, когда мы вводим слова, которые неоднозначно переводятся, например, и просто видим, что нейросеть в этом плане путается. Раз всё генерируется при помощи объектов, описанных на английском языке, то и отдавая команду, лучше, конечно, на английском, а потом его проверять. Один из подходов: писать изначально на русском, комфортном для вас языке, и потом уже прогонять через переводчик.

25:30

Для таких переводов я бы советовал использовать как один из вариантов просто текстовые нейросети, которые умеют хорошо работать с контентом. Например, нейросеть DeepL — это один из первых популярных нейросетевых переводчиков. Его основная особенность в том, что он хорошо понимает контекст: если вы меняете одно слово в предложении, он всё остальное предложение тоже переставит относительно этого слова, в отличие от переводчиков предыдущего поколения.

26:20

Сейчас и у Google, и у Яндекса переводчики тоже используют нейросетевые алгоритмы внутри себя, но всё равно DeepL в этом плане остаётся одним из самых качественных. Плюс, конечно же, вам очень сильно могут помогать просто языковые модели — ChatGPT и аналогичные: вы просто можете ему давать промпт и говорить «вот, сделай его на английском языке для такой нейросети», и он будет использовать специфичные требования этой нейросети.

🔍 Особенности разных нейросетей: DALL-E, Midjourney, Stable Diffusion, Flux 27:00

27:00

Сами по себе изображения, если вы не добавляете в них никакого описания стилизации, будут в том стиле, который заложили в них сами создатели. Если просто сгенерировать яблоко в Midjourney, DALL-E от OpenAI, Stable Diffusion и Flux — мы получим изображения, которые будут содержать яблоки, но именно по стилю будут совершенно разными. Это связано с тем, что все эти нейросети обучались на немного разном датасете.

27:50

Самое важное: люди, которые отвечали за донастройку нейросетей перед обучением, имеют разный вкус и разный подход к эстетике. Исходя из этого, результат будет разным. Например, если DALL-E очень много обучался на стоковых изображениях, то там картинки получаются немного усреднённые, в каком-то смысле даже пресноватые. Но это хорошие картинки, если нужно что-то просто проиллюстрировать.

28:40

Midjourney, к примеру, создаёт более художественное изображение, потому что люди, которые отвечали за его настройку, имеют очень хороший визуальный вкус, и датасет, на котором оно обучалось, тоже они подбирали с расчётом на качество. Поэтому среди дизайнеров и иллюстраторов Midjourney является более популярным инструментом, чем DALL-E.

29:20

Stable Diffusion и Flux в массе своей обучались на digital art — различном цифровом искусстве, и там тоже есть узнаваемые черты. Если сейчас вы видите картинку и понимаете, что, скорее всего, это сделано нейросетью (при этом там нет явных артефактов или лишних пальцев), то видите это просто потому, что большинство людей не прибегают к стилизации и получают изображение в том дефолтном стиле, который задан нейросетью.

Как избежать «нейросетевого вида» Чем больше мы видим картинок в дефолтном стиле нейросетей, тем лучше мы их узнаём. Если вы хотите, чтобы ваше изображение воспринималось просто как хорошее изображение, а не как что-то из нейросети — добавьте в промпт упоминание какого-то стиля или особенности визуальной. Это сильно играет вам на руку.
30:30

Само по себе постепенно мы приходим к тому, что инструменты начинают гораздо лучше понимать, что мы от них хотим, и подробность промпта немного снижается — меньше надо специфичных терминов именно для определённой нейросети. Всё направление будет двигаться в сторону упрощения. Но сами фундаментальные подходы за все годы существования инструментов особо не поменялись, потому что в фундаменте лежит достаточно понятный набор правил.

Практические советы: воссоздание существующих изображений 31:30

31:30

Под конец этого урока важно поговорить про саму практику — как развить в себе очень хороший навык генерации изображений, которые нужны вам для решения задач. Самый простой и при этом надёжный способ — пытаться воссоздавать существующие изображения. Вы берёте какую-нибудь фотографию и пытаетесь сгенерировать изображение, которое будет на неё максимально похоже.

32:20

Когда мы пытаемся сгенерировать что-то из головы, у нас может быть недостаточно деталей в представлении, и в целом результат, который получили при помощи генерации, нас в большей степени устраивает именно потому, что тот образ, который у нас в голове, может не содержать нужного количества деталей. Если же у нас есть изображение как образец того, что должно получиться, то нам очень легко понимать, справились мы с задачей или нет. Этот подход позволяет действительно очень быстро прокачивать навык промптинга.

33:10

Этот же приём можно использовать при переходе из одной нейросети в другую. Вы работали в Midjourney, вам надо перейти на Flux. Берёте изображение, пытаетесь его воссоздать во Flux, видите, какие вещи получились, какие не получились, корректируете промпт и получаете нужную картинку. Сам приём позволяет именно качественно и самостоятельно оценить, насколько вы справляетесь с задачей.

33:50

Ещё этот подход позволяет постепенно усложнять навык работы с промптами. Для начала я рекомендую использовать простые изображения: один объект на однородном фоне. После этого попробуйте что-то сгенерировать, когда объект находится на сложном фоне, с непростым освещением. И после этого уже попробуйте генерировать изображения, где у вас несколько фигур или очень сложная динамика. По мере усложнения картины, которую вы пытаетесь воспроизвести, вы сможете очень быстро и качественно освоить промптинг для генерации изображений.

Итог: универсальность освоенных принципов Приёмы, описанные в этой лекции, переиспользуются для работы с другими нейросетями — не только для изображений. При работе с видео используется похожий приём, при работе со звуком и даже с 3D-объектами некоторые из этих приёмов тоже применяются. Если вы качественно освоите эти принципы, то сможете переиспользовать их в огромном количестве различных нейросетевых инструментов.