Генерация изображений — Вадим Булгаков

Главный тезис лекции Качественная генерация изображений строится на универсальном принципе: объект + атрибуты + контекст + стиль. Этот подход работает во всех нейросетях и переиспользуется для видео, звука и 3D. Лучший способ прокачать навык — пытаться воссоздавать существующие изображения, а не генерировать из головы.

Содержание лекции

История генеративной графики: DeepDream, GAN, Diffusion 00:00 Модификация изображений: апскейлеры и перенос стиля 05:30 Генерация изображений: специализированные нейросети 13:00 Принципы промптинга: объект, атрибуты, контекст, стиль 17:30 Работа с английским языком и переводчики (DeepL) 24:00 Особенности разных нейросетей: DALL-E, Midjourney, Stable Diffusion, Flux 27:00 Практические советы: воссоздание существующих изображений 31:30

📖 История генеративной графики: DeepDream, GAN, Diffusion 00:00

00:00

Всем привет! Меня зовут Вадим Булгаков, и сегодня поговорим про работу с графикой, видео и звуком при помощи искусственного интеллекта. И первое видео у нас с вами будет про работу с изображениями. Здесь, наверное, стоит начать с некой исторической справки — вообще, как мы до этого дела добрались. Работа с графикой при помощи алгоритмов началась достаточно давно. Хотя на слуху нейросети всего пару лет, на самом деле это достаточно долгий процесс.

01:00

Я хотел бы остановиться на одной из картинок из 2015 года — иллюстрации для статьи в одном из медиа, связанных с искусством и критикой искусства, которая называется «Google DeepDream: Getting to Good». Модель генерации изображений от Google в то время называлась DeepDream. Уже тогда, в 2015 году, люди воспринимали её как что-то действительно хорошее и качественное. Но само качество изображения вы, думаю, можете представить. Этот подход — когда при помощи кода и алгоритмов создавалось что-то, похожее хотя бы на какие-то объекты — был прорывным и интересным.

02:10

Если мы возьмём то же самое изображение и попробуем воспроизвести его современными средствами, оно будет выглядеть гораздо более живописно, детализировано. Переход от непонятных клякс, немного галлюциногенных изображений до вполне воспринимаемых комфортных картинок прошёл благодаря двум технологиям. Первая — это генеративные состязательные модели, GAN. Они в первую очередь решали задачу улучшения качества уже существующего изображения. Именно с этой технологии начались первые эксперименты с генерацией изображений.

03:15

Истинный прорыв произошёл значительно позже, пару лет назад, когда разработчики решили взять принцип из физики — принцип диффузии — и использовать его для создания изображений. Основная идея: мы не с нуля пытаемся создать картинку, а берём некий шум и при помощи технологии очистки изображения от шума, если сообщаем нейросети, что там находится, оно потихонечку вытягивает изображение, оно становится более качественным. Это изменение подхода привело к той революции, которая произошла в восприятии нейросетей широкой аудиторией.

Исторический контекст Если пять лет назад генерация изображений была уделом учёных, небольшого количества художников и разработчиков-энтузиастов, то сейчас это полноценный мейнстрим. Мы ежедневно сталкиваемся с изображениями, сделанными при помощи нейросетей.