Пользовательский интерфейс встречается с искусственным интеллектом: уроки, извлеченные из внедрения изображений

2D-художник Playkot Татьяна Миронова подробно рассказала, как студия внедрила в свой конвейер инструменты генерации изображений для создания элементов пользовательского интерфейса для Spring Valley. Вот что команда узнала в ходе этого процесса и каковы явные преимущества и недостатки обучения собственных моделей.

Татьяна Миронова

Все началось с общекорпоративного вопроса: как можно тратить меньше времени на текущие задачи без ущерба для качества?

Многие из нас раньше изучали модели глубокого обучения и инструменты генного искусственного интеллекта из чистого энтузиазма, но понимание того, сможем ли мы интегрировать ИИ в наши процессы, требовало более систематического подхода. Сейчас почти все команды Playkot экспериментируют с нейросетями для своих задач. Мы делимся опытом в чатах на тему искусственного интеллекта в Slack, а когда у кого-то происходит мини-прорыв, мы перенимаем его решения.

Итак, давайте поговорим о том, что мы пробовали в нашей команде по пользовательскому интерфейсу во время работы над Spring Valley.

Я начал активно изучать нейронные сети в начале этого года. Три-четыре дня я потратил на то, чтобы разобраться с инструментами: разобраться в технологиях и подходах, разобраться в технической стороне дела.

Я впервые попробовал Midjourney, так как он показался мне самым доступным вариантом — у нас уже был корпоративный аккаунт для экспериментов. Достаточно быстро я понял, что это не поможет нам сэкономить время на создании иконок: в четвертой версии, которую я тестировал, качество изображения оставляло желать лучшего. В свежей пятой версии качество существенно улучшилось, но для наших задач результаты все равно требовали существенной доработки.

Самым большим камнем преткновения было то, что Midjourney не соответствовал нашему требуемому стилю. Короче говоря, в него загружен весь интернет, поэтому он дает очень непредсказуемые результаты, и вы не можете натренировать его под свой стиль.

Тем не менее, оказалось, что Midjourney — достойный вспомогательный инструмент для концептов или генерации отдельных элементов. Если вам нужно передать идею или найти для нее какую-то форму, он отлично с этим справится.

Например, мне нужно было создать камео-орнамент. Я потратил некоторое время на генерацию и понял, что ни один из результатов меня не устраивает — проще было бы построить всё в 3D. Но сами камео-портреты выглядели прилично: они не выделялись из стиля, не имели двух носов или кривых ртов, так почему бы их не использовать?

В 3D-программах есть инструмент, называемый картой смещения: он добавляет высоту светлым областям объекта и делает отступы темным областям. Камею из «Мидджорни» я быстро вырезал в фотошопе, применил к ней свой материал, и портрет не пришлось рисовать вручную. На иконку я потратил столько же времени, сколько планировал изначально, но камео-изображение получилось интересным, более естественным.

И вот еще пример: мне нужно было сделать ветку с кристаллами. Чтобы продумать, как будет выглядеть каждый из них, нужно немало времени. Я привел пример Midjourney, и он сгенерировал множество этих кристаллов. После этого я выбрал поколение, которое мне больше всего подходило, добавил в подсказку необходимый сид (т. е. переменную этого поколения) и быстро получил достаточное количество графического материала, который в итоге использовал в иконке.

Затем я начал экспериментировать со стабильной диффузией. Он позволяет взять за основу уже созданную модель, добавить свои изображения и обучить ее на этом наборе данных. К тому времени в нашем проекте накопилось много хороших иконок в нужном стиле, которые можно было использовать для датасетов.

В Stable Diffusion есть несколько методов обучения: расширение Dreambooth, Hypernetwork, LoRA. Идея заключалась в том, чтобы протестировать каждый из них и посмотреть, что будет работать. Мы сразу отказались от LoRA, потому что он лучше подходит для лиц и портретов. Однако расширение Dreambooth работало хорошо.

Обучение модели — рискованное предприятие. Поначалу у вас может возникнуть обманчивое ощущение, что вы успешно потренируете его один раз, а затем пожнете плоды. Но когда начинаешь понимать, сколько деталей нужно учитывать… Если видишь, что результаты не очень хорошие, нужно начинать заново. Практически все модели ИИ очень требовательны к видеокартам, и если у вашего компьютера ограничена видеопамять, переобучение займет еще три часа. В результате любая незначительная ошибка удлиняет процесс, и нет никакой гарантии, что результат будет достаточно хорош для использования.