Встречайте нашу новую нейросеть ruDALL-E!

Напишите текстовый запрос — получите сгенерированную ИИ картинку

Попробуйте

Недавно мы выпустили новую, большую модель ruDALL-E Kandinsky!🎉🎊🥳 Эта модель еще лучше справляется с генерацией красивых и сложных изображений!

Попробовать ее уже можно в приложении Салют. В приложении достаточно просто сказать «Запусти художника», а затем голосом попросить художника ruDALL-E что-нибудь нарисовать 🧑‍🎨

Также у нас есть бот в Discord, где можно не только сгенерить картинки, но и посмотреть генерации других пользователей! Однако в приложении Салют очередь на генерацию значительно меньше, чем в Discord

Светлая спальня с большой кроватью и большими зелеными пальмами по периметру

А еще мы научились генерировать эмодзи 😳😳😳 По текстовому описанию 🧚👩‍💻💁‍♂️ Попробуйте 🥺🥺🥺

Посмотреть 👀👀👀

Цель

Наша задача — создать «мультимодальную» нейронную сеть, которая изучает концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы лучше понимать мир. Трансформер научен авторегрессивно моделировать токены текста и изображения как единый поток данных.

Применение

Генерация изображений решает две важные задачи, которые не может решить поиск: 1) позволяет учесть точное описание желаемого, 2) создаёт изображение, которое раньше не существовало. Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.

Самая большая вычислительная задача в истории России

На кластере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Наша самая большая обученная модель XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!

ruDALL-E Malevich (XL)

По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире.

Параметры обучения и модели:

  • 1,3 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16000 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка переранжирования результатов моделью ruCLIP
  • Поддержка поднятия разрешения с помощью модели RealESRGAN

Красивый горный пейзаж
Очень красивая собака
Красивая желтая птичка с красным клювом

ruDALL-E Kandinsky (XXL)

Русская text-to-image модель, генерирующая изображения по тексту. Архитектура такая же, как у ruDALL-E XL. Ещё больше параметров в новой версии!

Параметры обучения и модели:

  • 12 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16384 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка переранжирования результатов моделью ruCLIP
  • Поддержка повышения разрешения выполняется одним из двух способов RealESRGAN или диффузионный суперрез

Подсолнухи в вазе, Винсент Ван Гог
Сюрреализм, стиль
Картошка, стилизованная под аниме, с эффектами электрических разрядов, на фоне современного города в неоновом кибепанк стиле
Закат и город

ruDALL-E Emojich

По короткому текстовому описанию ruDALL-E генерирует смайлики, которые можно использовать для стикеров, клипартов и прототипов дизайна. Модель понимает обширный набор понятий и генерирует совершенно новые эмодзи, которых не существовало до этого.

Попробуйте

Параметры обучения и модели:

  • ruDALL-E Emojich - файнтюн ruDALL-E Malevich. Для дообучения модели было собрано 2749 иконок эмодзи и соответствующих русскоязычных описаний
  • 1,3 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16000 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка поднятия разрешения с помощью модели RealESRGAN

Гэндальф
Дональд Трамп из лего