Встречайте нашу новую нейросеть ruDALL-E!

Напишите текстовый запрос — получите сгенерированную ИИ картинку

Попробуйте

Для более быстрой и качественной генерации попробуйте приложение Салют. Если оно у вас уже есть, просто скажите «Включи художника».

Светлая спальня с большой кроватью и большими зелеными пальмами по периметру

Цель

Наша задача — создать «мультимодальную» нейронную сеть, которая изучает концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы лучше понимать мир. Трансформер научен авторегрессивно моделировать токены текста и изображения как единый поток данных.

Применение

Генерация изображений решает две важные задачи, которые не может решить поиск: 1) позволяет учесть точное описание желаемого, 2) создаёт изображение, которое раньше не существовало. Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.

Самая большая вычислительная задача в истории России

На кластере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Наша самая большая обученная модель XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!

ruDALL-E Malevich (XL)

По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире.

Параметры обучения и модели:

  • 1,3 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16000 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка переранжирования результатов моделью ruCLIP
  • Поддержка поднятия разрешения с помощью модели RealESRGAN

Красивый горный пейзаж
Очень красивая собака
Красивая желтая птичка с красным клювом

ruDALL-E Kandinsky (XXL)

Русская text-to-image модель, генерирующая изображения по тексту. Архитектура такая же, как у ruDALL-E XL. Ещё больше параметров в новой версии!

Параметры обучения и модели:

  • 12 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16000 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка переранжирования результатов моделью ruCLIP
  • Поддержка поднятия разрешения с помощью модели RealESRGAN

Красивый закат над морем
Кресло в форме авокадо
Синяя лягушка с пушистым хвостом