Представляем семейство генеративных моделей от SberDevices и Sber AI!

Модели позволяют создавать изображения, которых раньше не существовало. Всё что нужно — текстовое описание на русском или другом языке.

Ниже — технические характеристики каждой из моделей, а также примеры созданных ими изображений.

Попробуйте вместе с генеративными художниками создать уникальные изображения, используя свои собственные формулировки. Попросите генеративных художников изобразить что-то особенное и для вас.

Встречайте новую модель Kandinsky 2.0!

Эта модель генерирует красочные изображения за считанные минуты.

Протестировать модель можно в разделе Kandinsky 2.0 или в мобильном приложении Салют — достаточно сказать виртуальному ассистенту «Запусти художника», а затем голосом попросить его что-нибудь нарисовать 🧑‍🎨

Также к вашим услугам предшественники Kandinsky 2.0 — генеративные художники ruDALL-E Malevich и ruDALLE-E Kandinsky

А с помощью ruDALL-E Emojich можно генерировать новые эмодзи. 🧚👩‍💻💁‍♂️ Посмотреть 👀👀👀

Рождественская ночь с красивым месяцем и нарядной ёлкой

Kandinsky 2.0

Модель Kandinsky 2.0 использует метод обратной диффузии и за считанные минуты создаёт красочные изображения на различные темы по текстовому запросу на русском и других языках. Можно даже комбинировать разные языки в рамках одного запроса. Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке ученых из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices из 1 млрд пар «текст — изображение».

Попробуйте

Параметры обучения и модели:

  • Два мультилингвальных текстовых энкодера, эмбеддинги которых конкатенируются —344M + 300M параметров соответственно
  • В основе обратной диффузии модель UNet с 1.2B параметрами
  • Динамический трешхолдинг в процессе сэмплирования
  • Количество шагов диффузии — 1000
  • batch_size=48
  • Длина текстового промта — 77 токенов

Прочитать подробнее про Kandinsky 2.0 можно здесь Код и веса модели находятся в открытом доступе: GitHub, HuggingFace

A red colored panda in the space, photo
Древние истуканы, которым поклоняются древние люди
Обложка для диска с эпическим металлом и женским вокалом
Ярмарка на Красной Площади в Москве в 17м веке в стиле Сурикова

ruDALL-E Kandinsky (XXL)

Русская text-to-image модель, генерирующая изображения по тексту. Архитектура такая же, как у ruDALL-E XL. Ещё больше параметров в новой версии!

Попробуйте

Параметры обучения и модели:

  • 12 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16384 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка переранжирования результатов моделью ruCLIP
  • Поддержка повышения разрешения выполняется одним из двух способов RealESRGAN или диффузионный суперрез

Подсолнухи в вазе, Винсент Ван Гог
Сюрреализм, стиль
Картошка, стилизованная под аниме, с эффектами электрических разрядов, на фоне современного города в неоновом кибепанк стиле
Закат и город

ruDALL-E Malevich (XL)

По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире.

Попробуйте

Параметры обучения и модели:

  • 1,3 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16000 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка переранжирования результатов моделью ruCLIP
  • Поддержка поднятия разрешения с помощью модели RealESRGAN

Красивый горный пейзаж
Очень красивая собака
Красивая желтая птичка с красным клювом

ruDALL-E Emojich

По короткому текстовому описанию ruDALL-E генерирует смайлики, которые можно использовать для стикеров, клипартов и прототипов дизайна. Модель понимает обширный набор понятий и генерирует совершенно новые эмодзи, которых не существовало до этого.

Попробуйте

Параметры обучения и модели:

  • ruDALL-E Emojich - файнтюн ruDALL-E Malevich. Для дообучения модели было собрано 2749 иконок эмодзи и соответствующих русскоязычных описаний
  • 1,3 млрд параметров
  • Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
  • YTTM токенизатор текстов со словарем 16000 токенов
  • Специализированные маски attention для визуальных последовательностей
  • Поддержка поднятия разрешения с помощью модели RealESRGAN

Гэндальф
Дональд Трамп из лего