Статус активности: все сервисы функционируют
Статус активности: все сервисы функционируют

Инструмент искусственного интеллекта генерирует высококачественные изображения быстрее, чем самые современные подходы

Исследователи объединили лучшее из двух популярных методов для создания генератора изображений, который потребляет меньше энергии и может работать локально на ноутбуке или смартфоне.
Возможность быстрой генерации высококачественных изображений имеет решающее значение для создания реалистичных имитируемых условий, которые можно использовать для обучения самоуправляемых автомобилей избегать непредсказуемых опасностей, делая их более безопасными на реальных улицах.

Но методы генеративного искусственного интеллекта, которые все чаще используются для получения таких изображений, имеют недостатки. Один из популярных типов моделей, называемый диффузионной моделью, может создавать потрясающе реалистичные изображения, но он слишком медленный и требует больших вычислительных затрат для многих приложений. С другой стороны, модели авторегрессии, которые используются в LLM, такие как ChatGPT, намного быстрее, но они создают изображения более низкого качества, которые часто изобилуют ошибками.

Исследователи из MIT и NVIDIA разработали новый подход, который объединяет лучшее из обоих методов. Их гибридный инструмент генерации изображений использует авторегрессионную модель для быстрого получения общей картины, а затем модель малой диффузии для уточнения деталей изображения.

Их инструмент, известный как HART (сокращение от hybrid autoregressive transformer), может генерировать изображения, которые соответствуют или превосходят по качеству современные диффузионные модели, но делают это примерно в девять раз быстрее.

Процесс генерации потребляет меньше вычислительных ресурсов, чем типичные диффузионные модели, что позволяет запускать HART локально на коммерческом ноутбуке или смартфоне. Пользователю нужно всего лишь ввести одно приглашение на естественном языке в интерфейс HART, чтобы сгенерировать изображение.

HART может иметь широкий спектр применений, таких как помощь исследователям в обучении роботов выполнению сложных реальных задач и помощь дизайнерам в создании ярких сцен для видеоигр.

“Если вы рисуете пейзаж и просто раскрашиваете весь холст один раз, это может выглядеть не очень хорошо. Но если вы нарисуете большую картину, а затем усовершенствуете ее более мелкими мазками кисти, ваша картина может выглядеть намного лучше. Это основная идея HART ”, - говорит Хаотиан Тан, 22 года, доктор философии, 25 лет, соавтор новой статьи о HART.

К нему присоединились соавтор Еченг Ву, студент бакалавриата Университета Цинхуа; старший автор Сон Хан, доцент кафедры электротехники и компьютерных наук Массачусетского технологического института (EECS), сотрудник Лаборатории искусственного интеллекта MIT-IBM Watson и выдающийся ученый NVIDIA; а также другие сотрудники MIT, Университета Цинхуа и NVIDIA. Исследование будет представлено на Международной конференции по обучающим представлениям.

Лучшее из обоих миров

Известно, что популярные модели диффузии, такие как Stable Diffusion и DALL-E, позволяют получать изображения с высокой детализацией. Эти модели генерируют изображения посредством итеративного процесса, при котором они предсказывают некоторое количество случайного шума для каждого пикселя, вычитают шум, затем повторяют процесс прогнозирования и “устранения шумов” несколько раз, пока не сгенерируют новое изображение, полностью свободное от шума.

Поскольку диффузионная модель устраняет шумы во всех пикселях изображения на каждом шаге, а шагов может быть 30 или более, процесс медленный и требует больших вычислительных затрат. Но поскольку у модели есть множество возможностей исправить детали, в которых она ошиблась, изображения получаются высокого качества.

Авторегрессионные модели, обычно используемые для прогнозирования текста, могут генерировать изображения путем последовательного прогнозирования участков изображения, по несколько пикселей за раз. Они не могут вернуться назад и исправить свои ошибки, но последовательный процесс прогнозирования происходит намного быстрее, чем распространение.

Эти модели используют представления, известные как токены, для прогнозирования. В авторегрессионной модели используется автоэнкодер для сжатия пикселей необработанного изображения в дискретные токены, а также восстановления изображения из предсказанных токенов. Хотя это повышает скорость модели, потеря информации, возникающая при сжатии, приводит к ошибкам, когда модель генерирует новое изображение.

Совместно с HART исследователи разработали гибридный подход, который использует авторегрессионную модель для прогнозирования токенов сжатого дискретного изображения, а затем модель малой диффузии для прогнозирования остаточных токенов. Остаточные токены компенсируют потерю информации в модели, фиксируя детали, упущенные отдельными токенами.
“Мы можем добиться огромного повышения качества реконструкции. Наши остаточные токены распознают высокочастотные детали, такие как края объекта или волосы, глаза или рот человека. Это места, где дискретные токены могут допускать ошибки ”, - говорит Тан.

Поскольку диффузионная модель предсказывает оставшиеся детали только после того, как авторегрессионная модель выполнила свою работу, она может выполнить задачу за восемь шагов, вместо обычных 30 или более, которые требуются стандартной диффузионной модели для генерации всего изображения. Эти минимальные накладные расходы на модель дополнительной диффузии позволяют HART сохранять преимущество авторегрессионной модели в скорости, при этом значительно повышая ее способность генерировать сложные детали изображения.

“Диффузионная модель выполняет более легкую работу, что приводит к большей эффективности”, - добавляет он.

Превосходит более крупные модели

Во время разработки HART исследователи столкнулись с трудностями при эффективной интеграции диффузионной модели для улучшения авторегрессионной модели. Они обнаружили, что включение диффузионной модели на ранних стадиях процесса авторегрессии привело к накоплению ошибок. Вместо этого их окончательный проект применения диффузионной модели для прогнозирования только остаточных токенов в качестве последнего шага значительно улучшил качество генерации.

Их метод, использующий комбинацию модели авторегрессионного преобразования с 700 миллионами параметров и облегченной диффузионной модели с 37 миллионами параметров, позволяет генерировать изображения того же качества, что и созданные диффузионной моделью с 2 миллиардами параметров, но делает это примерно в девять раз быстрее. Он использует примерно на 31 процент меньше вычислений, чем самые современные модели.

Более того, поскольку HART использует авторегрессионную модель для выполнения основной части работы — модель того же типа, что и LLMS, — он более совместим для интеграции с новым классом генеративных моделей unified vision-language. В будущем можно будет взаимодействовать с унифицированной генеративной моделью на языке видения, возможно, попросив ее показать промежуточные этапы, необходимые для сборки предмета мебели.

“LLM - это хороший интерфейс для всех видов моделей, таких как мультимодальные модели и модели, которые могут рассуждать. Это способ вывести интеллект на новый уровень. Эффективная модель генерации изображений открыла бы множество возможностей ”, - говорит он.

В будущем исследователи хотят пойти по этому пути и создавать модели на языке видения поверх архитектуры HART. Поскольку HART масштабируется и может быть обобщен для нескольких модальностей, они также хотят применить его для задач генерации видео и прогнозирования звука.
Проекты с нейросетями

ChatGPT | GPT-4 | Dall-e | Midjourney | Whisper | Фоторедактор | Stable Diffusion