Возможность быстрой генерации высококачественных изображений имеет решающее значение для создания реалистичных имитируемых условий, которые можно использовать для обучения самоуправляемых автомобилей избегать непредсказуемых опасностей, делая их более безопасными на реальных улицах.
Но методы генеративного искусственного интеллекта, которые все чаще используются для получения таких изображений, имеют недостатки. Один из популярных типов моделей, называемый диффузионной моделью, может создавать потрясающе реалистичные изображения, но он слишком медленный и требует больших вычислительных затрат для многих приложений. С другой стороны, модели авторегрессии, которые используются в LLM, такие как ChatGPT, намного быстрее, но они создают изображения более низкого качества, которые часто изобилуют ошибками.
Исследователи из MIT и NVIDIA разработали новый подход, который объединяет лучшее из обоих методов. Их гибридный инструмент генерации изображений использует авторегрессионную модель для быстрого получения общей картины, а затем модель малой диффузии для уточнения деталей изображения.
Их инструмент, известный как HART (сокращение от hybrid autoregressive transformer), может генерировать изображения, которые соответствуют или превосходят по качеству современные диффузионные модели, но делают это примерно в девять раз быстрее.
Процесс генерации потребляет меньше вычислительных ресурсов, чем типичные диффузионные модели, что позволяет запускать HART локально на коммерческом ноутбуке или смартфоне. Пользователю нужно всего лишь ввести одно приглашение на естественном языке в интерфейс HART, чтобы сгенерировать изображение.
HART может иметь широкий спектр применений, таких как помощь исследователям в обучении роботов выполнению сложных реальных задач и помощь дизайнерам в создании ярких сцен для видеоигр.
“Если вы рисуете пейзаж и просто раскрашиваете весь холст один раз, это может выглядеть не очень хорошо. Но если вы нарисуете большую картину, а затем усовершенствуете ее более мелкими мазками кисти, ваша картина может выглядеть намного лучше. Это основная идея HART ”, - говорит Хаотиан Тан, 22 года, доктор философии, 25 лет, соавтор
новой статьи о HART.
К нему присоединились соавтор Еченг Ву, студент бакалавриата Университета Цинхуа; старший автор Сон Хан, доцент кафедры электротехники и компьютерных наук Массачусетского технологического института (EECS), сотрудник Лаборатории искусственного интеллекта MIT-IBM Watson и выдающийся ученый NVIDIA; а также другие сотрудники MIT, Университета Цинхуа и NVIDIA. Исследование будет представлено на Международной конференции по обучающим представлениям.