За последние три года число чат-ботов, таких как ChatGPT и Claude, стремительно возросло, потому что они могут помочь вам в решении широкого круга задач. Пишете ли вы сонеты в духе Шекспира, отлаживаете код или нуждаетесь в ответе на непонятный простой вопрос, системы искусственного интеллекта, похоже, помогут вам. Источник такой универсальности? Миллиарды или даже триллионы текстовых точек данных по всему Интернету.
Однако этих данных недостаточно, чтобы научить робота быть полезным помощником по дому или на производстве. Чтобы понять, как обращаться с различными объектами, складывать их и размещать в различных условиях, роботам нужны демонстрации. Данные об обучении роботов можно представить как набор обучающих видеороликов, которые знакомят системы с каждым этапом выполнения задачи. Сбор демонстрационных данных на реальных роботах отнимает много времени и не может быть полностью повторен, поэтому инженеры создавали учебные данные путем моделирования с помощью ИИ (которые часто не отражают физику реального мира) или кропотливого создания каждой цифровой среды вручную с нуля.
Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Исследовательского института Toyota, возможно, нашли способ создать разнообразные, реалистичные тренировочные площадки, необходимые роботам. Их подход “
управляемая генерация сцен” создает цифровые сцены таких объектов, как кухни, гостиные и рестораны, которые инженеры могут использовать для моделирования множества реальных взаимодействий и сценариев. Обученный в более чем 44 миллионах 3D-комнат, заполненных моделями объектов, таких как столы и тарелки, инструмент помещает существующие объекты в новые сцены, затем преобразует каждую из них в физически точную, реалистичную среду.
Управляемая генерация сцен создает эти 3D-миры, “направляя” диффузионную модель — систему искусственного интеллекта, которая генерирует изображение из случайного шума — к сцене, которую вы бы нашли в повседневной жизни. Исследователи использовали эту генеративную систему для “раскрашивания” окружающей среды, добавляя определенные элементы по всей сцене. Вы можете представить, что чистый холст внезапно превращается в кухню, усеянную 3D-объектами, которые постепенно перестраиваются в сцену, имитирующую физику реального мира. Например, система гарантирует, что вилка не пройдет через миску на столе — распространенный сбой в 3D-графике, известный как “отсечение”, когда модели накладываются друг на друга.
Однако то, как именно управляемая генерация сцен приближает их создание к реалистичности, зависит от выбранной вами стратегии. Его основная стратегия - “поиск по дереву Монте-Карло” (MCTS), когда модель создает серию альтернативных сцен, заполняя их различными способами для достижения определенной цели (например, делает сцену более физически реалистичной или включает как можно больше съедобных предметов). Программа искусственного интеллекта AlphaGo использует его для победы над противниками-людьми в Го (игре, похожей на шахматы), поскольку система рассматривает возможные последовательности ходов, прежде чем выбрать наиболее выгодный.
“Мы первыми применили MCTS к генерации сцен, представив задачу генерации сцен как последовательный процесс принятия решений”, - говорит аспирант факультета электротехники и компьютерных наук Массачусетского технологического института (EECS) Николас Пфафф, исследователь CSAIL и ведущий автор
статьи, представляющей работу. “Мы продолжаем наращивать отдельные сцены, чтобы со временем создавать лучшие или более желаемые сцены. В результате MCTS создает сцены более сложные, чем те, на которых обучалась диффузионная модель”.
В одном особенно показательном эксперименте MCTS добавила максимальное количество объектов к простой сцене ресторана. После тренировки на сценах, где в среднем было всего 17 объектов, на столе было целых 34 предмета, включая огромные стопки блюд с дим-самами.
Управляемая генерация сцен также позволяет генерировать разнообразные сценарии обучения с помощью обучения с подкреплением — по сути, обучая диффузионную модель достижению цели методом проб и ошибок. После того, как вы потренируетесь на исходных данных, ваша система проходит второй этап обучения, на котором вы определяете вознаграждение (в основном, желаемый результат с оценкой, указывающей, насколько вы близки к этой цели). Модель автоматически учится создавать сцены с более высокими баллами, часто создавая сценарии, которые сильно отличаются от тех, по которым она обучалась.
Пользователи также могут напрямую запрашивать систему, вводя конкретные визуальные описания (например, “кухня с четырьмя яблоками и миской на столе”). Затем управляемая генерация сцен может с точностью воплотить ваши запросы в жизнь. Например, инструмент точно следовал подсказкам пользователей на 98 процентов при создании сцен с полками в кладовой и на 86 процентов при создании беспорядочных столов для завтрака. Обе оценки улучшают результаты как минимум на 10 процентов по сравнению с аналогичными методами, такими как “
MiDiffusion” и “
DiffuScene”.
Система также может завершать определенные сцены с помощью подсказок или световых указателей (например, “придумать другую компоновку сцены с использованием тех же объектов”). Вы могли бы попросить его, например, разложить яблоки на нескольких тарелках на кухонном столе или поставить настольные игры и книги на полку. По сути, это “заполнение пустоты” путем размещения элементов в пустых местах, но с сохранением остальной части сцены.
По словам исследователей, сила их проекта заключается в его способности создавать множество сцен, которые робототехники действительно могут использовать. “Ключевой вывод из наших выводов заключается в том, что сцены, на которых мы предварительно тренировались, могут не совсем походить на те, которые мы на самом деле хотим”, - говорит Пфафф. “Используя наши методы управления, мы можем выйти за рамки этого широкого распространения и выбрать "лучшую" выборку. Другими словами, создание разнообразных, реалистичных и ориентированных на выполнение задач сцен, в которых мы действительно хотим обучать наших роботов ”.
Такие обширные сцены стали испытательными площадками, где они могли запечатлеть взаимодействие виртуального робота с различными предметами. Например, машина аккуратно укладывала вилки и ножи в подставку для столовых приборов и раскладывала хлеб по тарелкам в различных 3D-настройках. Каждая симуляция выглядела плавной и реалистичной, напоминая реальных адаптируемых роботов, управляемая генерация сцен которых однажды может помочь в обучении.
Хотя система могла бы стать обнадеживающим шагом вперед в создании большого количества разнообразных данных об обучении роботов, исследователи говорят, что их работа является скорее доказательством концепции. В будущем они хотели бы использовать генеративный ИИ для создания совершенно новых объектов и сцен вместо использования фиксированной библиотеки ресурсов. Они также планируют включить шарнирные объекты, которые робот мог бы открывать или поворачивать (например, шкафы или банки, наполненные едой), чтобы сделать сцены еще более интерактивными.
Чтобы сделать свою виртуальную среду еще более реалистичной, Пфафф и его коллеги могут включить объекты реального мира, используя библиотеку объектов и сцен, взятых из изображений в Интернете, и используя свою предыдущую работу над “
Масштабируемой Real2Sim”. Расширяя возможности разнообразных и реалистичных площадок для тестирования роботов, созданных искусственным интеллектом, команда надеется создать сообщество пользователей, которое создаст множество данных, которые затем можно будет использовать в качестве массивного набора данных для обучения ловких роботов различным навыкам.
“Сегодня создание реалистичных сцен для симуляции может быть довольно сложной задачей; процедурная генерация может легко создать большое количество сцен, но они, вероятно, не будут репрезентативными для условий, с которыми робот столкнулся бы в реальном мире. Создание вручную индивидуальных сцен отнимает много времени и обходится дорого ”, - говорит Джереми Бинаджиа, ученый-прикладник Amazon Robotics, который не участвовал в работе над статьей. “Управляемая генерация сцен предлагает лучший подход: обучите генеративную модель на большом наборе уже существующих сцен и адаптируйте ее (используя такую стратегию, как обучение с подкреплением) к конкретным последующим приложениям. По сравнению с предыдущими работами, в которых использовалась готовая модель на языке визуального восприятия или просто фокусировалась на расположении объектов в 2D-сетке, этот подход гарантирует физическую осуществимость и учитывает полный 3D-перевод и вращение, позволяя создавать гораздо более интересные сцены.”
“Управляемая генерация сцен с последующим обучением и поиском во время вывода обеспечивает новую и эффективную основу для масштабной автоматизации генерации сцен”, - говорит робототехник Toyota Research Institute Рик Кори SM ’08, PhD ’10, который также не участвовал в работе. “Более того, он может генерировать "невиданные ранее" сцены, которые считаются важными для последующих задач. В будущем объединение этой платформы с обширными данными из Интернета может стать важной вехой на пути к эффективному обучению роботов для использования в реальном мире ”.
Пфафф написал статью вместе со старшим автором Рассом Тедрейком, профессором электротехники и компьютерных наук Toyota, аэронавтики и астронавтики, а также машиностроения в Массачусетском технологическом институте; старшим вице-президентом по моделям большого поведения в Исследовательском институте Toyota; и главным исследователем CSAIL. Другими авторами были исследователь робототехники Toyota Research Institute Хонкай Дай, SM ’12, PhD ’16; руководитель группы и старший научный сотрудник Сергей Захаров; и аспирант Университета Карнеги-Меллон Шун Ивасе. Их работа была частично поддержана Amazon и Исследовательским институтом Toyota. Исследователи представили свою работу на конференции по обучению роботов (CoRL) в сентябре.