Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее
OK
Все статьи ОБ ИИ в KolerskyAI

Новый метод обучает генеративные модели ИИ находить персонализированные объекты

После обучения этой технике модели компьютерного зрения могут лучше идентифицировать уникальный предмет в новой сцене.
Картинка доработана в Nano Banana KolerskyAI
Допустим, человек берет своего французского бульдога Боузера в собачий парк. Владельцу собаки легко идентифицировать Боузера, когда он играет среди других собак, находясь на месте.
Но если кто-то захочет использовать генеративную модель искусственного интеллекта, такую как GPT-5, для наблюдения за своим питомцем во время работы, модель может не справиться с этой основной задачей. Визуальные модели, такие как GPT-5, часто превосходно распознают общие объекты, например собаку, но они плохо справляются с поиском персонализированных объектов, таких как французский бульдог Боузер. 

Чтобы устранить этот недостаток, исследователи из Массачусетского технологического института и лаборатории искусственного интеллекта MIT-IBM Watson представили новый метод обучения, который обучает модели на языке видения локализовывать персонализированные объекты в сцене.

Их метод использует тщательно подготовленные данные видеотрекинга, в которых один и тот же объект отслеживается в нескольких кадрах. Они разработали набор данных таким образом, что модель должна фокусироваться на контекстуальных подсказках для идентификации персонализированного объекта, а не полагаться на знания, которые она ранее запомнила.
Когда дается несколько примеров изображений, показывающих персонализированный объект, например, чье-то домашнее животное, переподготовленная модель лучше способна определить местоположение того же питомца на новом изображении.
Модели, прошедшие переподготовку с помощью этого метода, превзошли в этой задаче самые современные системы. Важно отметить, что их техника оставляет без изменений остальные общие способности модели.

Этот новый подход может помочь будущим системам искусственного интеллекта отслеживать конкретные объекты во времени, например, детский рюкзак, или локализовывать объекты, представляющие интерес, например, вид животных при экологическом мониторинге. Он также может помочь в разработке вспомогательных технологий, основанных на искусственном интеллекте, которые помогают пользователям с ослабленным зрением находить определенные предметы в комнате.

“В конечном счете, мы хотим, чтобы эти модели могли извлекать уроки из контекста, точно так же, как это делают люди. Если модель может делать это хорошо, вместо того, чтобы переучивать ее для каждой новой задачи, мы могли бы просто привести несколько примеров, и из этого контекста можно было бы сделать вывод, как выполнить задачу. Это очень мощная способность ”, - говорит Джеханзеб Мирза, постдок Массачусетского технологического института и старший автор статьи об этой технике.

К Мирзе присоединились соавторы статьи Сиван Довех, аспирант Научного института Вейцмана; и Нимрод Шабтай, исследователь IBM Research; Джеймс Гласс, старший научный сотрудник и руководитель группы систем разговорного языка в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL); и другие. Работа будет представлена на Международной конференции по компьютерному зрению.

Неожиданный недостаток

Исследователи обнаружили, что большие языковые модели (LLM) могут преуспевать в обучении из контекста. Если они предоставят магистру права несколько примеров задачи, например задач на сложение, он может научиться отвечать на новые задачи на сложение на основе предоставленного контекста.

Модель языка видения (VLM) по сути представляет собой LLM с подключенным к ней визуальным компонентом, поэтому исследователи MIT подумали, что она унаследует возможности LLM по контекстному обучению. Но это не так.
“Исследовательское сообщество пока не смогло найти черно-белый ответ на эту конкретную проблему. Узкое место может возникнуть из-за того, что некоторая визуальная информация теряется в процессе объединения двух компонентов вместе, но мы просто не знаем ”, - говорит Мирза.

Исследователи намерены улучшить возможности VLMS для выполнения контекстной локализации, которая включает в себя поиск определенного объекта на новом изображении. Они сосредоточились на данных, используемых для переобучения существующих VLM для выполнения новой задачи, процесса, называемого тонкой настройкой.
Типичные данные точной настройки собираются из случайных источников и изображают коллекции повседневных предметов. На одном изображении могут быть припаркованы автомобили на улице, а на другом - букет цветов.
“В этих данных нет реальной согласованности, поэтому модель никогда не научится распознавать один и тот же объект на нескольких изображениях”, - говорит он.

Чтобы решить эту проблему, исследователи разработали новый набор данных, взяв образцы из существующих данных видеотрекинга. Эти данные представляют собой видеоклипы, показывающие один и тот же объект, движущийся по сцене, например, тигра, идущего по лугу.
Они вырезали кадры из этих видеороликов и структурировали набор данных таким образом, чтобы каждый ввод состоял из нескольких изображений, показывающих один и тот же объект в разных контекстах, с примерами вопросов и ответов о его местоположении.
“Используя несколько изображений одного и того же объекта в разных контекстах, мы поощряем модель последовательно локализовывать интересующий объект, фокусируясь на контексте”, - объясняет Мирза.

Акцентирование внимания

Но исследователи обнаружили, что VLM имеют тенденцию к обману. Вместо ответа на основе контекстных подсказок они идентифицируют объект, используя знания, полученные во время предварительного обучения.
Например, поскольку модель уже узнала, что изображение тигра и метка “tiger” коррелируют, она могла бы идентифицировать тигра, пересекающего пастбище, на основе этих предварительно подготовленных знаний, вместо того, чтобы делать выводы из контекста.
Чтобы решить эту проблему, исследователи использовали псевдонимы, а не реальные названия категорий объектов в наборе данных. В этом случае они изменили имя тигра на “Чарли”.
Нам потребовалось некоторое время, чтобы понять, как предотвратить обман модели. Но мы изменили правила игры для модели. Модель не знает, что "Чарли" может быть тигром, поэтому она вынуждена смотреть на контекст


Исследователи также столкнулись с трудностями в поиске наилучшего способа подготовки данных. Если кадры расположены слишком близко друг к другу, фон изменится недостаточно, чтобы обеспечить разнообразие данных.

В итоге точная настройка VLM с помощью этого нового набора данных повысила точность персонализированной локализации в среднем примерно на 12 процентов. Когда они включили набор данных с псевдонимами, прирост производительности достиг 21 процента.
По мере увеличения размера модели их методика приводит к большему увеличению производительности.
В будущем исследователи хотят изучить возможные причины, по которым VLM не наследуют возможности контекстного обучения от своих базовых LLM. Кроме того, они планируют изучить дополнительные механизмы для повышения производительности VLM без необходимости переучивать ее с использованием новых данных.

“Эта работа переосмысливает персонализированную локализацию объектов с несколькими кадрами — адаптацию "на лету" к одному и тому же объекту в новых сценах — как задачу настройки инструкций и использует последовательности видеотрекинга, чтобы научить VLM выполнять локализацию на основе визуального контекста, а не по приоритетам класса. Он также представляет первый бенчмарк для этой настройки с солидными достижениями в открытых и проприетарных VLM. Учитывая огромную важность быстрого обоснования конкретного экземпляра — часто без точной настройки — для пользователей реальных рабочих процессов (таких как робототехника, ассистенты дополненной реальности, инструменты для творчества и т.д.), практический рецепт, ориентированный на данные, предлагаемый в этой работе, может помочь повысить широкое внедрение моделей vision-language foundation ”, - говорит Саурав Джа, постдок Института искусственного интеллекта Мила-Квебек, который не участвовал в этой работе.

Дополнительными соавторами являются Вэй Лин, научный сотрудник Университета Иоганна Кеплера; Эли Шварц, научный сотрудник IBM Research; Хильде Кюне, профессор компьютерных наук в Тюбингенском центре искусственного интеллекта и аффилированный профессор MIT-IBM Watson AI Lab; Раджа Гириес, доцент Тель-Авивского университета; Рожерио Ферис, главный научный сотрудник MIT-IBM Watson AI Lab; Леонид Карлинский, главный научный сотрудник IBM Research; Ассаф Арбелле, старший научный сотрудник IBM Research; и Шимон Ульман, Сами и Рут Кон, профессора компьютерных наук в Институте науки Вейцмана.
Это исследование частично финансировалось MIT-IBM Watson AI Lab.
Перевод: KolerskyAI