Допустим, человек берет своего французского бульдога Боузера в собачий парк. Владельцу собаки легко идентифицировать Боузера, когда он играет среди других собак, находясь на месте.
Но если кто-то захочет использовать генеративную модель искусственного интеллекта, такую как GPT-5, для наблюдения за своим питомцем во время работы, модель может не справиться с этой основной задачей. Визуальные модели, такие как GPT-5, часто превосходно распознают общие объекты, например собаку, но они плохо справляются с поиском персонализированных объектов, таких как французский бульдог Боузер.
Чтобы устранить этот недостаток, исследователи из Массачусетского технологического института и лаборатории искусственного интеллекта MIT-IBM Watson представили новый метод обучения, который обучает модели на языке видения локализовывать персонализированные объекты в сцене.
Их метод использует тщательно подготовленные данные видеотрекинга, в которых один и тот же объект отслеживается в нескольких кадрах. Они разработали набор данных таким образом, что модель должна фокусироваться на контекстуальных подсказках для идентификации персонализированного объекта, а не полагаться на знания, которые она ранее запомнила.
Когда дается несколько примеров изображений, показывающих персонализированный объект, например, чье-то домашнее животное, переподготовленная модель лучше способна определить местоположение того же питомца на новом изображении.
Модели, прошедшие переподготовку с помощью этого метода, превзошли в этой задаче самые современные системы. Важно отметить, что их техника оставляет без изменений остальные общие способности модели.
Этот новый подход может помочь будущим системам искусственного интеллекта отслеживать конкретные объекты во времени, например, детский рюкзак, или локализовывать объекты, представляющие интерес, например, вид животных при экологическом мониторинге. Он также может помочь в разработке вспомогательных технологий, основанных на искусственном интеллекте, которые помогают пользователям с ослабленным зрением находить определенные предметы в комнате.
“В конечном счете, мы хотим, чтобы эти модели могли извлекать уроки из контекста, точно так же, как это делают люди. Если модель может делать это хорошо, вместо того, чтобы переучивать ее для каждой новой задачи, мы могли бы просто привести несколько примеров, и из этого контекста можно было бы сделать вывод, как выполнить задачу. Это очень мощная способность ”, - говорит Джеханзеб Мирза, постдок Массачусетского технологического института и старший автор
статьи об этой технике.
К Мирзе присоединились соавторы статьи Сиван Довех, аспирант Научного института Вейцмана; и Нимрод Шабтай, исследователь IBM Research; Джеймс Гласс, старший научный сотрудник и руководитель группы систем разговорного языка в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL); и другие. Работа будет представлена на Международной конференции по компьютерному зрению.