Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее
OK
Подразделение: нейросети kolersky ai

Могут ли большие языковые модели соответствовать реальному миру?

Новый тест может помочь определить, могут ли системы искусственного интеллекта, делающие точные прогнозы в одной области, понимать ее достаточно хорошо, чтобы применить эту способность в другой области.
Картинка сгенерирована в Stable Diffusion Core KolerskyAI
Еще в 17 веке немецкий астроном Иоганн Кеплер выяснил законы движения, которые позволили точно предсказать, где на небе появятся планеты нашей Солнечной системы, вращающиеся вокруг Солнца. Но только десятилетия спустя, когда Исаак Ньютон сформулировал универсальные законы тяготения, были поняты основополагающие принципы.

Хотя они были вдохновлены законами Кеплера, они пошли гораздо дальше и позволили применять одни и те же формулы ко всему, от траектории пушечного ядра до того, как притяжение Луны управляет приливами на Земле - или как запустить спутник с Земли на поверхность Луны или планет.

Современные сложные системы искусственного интеллекта очень хорошо научились делать конкретные прогнозы, которые напоминают предсказания орбиты Кеплера. Но знают ли они, почему эти предсказания работают, с таким глубоким пониманием, которое исходит из базовых принципов, таких как законы Ньютона? По мере того, как мир становится все более зависимым от систем искусственного интеллекта такого рода, исследователи изо всех сил пытаются измерить, как они делают то, что они делают, и насколько глубоко их понимание реального мира на самом деле.

Теперь исследователи из Лаборатории информационных систем и систем принятия решений Массачусетского технологического института (LIDS) и Гарвардского университета разработали новый подход к оценке того, насколько глубоко эти системы прогнозирования понимают свой предмет и могут ли они применять знания из одной области в несколько иной. И по большому счету ответ на данный момент, в примерах, которые они изучали, таков — не так уж много.

Результаты были представлены на Международной конференции по машинному обучению в Ванкувере, Британская Колумбия, в прошлом месяце постдоком Гарварда Кейоном Вафа, аспирантом Массачусетского технологического института по электротехнике и информатике и филиалом LIDS Питером Г. Чангом, доцентом Массачусетского технологического института и главным исследователем LIDS Ашешем Рамбачаном и профессором Массачусетского технологического института, главным исследователем LIDS и старшим автором Сендхилом Муллайнатаном.

“Люди всегда были способны совершить этот переход от надежных прогнозов к моделям мира”, - говорит Вафа, ведущий автор исследования. Итак, вопрос, который задавала их команда, звучал так: “Смогли ли базовые модели — искусственный интеллект — совершить такой скачок от предсказаний к моделям мира? И мы не спрашиваем, способны ли они, или смогут ли они, или будут ли они. Вопрос в том, делали ли они это до сих пор? ” - говорит он.

“Мы знаем, как проверить, хорошо ли предсказывает алгоритм. Но что нам нужно, так это способ проверить, хорошо ли он понят ”, - говорит Муллайнатан, профессор Питера де Флореса с двойным назначением на факультетах экономики, электротехники и компьютерных наук Массачусетского технологического института и старший автор исследования. “Даже определить, что означает понимание, было непросто”.

По аналогии с “Кеплером" и "Ньютоном", Вафа говорит: "у них обоих были модели, которые действительно хорошо работали над одной задачей, и которые работали практически одинаково с этой задачей. Ньютон предложил идеи, которые можно было обобщить для решения новых задач.” Эта возможность, применяемая к прогнозам, сделанным различными системами искусственного интеллекта, повлечет за собой разработку модели мира, которая сможет “выйти за рамки задачи, над которой вы работаете, и быть способной обобщать новые виды проблем и парадигм”.

Еще одна аналогия, которая помогает проиллюстрировать суть, заключается в разнице между веками накопленными знаниями о том, как избирательно разводить сельскохозяйственные культуры и животных, и пониманием Грегором Менделем основополагающих законов генетического наследования.

“В этой области существует большое волнение по поводу использования базовых моделей не просто для выполнения задач, но и для того, чтобы узнать что-то о мире”, например, в естественных науках, - говорит он. “Ему нужно было бы адаптироваться, иметь модель мира для адаптации к любой возможной задаче”.

Способны ли системы искусственного интеллекта приблизиться к таким обобщениям? Чтобы проверить этот вопрос, команда рассмотрела различные примеры систем интеллектуального искусственного интеллекта на разных уровнях сложности. На самых простых примерах системам удалось создать реалистичную модель моделируемой системы, но по мере усложнения примеров эта способность быстро угасла.

Команда разработала новую метрику, способ количественного измерения того, насколько хорошо система приближается к условиям реального мира. Они называют измерение индуктивным смещением, то есть тенденцией или предвзятостью в сторону ответов, отражающих реальность, основанных на выводах, сделанных на основе изучения огромного количества данных по конкретным случаям.
Самый простой уровень примеров, который они рассмотрели, был известен как решетчатая модель. В одномерной решетке что-то может двигаться только вдоль линии. Вафа сравнивает это с лягушкой, прыгающей между листьями кувшинок в ряд. Когда лягушка прыгает или садится, она называет, что она делает — вправо, влево или остаться. Если она доберется до последней лилии в ряду, она может только остаться или вернуться.

Если кто-то или система искусственного интеллекта может просто слышать звонки, ничего не зная о количестве лепестков кувшинок, может ли она вычислить конфигурацию? Ответ - да: прогнозирующие модели хорошо справляются с реконструкцией “мира” в таком простом случае. Но даже с решетками, когда вы увеличиваете количество измерений, системы больше не могут совершать такой скачок.

“Например, в решетке с двумя или тремя состояниями мы показали, что модель действительно имеет довольно хороший индуктивный уклон в сторону фактического состояния”, - говорит Чанг. “Но по мере того, как мы увеличиваем число штатов, это начинает расходиться с моделями реального мира”.

Более сложной проблемой является система, которая может играть в настольную игру "Отелло", в которой игроки поочередно размещают черные или белые диски на сетке. Модели искусственного интеллекта могут точно предсказать, какие ходы допустимы в данный момент, но оказывается, что они плохо справляются с выводом общего расположения фигур на доске, включая те, которые в данный момент заблокированы для игры.

Затем команда рассмотрела пять различных категорий реально используемых моделей прогнозирования, и опять же, чем сложнее задействованные системы, тем хуже режимы прогнозирования соответствуют реальной модели мира, лежащей в основе.

С помощью этого нового показателя индуктивного смещения “мы надеемся создать своего рода испытательный стенд, где вы сможете оценивать различные модели, различные подходы к обучению в задачах, где мы знаем, какова истинная модель мира”, - говорит Вафа. Если он хорошо работает в тех случаях, когда мы уже знаем лежащую в основе реальность, то мы можем больше верить в то, что его предсказания могут быть полезны даже в случаях, “когда мы на самом деле не знаем, какова истина”, - говорит он.

Люди уже пытаются использовать такого рода прогнозирующие системы искусственного интеллекта для помощи в научных открытиях, включая такие вещи, как свойства химических соединений, которые на самом деле никогда не были созданы, или потенциальных фармацевтических соединений, или для прогнозирования поведения сворачивания и свойств неизвестных белковых молекул. “Что касается более реалистичных задач, - говорит Вафа, - даже для чего-то вроде базовой механики, мы обнаружили, что предстоит пройти долгий путь”.

Чанг говорит: “Было много шумихи вокруг базовых моделей, когда люди пытаются создавать базовые модели для конкретной предметной области — базовые модели на основе биологии, базовые модели на основе физики, базовые модели робототехники, базовые модели для других типов областей, где люди собирают тонны данных” и обучают эти модели делать прогнозы, “а затем надеются, что это приобретет некоторые знания о самой предметной области, которые будут использоваться для других последующих задач”.

Эта работа показывает, что предстоит пройти долгий путь, но она также помогает указать путь вперед. “В нашей статье предлагается применить наши показатели для оценки того, насколько хорошо усваивается представление, чтобы мы могли придумать лучшие способы обучения базовым моделям или, по крайней мере, оценить модели, которые мы обучаем в настоящее время”, - говорит Чанг. “В инженерной области, как только у нас появляется метрика для чего-либо, люди очень, очень хорошо оптимизируют эту метрику”.