В EpochAI's
Frontier Math Benchmark , представленном в ноябре прошлого года как один из самых сложных математических тестов ИИ, o3 достиг 25,2% успеха — намного больше предыдущих моделей, которые не смогли преодолеть 2%. Разработчики бенчмарка
назвали эти результаты «значительным скачком» и заявили, что уже готовят «более жесткие бенчмарки следующего поколения» для тестирования будущих моделей ИИ.
Система показывает схожие результаты и в других областях. Точность выполнения программных задач улучшилась на 20 процентов по сравнению с o1, достигнув 71,7 процента. В соревновательном программировании o3 набрал 2727 баллов Codeforces, превзойдя результат главного ученого OpenAI в 2665 баллов.
По данным OpenAI, при ответе на вопросы по научным дисциплинам на уровне доктора наук в тесте GPT Diamond Benchmark o3 набрал 87,7%, что значительно выше среднего показателя среди экспертов в своих областях, составляющего около 70%.
Стоимость рассужденийФрансуа Шолле, разработавший тест ARC,
описывает производительность o3 как «удивительное и важное поэтапное увеличение возможностей ИИ».
Шолле объясняет, что o3 отличается тем, как он подходит к проблемам. В отличие от традиционных языковых моделей, которые в основном извлекают сохраненные шаблоны, o3 создает новые программы в реальном времени для решения незнакомых задач.
По словам Шолле, система, по-видимому, работает аналогично шахматной программе
AlphaZero от Google DeepMind , методично перебирая возможные решения, пока не найдет правильный подход. Этот тщательный процесс объясняет, почему o3 требуется так много вычислительной мощности — она обрабатывает до 33 миллионов токенов для одной задачи.
Эта интенсивная обработка токенов сопряжена со значительными расходами по сравнению с текущими системами ИИ. Высокоэффективная версия стоит около 20 долларов за задачу, что быстро складывается в 2012 долларов за 100 тестовых задач или 6677 долларов за полный набор из 400 публичных задач (в среднем около 17 долларов за задачу).
Версия с низкой эффективностью требует еще больше ресурсов — в 172 раза больше вычислительной мощности, чем версия с высокой эффективностью. Хотя OpenAI не раскрыла точные затраты, тестирование показывает, что эта версия обрабатывает от 33 до 111 миллионов токенов и требует около 1,3 минут вычислительного времени на задачу.