Состояние активности: все сервисы функционируют

OpenAI представляет o3, свою самую продвинутую на сегодняшний день модель рассуждений

OpenAI анонсировала o3, новую модель ИИ, которая достигает прорывной производительности в сложных задачах рассуждения. Экономически эффективная мини-версия должна быть запущена в конце января 2025 года, за ней последует полная версия.

Новая модель o3 от OpenAI представляет собой значительный скачок вперед в возможностях ИИ, особенно в подходе к решению проблем. Как и ее недавно выпущенный предшественник o1 , o3 требует больше времени и вычислительной мощности для решения проблем , используя сложный процесс рассуждений для достижения решений.

o3 устанавливает рекорды по ключевым показателям. Используя стандартную вычислительную мощность, o3 достигает 75,7 процентов по показателю AGI Prize ARC , подскочив до 87,5 процентов при увеличении ресурсов. Показатели ARC считаются индикатором прогресса в направлении общего искусственного интеллекта (AGI).
В EpochAI's Frontier Math Benchmark , представленном в ноябре прошлого года как один из самых сложных математических тестов ИИ, o3 достиг 25,2% успеха — намного больше предыдущих моделей, которые не смогли преодолеть 2%. Разработчики бенчмарка назвали эти результаты «значительным скачком» и заявили, что уже готовят «более жесткие бенчмарки следующего поколения» для тестирования будущих моделей ИИ.

Система показывает схожие результаты и в других областях. Точность выполнения программных задач улучшилась на 20 процентов по сравнению с o1, достигнув 71,7 процента. В соревновательном программировании o3 набрал 2727 баллов Codeforces, превзойдя результат главного ученого OpenAI в 2665 баллов.

По данным OpenAI, при ответе на вопросы по научным дисциплинам на уровне доктора наук в тесте GPT Diamond Benchmark o3 набрал 87,7%, что значительно выше среднего показателя среди экспертов в своих областях, составляющего около 70%.

Стоимость рассуждений

Франсуа Шолле, разработавший тест ARC, описывает производительность o3 как «удивительное и важное поэтапное увеличение возможностей ИИ».

Шолле объясняет, что o3 отличается тем, как он подходит к проблемам. В отличие от традиционных языковых моделей, которые в основном извлекают сохраненные шаблоны, o3 создает новые программы в реальном времени для решения незнакомых задач.

По словам Шолле, система, по-видимому, работает аналогично шахматной программе AlphaZero от Google DeepMind , методично перебирая возможные решения, пока не найдет правильный подход. Этот тщательный процесс объясняет, почему o3 требуется так много вычислительной мощности — она обрабатывает до 33 миллионов токенов для одной задачи.

Эта интенсивная обработка токенов сопряжена со значительными расходами по сравнению с текущими системами ИИ. Высокоэффективная версия стоит около 20 долларов за задачу, что быстро складывается в 2012 долларов за 100 тестовых задач или 6677 долларов за полный набор из 400 публичных задач (в среднем около 17 долларов за задачу).

Версия с низкой эффективностью требует еще больше ресурсов — в 172 раза больше вычислительной мощности, чем версия с высокой эффективностью. Хотя OpenAI не раскрыла точные затраты, тестирование показывает, что эта версия обрабатывает от 33 до 111 миллионов токенов и требует около 1,3 минут вычислительного времени на задачу.
Не совсем AGI

Несмотря на эти впечатляющие результаты, Шолле подчеркивает, что o3 пока не является искусственным интеллектом общего назначения. Система все еще испытывает трудности с некоторыми базовыми задачами и демонстрирует фундаментальные отличия от человеческого интеллекта.
Он объясняет, что настоящий ИИ появится только тогда, когда мы больше не сможем создавать задачи, которые людям кажутся легкими, а ИИ — сложными.
Поскольку o3 расширяет границы текущего эталона ARC, Шолле анонсировал более сложного преемника на 2025 год. Ранние испытания показывают, что o3 достигнет лишь около 30 процентов на ARC-AGI-2, в то время как люди без специальной подготовки могут решить около 95 процентов его задач.

Скоро выйдет версия o3-Mini

OpenAI планирует выпустить более доступную версию o3 mini в конце января 2025 года, а затем и полную версию. Мини-версия будет предлагать три настройки скорости (низкая, средняя и высокая) и превосходит o1 даже на средних настройках, будучи при этом и быстрее, и экономичнее.

Во время живой демонстрации OpenAI показал, как o3 mini самостоятельно генерирует и выполняет код, включая создание скрипта Python, который построил пользовательский интерфейс для самостоятельной оценки на наборе данных. Версия mini также поддерживает функции API, такие как вызовы функций и структурированные выходные данные, что соответствует или превосходит возможности o1 в этих областях.
Перед выпуском OpenAI запускает программу тестирования безопасности , заявки на которую принимаются до 10 января. Компания также представляет «Deliberative Alignment» — новый подход к безопасности, который использует рассудочные способности модели для установления лучших границ безопасности. Что касается названия, OpenAI выбрала «o3», потому что им пришлось пропустить «o2» из-за телекоммуникационной компании O2 .
Краткое содержание

  • OpenAI представила o3, свою самую продвинутую на сегодняшний день модель ИИ. Система устанавливает новые рекорды производительности по ключевым показателям. Она даже превосходит экспертов уровня PhD по научным вопросам. Это модель рассуждений, похожая на o1, которая использует больше вычислений во время вывода, что делает ее более дорогой.
  • Франсуа Шолле, создавший бенчмарк ARC, говорит, что o3 представляет собой фундаментальный сдвиг от предыдущих языковых моделей. Вместо простого сопоставления с образцом он создает новые программы в реальном времени для решения незнакомых проблем. Однако Шолле подчеркивает, что, несмотря на эти возможности, o3 пока не является искусственным интеллектом общего назначения (AGI) и по-прежнему обрабатывает информацию совсем не так, как люди.
  • Компания планирует выпустить экономичную версию o3 mini в конце января 2025 года. Даже при работе на средних настройках эта меньшая модель превосходит предыдущую систему o1. Полная версия o3 будет выпущена немного позже.
Проекты с нейросетями

ChatGPT | GPT-4 | Dall-e | Midjourney | Whisper | Фоторедактор | Stable Diffusion