BeyondWeb уже использовался для обучения
модели ArceeAI AFM с параметрами 4.5B. Для этого Datology AI построила масштабируемый конвейер, который может обрабатывать триллионы токенов. Команда отмечает, что создание синтетических данных высшего качества является сложной задачей, требующей точной настройки множества переменных. BeyondWeb в настоящее время недоступен для бесплатного использования в исследованиях.
Microsoft продемонстрировала потенциал синтетических данных с помощью
Phi-4 в декабре 2024 года, обучив модель на 400 миллиардах токенов синтетических данных в стиле учебника и внедрив специализированные "ключевые токены" для улучшения обучения. Модели Phi-4 дают отличные результаты тестирования, хотя при реальном использовании они вызвали неоднозначную реакцию.
Шестью месяцами ранее Nvidia выпустила
Nemotron-4 340B, конвейер с полным открытым исходным кодом для генерации синтетических данных, в котором 98 процентов обучающих данных модели Instruct создаются синтетическим путем. Примерно в то же время исследователи
развенчали популярную теорию "краха модели", показав, что синтетические данные могут продвинуть развитие ИИ вперед при правильном использовании.
OpenAI также
показала во время анонса GPT-5, что модель обучалась с использованием синтетических данных,
вероятно, созданных ее собственной моделью o3. В то время как многие компании используют синтетические данные в первую очередь для сокращения затрат, OpenAI заявила, что фокусируется на тщательной подготовке данных для обеспечения реального обучения, а не только для заполнения пробелов.
Себастьен Бубек, который ранее руководил проектом Phi в Microsoft, объяснил этот подход.
Краткие сведения- Datology AI представила BeyondWeb, фреймворк, который переформулирует существующие веб-документы для создания более насыщенных информацией и разнообразных обучающих данных для языковых моделей, стремясь решить проблему ограниченных высококачественных данных.
- Исследователи сообщают, что BeyondWeb повысил точность на 5,1 процентных пункта в моделях 8B по сравнению с Cosmopedia и позволил обучать в 7,7 раза быстрее, чем при использовании открытых веб-данных.
- Исследование подчеркивает важность стилистического разнообразия и тщательно подобранной доли разговорных данных для повышения производительности языковой модели.