Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее
OK
Подразделение: нейросети kolersky ai

Преобразование веб-документов в синтетические данные устраняет растущие ограничения обучающих данных искусственного интеллекта

Datology AI представила BeyondWeb, новую платформу, которая использует синтетические данные для обучения языковых моделей. Подход разработан для решения растущей нехватки высококачественных обучающих данных и утверждает, что он намного эффективнее предыдущих методов.
Картинка сгенерирована в Midjourney KolerskyAI
В то время как бюджеты на обучение для больших языковых моделей сейчас достигают триллионов токенов, найти хорошие веб-данные становится все труднее. Datology AI рассматривает эту "стену данных" как центральную проблему и позиционирует BeyondWeb как решение. Фреймворк реструктурирует существующие веб-документы, делая их более информативными, повышает образовательный тонус и реорганизует контент для лучшего обучения.

Повышение производительности

Согласно Datology AI, BeyondWeb повышает точность на 5,1 процентных пункта в моделях с 8B параметрами по сравнению с Cosmopedia от Hugging Face и на 2,6 процентных пункта по сравнению с набором данных Nemotron-CC от Nvidia
Средние значения точности основаны на 14 стандартных тестах с настройками 0 кадров и 5 снимков
Исследование также показало, что BeyondWeb обучается намного быстрее: в 7,7 раза быстрее, чем open web data, и в 2,7 раза быстрее, чем Nemotron Synthetic. В одном тестировании 3B-параметрическая модель, обученная на BeyondWeb, превзошла 8B-модель, обученная на Cosmopedia, используя тот же бюджет токенов.
BeyondWeb достигла конечной точности около 64 процентов всего за 66 миллиардов токенов, опередив RedPajama в 7,7 раза и Nemotron-Synth в 2,7 раза.
Исследователи рассмотрели семь основных вопросов, связанных с генерацией синтетических данных. Один ключевой вывод: разнообразие необходимо для устойчивого прогресса. Стандартные методы могут помочь на ранних этапах обучения, но отсутствие стилистического разнообразия приводит к снижению отдачи.

Еще одно открытие: разговорный стиль недостаточно представлен в веб-данных, составляя менее 2,7 процента, хотя чат является основным вариантом использования LLM. Добавление большего количества разговорных данных помогает, но быстро выходит на плато.

Небольшие модели могут быть сильны в переформулировании текста

Тестируя модели различных размеров, команда обнаружила, что небольшие языковые модели могут быть эффективными при генерации высококачественных синтетических данных. Переход от параметров 1B к параметрам 3B повысил качество данных на 1,5 процентных пункта, но улучшения остались неизменными на уровне 8B. Это говорит о том, что организации с меньшими ресурсами все еще могут создавать надежные синтетические наборы данных.
По мере увеличения размера модели точность синтетических данных повышается с 1B до 3B, при этом прирост выравнивается на уровне 8B
Исследователи также протестировали различные семейства моделей-преобразователей и обнаружили, что все они дают одинаково надежные синтетические данные. Другими словами, общая оценка модели по бенчмарку не предсказывает, насколько хорошими будут ее синтетические данные.

Использование в реальных условиях

BeyondWeb уже использовался для обучения модели ArceeAI AFM с параметрами 4.5B. Для этого Datology AI построила масштабируемый конвейер, который может обрабатывать триллионы токенов. Команда отмечает, что создание синтетических данных высшего качества является сложной задачей, требующей точной настройки множества переменных. BeyondWeb в настоящее время недоступен для бесплатного использования в исследованиях.

Microsoft продемонстрировала потенциал синтетических данных с помощью Phi-4 в декабре 2024 года, обучив модель на 400 миллиардах токенов синтетических данных в стиле учебника и внедрив специализированные "ключевые токены" для улучшения обучения. Модели Phi-4 дают отличные результаты тестирования, хотя при реальном использовании они вызвали неоднозначную реакцию.

Шестью месяцами ранее Nvidia выпустила Nemotron-4 340B, конвейер с полным открытым исходным кодом для генерации синтетических данных, в котором 98 процентов обучающих данных модели Instruct создаются синтетическим путем. Примерно в то же время исследователи развенчали популярную теорию "краха модели", показав, что синтетические данные могут продвинуть развитие ИИ вперед при правильном использовании.

OpenAI также показала во время анонса GPT-5, что модель обучалась с использованием синтетических данных, вероятно, созданных ее собственной моделью o3. В то время как многие компании используют синтетические данные в первую очередь для сокращения затрат, OpenAI заявила, что фокусируется на тщательной подготовке данных для обеспечения реального обучения, а не только для заполнения пробелов. Себастьен Бубек, который ранее руководил проектом Phi в Microsoft, объяснил этот подход.

Краткие сведения

  • Datology AI представила BeyondWeb, фреймворк, который переформулирует существующие веб-документы для создания более насыщенных информацией и разнообразных обучающих данных для языковых моделей, стремясь решить проблему ограниченных высококачественных данных.
  • Исследователи сообщают, что BeyondWeb повысил точность на 5,1 процентных пункта в моделях 8B по сравнению с Cosmopedia и позволил обучать в 7,7 раза быстрее, чем при использовании открытых веб-данных.
  • Исследование подчеркивает важность стилистического разнообразия и тщательно подобранной доли разговорных данных для повышения производительности языковой модели.