Синтетические данные в обучении AI: возможности и ограничения
Возможно ли обучить AI только на данных, сгенерированных другим AI? Это может показаться безумной идеей, но она существует уже довольно давно. И по мере того как новые, реальные данные становятся все труднее достать, эта идея набирает популярность. Компания Anthropic использовала синтетические данные для обучения одной из своих флагманских моделей, Claude 3.5 Sonnet. Meta* доработала свои модели Llama 3.1, используя данные, сгенерированные AI. Говорят, что OpenAI использует синтетические данные для обучения своей модели «reasoning» o1 для предстоящего Orion.
Подробнее