Впервые в истории искусственный интеллект достиг уровня выполнения заданий, достаточного для получения медали на Международной математической олимпиаде (ММО). Несмотря на то что официально награда не была присуждена из-за правил соревнований, система ИИ под названием AlphaProof продемонстрировала уровень, который позволил бы ей получить серебряную медаль на ММО 2024 года. Это знаменательное достижение, описанное в статье, опубликованной в журнале Nature, свидетельствует о быстром прогрессе ИИ в решении сложных математических задач.
Разработанный Google DeepMind, AlphaProof отличается от других больших языковых моделей (LLM), которые, будучи способными решать математические задачи, часто сомневаются в своей правоте из-за потенциальных скрытых ошибок в своих рассуждениях. AlphaProof выделяется тем, что гарантирует 100% точность. Такой выдающийся результат достижим благодаря его уникальной среде обучения: программному обеспечению Lean theorem prover. Lean выступает в роли строгого учителя, тщательно проверяя каждый логический шаг процесса решения задач AlphaProof, что обеспечивает неоспоримые результаты.
Обучение математического гения
Создание такого математически одаренного ИИ заняло трехэтапный процесс обучения:
-
Закладка основ: AlphaProof сначала погрузился в массивный набор данных объемом около 300 миллиардов токенов, включающий общий код и математический текст. Это ознакомление дало ему широкое понимание математического языка, логики и структур программирования.
-
Обучение у экспертов: Затем ИИ был представлен с 300 000 тщательно составленных математических доказательств, написанных экспертами, все они в среде Lean. Этот этап привил AlphaProof глубокое понимание того, как математики строят строгие аргументы.
-
Массовые тренировки: Финальным и решающим этапом стало предоставление AlphaProof огромного объема домашних заданий: решение 80 миллионов формальных математических задач. С помощью метода Подкрепления (RL), система поощрялась за каждый успешный доказ, что побуждало ее оттачивать свои стратегии решения проблем методом проб и ошибок в колоссальном масштабе.
Для особенно сложных задач AlphaProof использовал метод под названием Test-Time RL (TTRL). Этот инновационный метод заключается в генерации и решении миллионов упрощенных версий целевой задачи до тех пор, пока не будет найдено решение, подобно тому как сложную головоломку разбивают на управляемые части.
«Наши работы демонстрируют, что обучение в масштабе от реального опыта приводит к агентам с комплексными стратегиями математического рассуждения, что открывает путь для создания надежного инструмента ИИ в решении сложных математических задач», — написали исследователи.
Помимо соревнований: мощный инструмент для математиков
Возможности AlphaProof простираются далеко за пределы простого решения проблем; у него огромный потенциал для помощи человеческим математикам. Тщательно проверяя доказательства и выявляя тонкие ошибки, AlphaProof может служить незаменимым инструментом для обеспечения точности и ускорения математических открытий. Представьте себе его помогающим математикам формулировать новые теории, предлагая альтернативные подходы или раскрывая скрытые связи в сложных математических структурах.
Это прорывное достижение является значительным шагом вперед в способности ИИ решать абстрактные задачи рассуждения, которые ранее считались прерогативой человека. По мере эволюции таких систем ИИ, как AlphaProof, мы можем ожидать все более сложных приложений в математике и других областях, расширяя границы того, что возможно в обеих сферах.
