Po raz pierwszy w historii sztuczna inteligencja osiągnęła poziom realizacji zadań wystarczający do otrzymania medalu na Międzynarodowej Olimpiadzie Matematycznej (IMO). Choć nagroda nie została oficjalnie przyznana ze względu na regulamin konkurencji, system AI o nazwie AlphaProof wykazał poziom, który pozwoliłby mu otrzymać srebrny medal na MMO 2024. To przełomowe osiągnięcie, opisane w artykule opublikowanym w czasopiśmie Nature, pokazuje szybki postęp sztucznej inteligencji w rozwiązywaniu złożonych problemów matematycznych.
Opracowany przez Google DeepMind, AlphaProof różni się od innych dużych modeli językowych (LLM), które choć potrafią rozwiązywać problemy matematyczne, są często kwestionowane ze względu na potencjalne ukryte błędy w ich rozumowaniu. AlphaProof wyróżnia się tym, że gwarantuje 100% dokładności. Ten wyjątkowy wynik można osiągnąć dzięki unikalnemu środowisku edukacyjnemu: oprogramowaniu do sprawdzania twierdzeń Lean. Lean działa jak surowy nauczyciel, analizując każdy logiczny krok procesu rozwiązywania problemów AlphaProof, aby zapewnić niezaprzeczalne wyniki.
Szkolenie geniusza matematycznego
Tworzenie tak uzdolnionej matematycznie sztucznej inteligencji wymagało trzyetapowego procesu uczenia się:
-
Podstawy: AlphaProof najpierw zagłębił się w ogromny zbiór danych obejmujący około 300 miliardów tokenów, w tym wspólny kod i tekst matematyczny. Ta ekspozycja dała mu szerokie zrozumienie języka matematycznego, logiki i struktur programistycznych.
-
Szkolenie prowadzone przez ekspertów: Sztuczna inteligencja została następnie zaprezentowana w postaci 300 000 starannie opracowanych dowodów matematycznych napisanych przez ekspertów, a wszystko to w środowisku Lean. Ten etap zaszczepił w AlphaProof głębokie zrozumienie tego, jak matematycy konstruują rygorystyczne argumenty.
-
Ogromne szkolenie: Ostatnim i decydującym krokiem było zadanie AlphaProof ogromnej ilości pracy domowej: rozwiązanie 80 milionów formalnych problemów matematycznych. Dzięki zastosowaniu Wzmocnienia Wzmocnienia (RL) system był nagradzany za każdy udany dowód, zachęcając go do udoskonalania strategii rozwiązywania problemów metodą prób i błędów na kolosalną skalę.
W przypadku szczególnie złożonych problemów AlphaProof zastosował metodę zwaną Test-Time RL (TTRL). Ta innowacyjna metoda polega na generowaniu i rozwiązywaniu milionów uproszczonych wersji docelowego problemu do czasu znalezienia rozwiązania, podobnie jak rozbijanie złożonej układanki na łatwe do ułożenia kawałki.
„Nasza praca pokazuje, że uczenie się na dużą skalę na podstawie doświadczeń ze świata rzeczywistego skutkuje powstaniem agentów ze złożonymi strategiami rozumowania matematycznego, torując drogę solidnym narzędziom sztucznej inteligencji do rozwiązywania złożonych problemów matematycznych” – napisali naukowcy.
Poza konkursami: potężne narzędzie dla matematyków
Możliwości AlphaProof wykraczają daleko poza proste rozwiązywanie problemów; ma ogromny potencjał, aby pomóc ludzkim matematykom. Uważnie sprawdzając dowody i identyfikując subtelne błędy, AlphaProof może służyć jako niezbędne narzędzie zapewniające dokładność i przyspieszające odkrycia matematyczne. Wyobraź sobie, że pomaga matematykom formułować nowe teorie, sugeruje alternatywne podejścia lub odkrywa ukryte powiązania w złożonych strukturach matematycznych.
To przełomowe osiągnięcie stanowi znaczący postęp w zakresie zdolności sztucznej inteligencji do rozwiązywania problemów związanych z abstrakcyjnym rozumowaniem, które wcześniej uważano za domenę człowieka. W miarę ewolucji systemów sztucznej inteligencji, takich jak AlphaProof, możemy spodziewać się coraz bardziej złożonych zastosowań w matematyce i innych dziedzinach, przesuwając granice tego, co jest możliwe w obu obszarach.
























