Untuk pertama kalinya, kecerdasan buatan mencapai level peraih medali di Olimpiade Matematika Internasional (IMO). Meskipun tidak diberikan secara resmi karena peraturan kompetisi, sistem AI yang disebut AlphaProof mencapai kinerja yang membuatnya mendapatkan Hadiah Perak di IMO 2024. Pencapaian penting ini, yang dirinci dalam makalah yang diterbitkan di Nature, menunjukkan kemajuan pesat AI dalam mengatasi tantangan matematika yang kompleks.
Dikembangkan oleh Google DeepMind, AlphaProof tidak seperti model bahasa besar (LLM) lainnya yang, meskipun mampu memecahkan masalah matematika, sering kali kurang percaya diri dalam solusinya karena potensi kesalahan tersembunyi dalam penalarannya. AlphaProof menonjol karena menjamin akurasi 100%. Prestasi luar biasa ini berasal dari lingkungan pelatihannya yang unik: perangkat lunak pembukti teorema Lean. Lean bertindak seperti guru yang teliti, dengan cermat memverifikasi setiap langkah logis dalam proses pemecahan masalah AlphaProof, memastikan hasil yang tidak dapat disangkal.
Melatih Dalang Matematika
Menciptakan AI yang mahir secara matematis melibatkan proses pelatihan tiga tahap:
-
Foundation Building: AlphaProof pertama kali dimasukkan ke dalam kumpulan data besar yang berjumlah sekitar 300 miliar token yang mencakup kode umum dan teks matematika. Pemaparan ini memberinya pemahaman luas tentang bahasa matematika, logika, dan struktur pemrograman.
-
Belajar dari Para Ahli: Selanjutnya, AI disajikan dengan 300.000 bukti matematika yang dibuat dengan cermat dan ditulis oleh para ahli, semuanya dalam lingkungan Lean. Tahap ini menanamkan dalam AlphaProof pemahaman mendalam tentang bagaimana ahli matematika membangun argumen yang kuat.
-
Latihan Besar-besaran: Tahap terakhir dan penting melibatkan pemberian pekerjaan rumah yang sangat besar kepada AlphaProof: menyelesaikan 80 juta masalah matematika formal. Dengan menggunakan Reinforcement Learning (RL), sistem ini diberi penghargaan untuk setiap pembuktian yang berhasil, mendorongnya untuk menyempurnakan strategi pemecahan masalah melalui uji coba dalam skala besar.
Untuk permasalahan yang sangat menantang, AlphaProof menggunakan teknik yang disebut Test-Time RL (TTRL). Metode inovatif ini melibatkan pembuatan dan penyelesaian jutaan versi sederhana dari masalah target hingga solusi ditemukan, seperti memecah teka-teki rumit menjadi bagian-bagian yang dapat dikelola.
“Pekerjaan kami menunjukkan bahwa pembelajaran dalam skala besar dari pengalaman dasar menghasilkan agen dengan strategi penalaran matematis yang kompleks, membuka jalan bagi alat AI yang andal dalam pemecahan masalah matematis yang kompleks,” tulis para peneliti.
Melampaui Kompetisi: Alat yang Ampuh bagi Ahli Matematika
Kemampuan AlphaProof lebih dari sekadar memecahkan masalah; ia memiliki potensi besar untuk membantu ahli matematika manusia. Dengan memeriksa bukti secara cermat dan mengungkap kesalahan halus, AlphaProof dapat berfungsi sebagai alat yang sangat berharga untuk memastikan akurasi dan mempercepat penemuan matematika. Bayangkan hal ini membantu ahli matematika merumuskan teori baru dengan menyarankan pendekatan alternatif atau mengungkap hubungan tersembunyi dalam struktur matematika yang kompleks.
Pencapaian inovatif ini menandakan lompatan besar dalam kemampuan AI untuk menangani tugas-tugas penalaran abstrak yang secara tradisional dianggap eksklusif untuk manusia. Seiring dengan terus berkembangnya sistem AI seperti AlphaProof, kita dapat melihat penerapan yang semakin canggih dalam matematika dan bidang lainnya, yang mendorong batas-batas dari apa yang mungkin dilakukan di kedua bidang tersebut.
