Hoe een stagiair hielp bij het bouwen van de AI die de wereld deed schudden

21
Hoe een stagiair hielp bij het bouwen van de AI die de wereld deed schudden

In maart 2016 verbaasde AlphaGo van Google DeepMind de wereld door Lee Sedol te verslaan, destijds de best gerangschikte Go-speler ter wereld. Deze overwinning was niet alleen een speloverwinning; het betekende een grote sprong voorwaarts in de kunstmatige intelligentie. Het verhaal achter AlphaGo gaat minder over een plotselinge doorbraak en meer over gerichte inzet, beginnend met een simpel idee van een stagiair.

De eerste vonk

Het project begon met een vraag van Ilya Sutskever, later medeoprichter van OpenAI: kan een AI Go op expertniveau leren spelen? Sutskever betoogde dat als menselijke spelers binnen een halve seconde zetten kiezen, een neuraal netwerk dat proces zou moeten kunnen benaderen. Dit was gebaseerd op eerdere successen op het gebied van beeldherkenning, waarbij AI zijn vermogen om visuele informatie snel te verwerken al had bewezen.

Chris Maddison, destijds masterstudent, kwam in de zomer van 2014 als stagiair bij Google Brain werken om te beginnen met het bouwen van de noodzakelijke neurale netwerken. Het team, waaronder Aja Huang en David Silver, testte aanvankelijk verschillende benaderingen. Maddison ontdekte dat de eenvoudigste strategie – het trainen van een neuraal netwerk om de volgende stap die een expert zou zetten – te voorspellen – de beste resultaten opleverde.

Van stagiairproject tot mondiaal fenomeen

Tegen het einde van die zomer versloegen de netwerken van Maddison de eigen spelers van DeepMind al. Dit vroege succes leidde tot hogere investeringen en een groter team dat zich aan het project wijdde. Het doel verschoof van proof-of-concept naar het verslaan van de beste ter wereld.

Het team bewaarde het imago van Lee Sedol op hun bureau als een constante herinnering aan de uitdaging. Elke verbetering van de AI werd afgemeten aan zijn vaardigheidsniveau. Zoals Maddison het verwoordde: “We zijn een beetje beter, hoe dicht zijn we bij Lee Sedol?” Het antwoord was volgens Huang dat Sedol ‘één steen van God’ was.

De Seoul-wedstrijd en verder

Maddison verliet het project vóór de historische wedstrijd tegen Sedol en koos ervoor om zich te concentreren op zijn doctoraat. Zijn eerste werk legde echter de basis voor de AI die uiteindelijk zou winnen. De sfeer in Seoul tijdens de wedstrijden was intens. Ondanks het vertrouwen in de AI heerste er een gevoel van onzekerheid. Zelfs met statistisch voordeel kan er van alles gebeuren.

De overwinning was niet alleen een overwinning voor DeepMind, maar een cultureel moment. Alleen al in China keken honderden miljoenen mensen naar de eerste wedstrijd, en menigten verzamelden zich in Seoul om de wedstrijden live op gigantische schermen te bekijken.

De evolutie van AI: de blijvende impact van AlphaGo

Het succes van AlphaGo stond niet op zichzelf. Het legde de basis voor moderne AI-systemen, waaronder grote taalmodellen (LLM’s). Het kernprincipe blijft hetzelfde: train een neuraal netwerk om het volgende element (beweging of woord) te voorspellen op basis van bestaande gegevens, en verfijn dat model vervolgens met behulp van versterkend leren om het af te stemmen op specifieke doelen.

De sleutel tot vooruitgang is, zoals AlphaGo aantoonde, niet alleen slimme algoritmen, maar ook het beschikken over voldoende gegevens voor de pre-training en duidelijke beloningssignalen voor de post-training. Zonder deze ingrediënten zal geen enkele hoeveelheid technische innovatie voldoende zijn.

Het menselijke element

De overwinning op Lee Sedol was bitterzoet. Sedol zelf verontschuldigde zich bij de mensheid voor zijn verlies en noemde het zijn falen, niet die van hen. De traditie van beoordeling na de wedstrijd, een hoeksteen van de Go-cultuur, was onmogelijk omdat AlphaGo niet menselijk was. Het team keek toe hoe de vrienden van Sedol tussenbeide kwamen om de leegte op te vullen, maar het was niet hetzelfde.

Uiteindelijk was AlphaGo het product van een collectieve inspanning, een ‘stam’ die een artefact bouwde dat in staat was de menselijke vaardigheden in een complex spel te overtreffen. Het doel van Go mag dan zijn om te winnen, het doel ervan strekt zich uit tot entertainment en verkenning, en zorgt ervoor dat zelfs met AI-dominantie de menselijke betrokkenheid zal blijven bestaan.