De wijdverbreide toepassing van kunstmatige intelligentie (AI) in wetenschappelijk onderzoek brengt een verborgen gevaar met zich mee: de huidige modellen zijn aantoonbaar onbetrouwbaar als het gaat om fundamentele laboratoriumveiligheid. Uit een recent onderzoek blijkt dat zelfs de meest geavanceerde AI-systemen er routinematig niet in slagen kritieke gevaren te identificeren, wat aanleiding geeft tot bezorgdheid over mogelijke ongelukken in onderzoeksomgevingen. Dit is geen theoretisch risico; Laboratoriumincidenten komen, hoewel zeldzaam, voor, met tragedies uit het verleden, waaronder dodelijke slachtoffers en ernstige verwondingen als gevolg van over het hoofd geziene chemische of procedurele gevaren.
Het kernprobleem ligt in de aard van deze AI-modellen. Hoewel ze indrukwekkende prestaties kunnen leveren, zoals het opstellen van e-mails of het samenvatten van documenten, missen ze de gespecialiseerde kennis die nodig is om fysieke risico’s in de echte wereld te beoordelen. Onderzoekers van de Universiteit van Notre Dame ontwikkelden een benchmark genaamd LabSafety Bench om dit te testen, met behulp van 765 meerkeuzevragen en 404 visuele scenario’s met laboratoriumgevaren. De resultaten waren alarmerend: geen van de 19 geteste geavanceerde AI-modellen behaalde een nauwkeurigheid van meer dan 70%. Sommigen presteerden niet beter dan willekeurig raden.
Het probleem met AI voor algemeen gebruik
Het probleem is niet dat AI niet kan helpen in de wetenschap; het is dat de huidige grote taalmodellen (LLM’s) niet zijn ontworpen voor de precisie die vereist is in gevaarlijke omgevingen. Ze blinken uit in algemene taken, maar struikelen wanneer ze worden toegepast op domeinen als de scheikunde, waar een enkele fout catastrofale gevolgen kan hebben. Toen er bijvoorbeeld werd gevraagd naar het omgaan met gemorst zwavelzuur, adviseerden sommige AI-modellen ten onrechte om spoelen met water niet te doen – een fatale fout die voortvloeide uit een verkeerde toepassing van hittegerelateerde waarschuwingen uit andere contexten.
Snelle verbetering, maar nog steeds riskant
Het goede nieuws is dat AI snel verbetert. Sommige modellen, zoals GPT-5.2 van OpenAI, vertonen aanzienlijk betere redeneervaardigheden en foutdetectie dan eerdere versies. Zelfs de meest geavanceerde systemen zijn echter nog niet betrouwbaar genoeg voor gebruik zonder toezicht in laboratoria. Deskundigen zijn het erover eens dat mensen de touwtjes stevig in handen moeten houden en toezicht moeten houden. Een onderzoeker aan de UCLA merkte op dat de prestaties van AI van maand tot maand al verbeteren, wat erop wijst dat de huidige onderzoeken binnenkort achterhaald kunnen zijn.
De menselijke factor blijft cruciaal
Hoewel AI uiteindelijk sommige onervaren onderzoekers op het gebied van veiligheidsbewustzijn kan overtreffen, schuilt het directe gevaar niet alleen in de modellen zelf. Het grotere probleem is de overmatige afhankelijkheid van mensen van deze systemen. Naarmate AI meer geïntegreerd raakt, bestaat het risico dat onderzoekers zelfgenoegzaam worden en kritisch denken aan machines delegeren zonder de juiste validatie. Dit benadrukt de noodzaak van strengere veiligheidsprotocollen en voortdurende training, vooral voor nieuwe studenten met beperkte ervaring.
Uiteindelijk valt het potentieel van AI in de wetenschap niet te ontkennen, maar ongecontroleerde inzet in omgevingen met een hoog risico blijft een gevaarlijke gok. Totdat deze modellen op consistente wijze betrouwbare identificatie van gevaren kunnen aantonen, moet menselijk toezicht de belangrijkste waarborg blijven.

























