Dit artikel gaat over het testen van kunstmatige intelligentie (AI). Ik ga daarbij niet in eerste instantie uit van de techniek achter AI, zoals de meeste presentaties en publicaties doen, maar van het doel van AI. Het doel van AI is om intelligente taken uit te voeren.
Vraag tien mensen wat intelligentie is en je krijgt tien antwoorden. Dat is niet zo gek, want bijvoorbeeld Gardener (1993) onderscheidt acht verschillende vormen van intelligentie: lichamelijk, interpersoonlijk, talig, logisch, natuur, zelf, beeld, muziek. Iemand kan hoogbegaafd in één intelligentie zijn en laagbegaafd in een andere! Intelligentie is geen aangeboren eigenschap (hersenen zijn zelf niet intelligent), maar het is de kwaliteit van gedrag waarbij begrip van een (deel van) de omgeving of van jezelf wordt ontwikkeld. Intelligentie en lerend vermogen hangen nauw samen. Hersenen spelen natuurlijk een belangrijke rol.
In intelligent gedag zijn de volgende elementen altijd aanwezig:
Te samen vormen deze elementen lerend vermogen.
In AI software probeert men bovenstaande elementen binnen een systeem te imiteren, zodat software lerend wordt en het zichzelf (deels) aanpast om een taak of begrip te krijgen.
AI software wordt toegepast waar sprake is van veel ongestructureerde en onvoorspelbare data en men niet van te voren weet wat men precies nodig heeft om een taak precies uit te voeren.
Een voorbeeld is beeldherkenning, waarbij men wil dat de software in alle mogelijke foto’s personen of patronen kan identificeren.
Als het systeem leert aan de hand van vooraf gegeven voorbeelden met de juiste resultaten heet dat supervised learning. Als het systeem zonder voorbeelden zelf komt tot labelling (het ontdekt dat er verschillende groepen dieren zijn, katten en honden) dan heet dit unsupervised learning. Unsupervised learning staat nog in de kinderschoenen.
Risico’s
Traceerbaarheid: zelfs AI-programmeurs zullen niet weten waar een AI-systeem zijn keuzes op baseert. Ze weten alleen hoe het systeem zich aanpast. Omdat de data waar het systeem mee leert zo veel en divers is, is dit niet meer te traceren.
Reductionisme en overdrijving: als de data waar het systeem mee leert onvolledig, tijdelijk deels beperkt is (gaps, flaws) dan kan bijvoorbeeld labelling onjuist of te simpel zijn.
Ontleren: menselijke intelligentie moet soms ontleren; oude ervaringen kwijt raken of anders duiden (denk aan therapie na trauma’s). Dit geldt ook voor AI! Als er eenzijdige data of foutieve data het systeem in gaat (misschien zelfs door hackende andere AI), hoe komt het systeem hier dan van af zonder onterecht andere delen van de geschiedenis kwijt te raken? En kan het systeem ook onterecht vroege ervaringen vergeten? Wordt een simpele huis- tuin-en-keukenkat nog wel herkend als kat als je heel veel exotische katten invoert?
Blind vertrouwen: vanwege bovenstaande risico’s zullen mensen blind gaan vertrouwen op AI. We kunnen niet anders, omdat AI een aantal zaken beter kan dan mensen dat kunnen.
Het testen van kunstmatige intelligentie (AI) zal moeten gebeuren door een nieuw soort tester: de data artist.
AI-testen gaat over testdata: het aanmaken van testdata, deze kunnen manipuleren, het voorspellen van goede uitkomsten op basis van data. Testers moeten grote datasets beheren en kunnen gebruiken voor regressietests, testrapportages en analyseren van productieresultaten.
Daarnaast is negatief testen nog te noemen: AI-systemen hebben grenzen die ze niet mogen overschrijden, zogenaamde “prime directives”. Denk aan drones die geen eigen troepen of burgers mogen raken of een auto die moet kunnen kiezen tussen een hond of een kind om aan te rijden.
Is het mogelijk dat het systeem deze grens overschrijdt? Hier moet de data artist zijn creativiteit en kunde inzetten om situaties te bedenken en het systeem aan te onderwerpen om te kijken of het mogelijk is dat het AI systeem ooit in de fout zou kunnen gaan. Zoals bij alle gecompliceerde testen (zoals E2E-testen) zal de menselijke maat, het daadwerkelijke proces en het gebruik het uitgangspunt moeten blijven.
Gerard Numan
Dit artikel is een samenvatting van de presentatie die Gerard heeft gegeven tijdens de Polteq Conferentie op 7 juni 2018 in het NBC in Nieuwegein.