Uit een onderzoek van Unesco zijn zorgwekkende tendensen gebleken die in grote taalmodellen (LLM’s) leiden tot gendervooroordelen, homofobie en raciale stereotypering. Vrouwen werden veel vaker dan mannen gelinkt aan het vervullen van huishoudelijke taken – vier keer zo vaak volgens één model – en ze werden vaak geassocieerd met woorden als ‘thuis’, ‘familie’ en ‘kinderen’, terwijl mannelijke namen werden gekoppeld aan ‘business’, ‘leidinggevend’, ‘salaris’ en ‘carrière’.
Het onderzoek ‘Challenging systematic prejudices: an investigation into bias against women and girls’ onderzoekt stereotypering in grote taalmodellen (LLM’s) – tools voor natuurlijke taalverwerking die aan de basis liggen van populaire generatieve AI-platforms – waaronder GPT-3.5 en GPT-2 van OpenAI, en Llama 2 van META. Het toont ondubbelzinnig bewijs van vooringenomenheid tegenover vrouwen in de inhoud die door elk van deze grote taalmodellen wordt gegenereerd.
Gevaar om ongelijkheid in de hand te werken
“Elke dag gebruiken steeds meer mensen grote taalmodellen op hun werk, bij hun studie en thuis. Deze nieuwe AI-toepassingen hebben de kracht om op subtiele wijze de perceptie van miljoenen mensen vorm te geven, zodat zelfs kleine gendervooroordelen in de inhoud de ongelijkheid in de echte wereld aanzienlijk kunnen vergroten. Onze Organisatie roept regeringen op om duidelijke regelgevingskaders te ontwikkelen en af te dwingen, en vraagt bedrijven om voortdurend toezicht en evaluatie uit te voeren op systemische vooroordelen, zoals uiteengezet in de Unesco-aanbeveling over de ethiek van kunstmatige intelligentie, die in november 2021 unaniem door onze lidstaten is aangenomen,” aldus Audrey Azoulay, directeur-generaal van Unesco.
Open source LLM's zoals Llama 2 en GPT-2 – gewaardeerd omdat ze gratis en toegankelijk zijn voor een breed publiek – vertoonden de grootste gendervooroordelen. De studie concludeert echter ook dat hun open en transparante karakter een groot voordeel kan zijn bij het aanpakken van deze vooroordelen door een grotere samenwerking binnen de mondiale onderzoeksgemeenschap, vergeleken met meer gesloten modellen, waaronder GPT 3.5 en 4 (de basis voor ChatGPT) en Google's Gemini.
Verschillen in rolverdeling tussen geslachten
Een deel van het onderzoek mat de diversiteit van de inhoud in door AI gegenereerde teksten gericht op een reeks mensen met een spectrum van geslachten, seksualiteit en culturele achtergronden, onder meer door de platforms te vragen ‘een verhaal te schrijven’ over elke persoon. Vooral open-source LLM’s hadden de neiging om meer diverse banen met een hoge status toe te wijzen aan mannen, zoals ‘ingenieur’, ‘leraar’ en ‘arts’, terwijl vrouwen vaak werden gedegradeerd naar rollen die traditioneel ondergewaardeerd of sociaal gestigmatiseerd zijn, zoals ‘huishoudster’, ‘kok’ en ‘prostituee’.
Homofobe houding en raciale stereotypering
Uit het onderzoek bleek ook dat LLM's de neiging hadden om inhoud te produceren die negatief was over homo's en bepaalde etnische groepen. Toen de drie AI-modellen werden gevraagd zinnen af te maken die begonnen met de zinsnede ‘een homoseksueel is…’, was 70% van de door Llama 2 gegenereerde inhoud negatief. 60% van de door GPT-2 gegenereerde inhoud was negatief, waarbij een homoseksuele persoon werd beschreven als ‘prostituee’, ‘crimineel’ en als ‘geen rechten hebben’.
Toen de LLM's werd gevraagd teksten te genereren over verschillende etniciteiten – met als voorbeeld Britse en Zulu mannen en vrouwen – bleken ze een hoge mate van culturele vooringenomenheid te vertonen. Britse mannen kregen verschillende beroepen toegewezen, waaronder ‘chauffeur’, ‘dokter’, ‘bankbediende’ en ‘leraar’. Zulu mannen kregen vaker de beroepen ‘tuinman’ en ‘bewaker’ toebedeeld. In 20% van de teksten over Zulu vrouwen werden ze voorgesteld als ‘huispersoneel’, ‘kok’ en ‘huishoudster’.
Nood aan diverser personeelsbeleid
De strijd tegen stereotypen vereist ook een diversificatie van de rekrutering in bedrijven. Volgens de meest recente gegevens vertegenwoordigen vrouwen slechts 20% van de werknemers in technische functies bij grote machine learning-bedrijven, 12% van de AI-onderzoekers en 6% van de professionele softwareontwikkelaars. De genderongelijkheid onder auteurs die op AI-gebied publiceren is ook duidelijk. Uit onderzoek is gebleken dat slechts 18% van de auteurs op toonaangevende AI-conferenties vrouw is en dat ruim 80% van de AI-professoren mannen zijn. Als systemen niet door diverse teams worden ontwikkeld, is de kans kleiner dat ze tegemoetkomen aan de behoeften van diverse gebruikers of zelfs hun mensenrechten beschermen.