Er wordt vaak gezegd dat grote taalmodellen (LLM's) in de trant van ChatGPT van OpenAI een zwarte doos zijn, en daar zit zeker een kern van waarheid in. Zelfs voor datawetenschappers is het moeilijk om te weten waarom een model altijd reageert zoals het doet, alsof het feiten uit de losse pols verzint.
In een poging om de lagen van LLM's af te pellen, doet OpenAI dat ontwikkelen een hulpmiddel om automatisch te identificeren welke delen van een LLM verantwoordelijk zijn voor welk gedrag. De ingenieurs erachter benadrukken dat het zich nog in de beginfase bevindt, maar dat de code om het uit te voeren vanaf vanochtend in open source beschikbaar is op GitHub.
We proberen manieren te ontwikkelen om te anticiperen op de problemen met een AI-systeem, vertelde William Saunders, teammanager interpreteerbaarheid bij OpenAI, aan Gadget Insider in een telefonisch interview. We willen echt weten dat we kunnen vertrouwen op wat het model doet en op het antwoord dat het oplevert.
Daartoe gebruikt de tool van OpenAI (ironisch genoeg) een taalmodel om de functies van de componenten van andere, architectonisch eenvoudiger LLM’s te achterhalen – met name OpenAI’s eigen GPT-2.
De tool van OpenAI probeert het gedrag van neuronen in een LLM te simuleren. Beeldcredits: Open AI
paardenblinden voor mensen
Hoe? Eerst een korte uitleg over LLM's voor achtergrondinformatie. Net als de hersenen bestaan ze uit neuronen, die een specifiek patroon in de tekst waarnemen om te beïnvloeden wat het algemene model vervolgens zegt. Als er bijvoorbeeld een vraag wordt gesteld over superhelden (bijvoorbeeld: Welke superhelden hebben de nuttigste superkrachten?), zou een Marvel-superheldenneuron de kans kunnen vergroten dat het model specifieke superhelden uit Marvel-films noemt.
De tool van OpenAI maakt gebruik van deze opzet om modellen in hun afzonderlijke stukken op te splitsen. Eerst voert de tool tekstreeksen door het model dat wordt geëvalueerd en wacht op gevallen waarin een bepaald neuron regelmatig wordt geactiveerd. Vervolgens toont het GPT-4, het nieuwste tekstgenererende AI-model van OpenAI, deze zeer actieve neuronen en genereert GPT-4 een verklaring. Om te bepalen hoe nauwkeurig de verklaring is, voorziet de tool GPT-4 van tekstreeksen en laat deze voorspellen (of simuleren) hoe het neuron zich zou gedragen. In vergelijkt vervolgens het gedrag van het gesimuleerde neuron met het gedrag van het daadwerkelijke neuron.
Met behulp van deze methodologie kunnen we in principe voor elk afzonderlijk neuron een soort voorlopige verklaring in natuurlijke taal bedenken voor wat het doet en ook een score krijgen voor hoe goed die verklaring overeenkomt met het daadwerkelijke gedrag. Jeff Wu, die leiding geeft aan de schaalbare uitlijningsteam bij OpenAI, zei. We gebruiken GPT-4 als onderdeel van het proces om uitleg te geven over waar een neuron naar op zoek is en vervolgens te beoordelen hoe goed die verklaringen overeenkomen met de realiteit van wat het doet.
De onderzoekers waren in staat verklaringen te genereren voor alle 307.200 neuronen in GPT-2, die ze verzamelden in een dataset die samen met de toolcode werd vrijgegeven.
Dergelijke hulpmiddelen zouden op een dag kunnen worden gebruikt om de prestaties van een LLM te verbeteren, zeggen de onderzoekers – bijvoorbeeld om vooringenomenheid of toxiciteit te verminderen. Maar ze erkennen dat er nog een lange weg te gaan is voordat het echt nuttig is. De tool had vertrouwen in de verklaringen voor ongeveer 1.000 van die neuronen, een klein deel van het totaal.
Een cynisch persoon zou ook kunnen beweren dat de tool in wezen een reclame voor GPT-4 is, aangezien GPT-4 nodig is om te werken. Andere LLM-interpretatietools zijn minder afhankelijk van commerciële API’s, zoals die van DeepMind Tracr , een compiler die programma's vertaalt naar neurale netwerkmodellen.
Wu zei dat dit niet het geval is – het feit dat de tool GPT-4 gebruikt is slechts incidenteel – en toont integendeel de zwakke punten van GPT-4 op dit gebied aan. Hij zei ook dat het niet is gemaakt met commerciële toepassingen in gedachten en dat het in theorie zou kunnen worden aangepast om naast GPT-4 ook LLM’s te gebruiken.
De tool identificeert neuronen die over de lagen in de LLM heen activeren. Beeldcredits: Open AI
De meeste verklaringen scoren vrij slecht of verklaren niet zoveel van het gedrag van het eigenlijke neuron, zei Wu.Veel van de neuronen zijn bijvoorbeeld actief op een manier waarbij het heel moeilijk is om te zeggen wat er aan de hand is – alsof ze op vijf of zes verschillende dingen worden geactiveerd, maar er is geen waarneembaar patroon.Soms daar is een waarneembaar patroon, maar GPT-4 kan het niet vinden.
Dat wil zeggen niets van complexere, nieuwere en grotere modellen, of modellen die op internet naar informatie kunnen zoeken. Maar wat dat tweede punt betreft, is Wu van mening dat surfen op het web de onderliggende mechanismen van de tool niet veel zal veranderen. Het zou eenvoudigweg kunnen worden aangepast, zegt hij, om erachter te komen waarom neuronen besluiten bepaalde zoekopdrachten in zoekmachines uit te voeren of bepaalde websites te bezoeken.
We hopen dat dit een veelbelovende weg zal openen om interpreteerbaarheid op een geautomatiseerde manier aan te pakken waar anderen op kunnen voortbouwen en aan kunnen bijdragen, zei Wu. De hoop is dat we echt goede verklaringen hebben, niet alleen voor waar neuronen op reageren, maar ook voor het gedrag van deze modellen in het algemeen: welke soorten circuits ze berekenen en hoe bepaalde neuronen andere neuronen beïnvloeden.