Het nieuwe Gemini AI-model van Google wordt na zijn grote debuut gisteren gemengd onthaald, maar gebruikers hebben mogelijk minder vertrouwen in de technologie of integriteit van het bedrijf nadat ze erachter zijn gekomen dat de meest indrukwekkende demo van Gemini vrijwel vervalst was.
Een video genaamd Hands-on met Gemini: interactie met multimodale AI de afgelopen dag een miljoen keer bekeken, en het is niet moeilijk te begrijpen waarom. De indrukwekkende demo belicht enkele van onze favoriete interacties met Gemini, en laat zien hoe het multimodale model (dat wil zeggen, het taal- en visueel begrip begrijpt en combineert) flexibel kan zijn en kan reageren op een verscheidenheid aan input.
Om te beginnen vertelt het een evoluerende schets van een eend, van een kronkeltje tot een voltooide tekening, waarvan wordt gezegd dat het een onrealistische kleur heeft, en geeft vervolgens blijk van verbazing (wat de kwakzalver!) bij het zien van een blauwe speelgoedeend. Vervolgens reageert het op verschillende gesproken vragen over dat speeltje, waarna de demo verdergaat met andere pronkbewegingen, zoals het volgen van een bal in een bekerwisselspel, het herkennen van gebaren van schaduwpoppen, het herschikken van schetsen van planeten, enzovoort.
Het reageert allemaal ook erg snel, hoewel de video waarschuwt dat de latentie is verminderd en de Gemini-uitvoer is ingekort. Dus ze slaan hier een aarzeling over en een te lang antwoord daar, begrepen. Al met al was het een behoorlijk verbijsterend machtsvertoon op het gebied van multimodaal begrip. Mijn eigen scepsis dat Google een kanshebber zou kunnen sturen, kreeg een klap toen ik de hands-on bekeek.
Slechts één probleem: de video is niet echt. We hebben de demo gemaakt door beeldmateriaal vast te leggen om de mogelijkheden van Gemini bij een breed scala aan uitdagingen te testen. Vervolgens hebben we Gemini gevraagd om stilstaande beeldframes uit de beelden te gebruiken, en via tekst. (Parmy Olson bij Bloomberg was de eerst melden de discrepantie.)
waarpil
Dus hoewel het misschien de dingen zou doen die Google in de video laat zien, deed het dat niet, en kon het misschien ook niet, live doen en op de manier die ze impliceerden. In werkelijkheid was het een reeks zorgvuldig afgestemde tekstprompts met stilstaande beelden, duidelijk geselecteerd en ingekort om een verkeerde voorstelling te geven van hoe de interactie werkelijk is. U kunt enkele van de daadwerkelijke aanwijzingen en antwoorden bekijken in een gerelateerde blogpost – die, om eerlijk te zijn, is gelinkt in de videobeschrijving, zij het onder de . . . meer.
Aan de ene kant lijkt Gemini echt de reacties te hebben gegenereerd die in de video worden getoond. En wie wil er een paar huishoudelijke commando's zien, zoals het model vertellen dat hij zijn cache moet leegmaken? Maar kijkers worden misleid over de snelheid, nauwkeurigheid en fundamentele wijze van interactie met het model.
Om 2:45 uur in de video wordt bijvoorbeeld een hand getoond die in stilte een reeks gebaren maakt. Gemini reageert snel, ik weet wat je doet! Je speelt Steen, Papier, Schaar!
Beeldcredits: Google YouTube
Maar het eerste wat bij de documentatie van deze mogelijkheid opvalt, is dat het model niet redeneert op basis van het zien van individuele gebaren. Het moet alle drie de gebaren tegelijk worden getoond en de vraag worden gesteld: wat denk je dat ik aan het doen ben? Tip: het is een spel. Het antwoordt: je speelt steen, papier, schaar.
Beeldcredits: Googlen
Ondanks de gelijkenis voelen deze niet als dezelfde interactie. Ze voelen aan als fundamenteel verschillende interacties: de ene is een intuïtieve, woordeloze evaluatie die ter plekke een abstract idee vastlegt, de andere is een technische interactie met veel hints die zowel beperkingen als mogelijkheden demonstreert. Gemini deed het laatste, niet het eerste. De interactie in de video vond niet plaats.
Later worden drie plakbriefjes met krabbels van de zon, Saturnus en de aarde op het oppervlak geplaatst. Is dit de juiste volgorde? Tweeling zegt: Nee, de juiste volgorde is Zon, Aarde, Saturnus. Juist! Maar in de daadwerkelijke (opnieuw geschreven) prompt luidt de vraag: is dit de juiste volgorde? Houd rekening met de afstand tot de zon en leg uw redenering uit.
Beeldcredits: Googlen
Heeft Gemini het goed gedaan? Of had het de verkeerde keuze en had het wat hulp nodig om tot een antwoord te komen dat ze in een video konden zetten? Herkende het de planeten wel, of had het daar ook hulp nodig?
In de video wordt een bal papier onder een kopje verwisseld, wat het model onmiddellijk en schijnbaar intuïtief detecteert en volgt. In de post moet niet alleen de activiteit worden uitgelegd, maar ook moet het model worden getraind (indien snel en met behulp van natuurlijke taal) om deze uit te voeren. Enzovoort.
Deze voorbeelden lijken u misschien niet triviaal. Het zo snel herkennen van handgebaren als een spel is eigenlijk heel indrukwekkend voor een multimodaal model! Dat geldt ook voor het beoordelen of een half afgemaakte foto een eend is of niet! Hoewel ik nu, aangezien de blogpost geen verklaring voor de eendreeks bevat, ook begin te twijfelen aan de juistheid van die interactie.
Als de video in het begin had gezegd: Dit is een gestileerde weergave van interacties die onze onderzoekers hebben getest, zou niemand er een oog voor hebben gehad. We verwachten eigenlijk dat dit soort video's half feitelijk en half ambitieus zijn.
Maar de video heet Hands-on with Gemini en als ze zeggen dat deze onze favoriete interacties laat zien, impliceert dit dat de interacties die we zien die interacties. Ze waren niet. Soms waren ze meer betrokken; soms waren ze totaal verschillend; soms lijkt het alsof ze helemaal niet zijn gebeurd. Ons wordt niet eens verteld welk model het is: de Gemini Pro die mensen nu kunnen gebruiken, of (waarschijnlijker) de Ultra-versie die volgend jaar uitkomt?
clearbit-aankoopprijs
Hadden we moeten aannemen dat Google ons alleen een smaakvideo gaf toen ze deze beschreven zoals ze dat deden? Misschien moeten we dan maar aannemen alle mogelijkheden in Google AI-demo's worden overdreven vanwege het effect. Ik schrijf in de kop dat deze video nep is. In eerste instantie wist ik niet zeker of dit harde taalgebruik gerechtvaardigd was (zeker Google vindt van niet; een woordvoerder vroeg mij om het te veranderen). Maar ondanks dat er enkele echte delen in zitten, geeft de video simpelweg niet de werkelijkheid weer. Het is nep.
Google zegt dat de video echte resultaten van Gemini laat zien, wat waar is, en dat we een paar wijzigingen in de demo hebben aangebracht (we zijn hier eerlijk en transparant over geweest), wat niet het geval is. Het is geen demo – niet echt – en de video toont heel andere interacties dan de interacties die zijn gemaakt om de video te informeren.
Update : In een sociale media bericht gemaakt nadat dit artikel was gepubliceerd, liet Oriol Vinyals, VP Research van Google DeepMind, iets meer zien van hoe Gemini werd gebruikt om de video te maken. De video illustreert wat de multimodale gebruikerservaringen met Gemini hebben opgeleverd zou kunnen ziet eruit als. We hebben het gemaakt om ontwikkelaars te inspireren. (Nadruk van mij.) Interessant is dat het een vooraf ingestelde reeks laat zien waarmee Gemini de vraag over de planeten kan beantwoorden zonder dat de zon een hint geeft (hoewel het Gemini wel vertelt dat het een expert is op het gebied van planeten en het overwegen van de volgorde van de afgebeelde objecten).
Misschien eet ik wel kraai als volgende week de AI Studio met Gemini Pro beschikbaar komt om mee te experimenteren. En Gemini zou zich wel eens kunnen ontwikkelen tot een krachtig AI-platform dat daadwerkelijk kan wedijveren met OpenAI en anderen. Maar wat Google hier heeft gedaan, is de put vergiftigen. Hoe kan iemand het bedrijf vertrouwen als ze beweren dat hun model nu iets doet? Ze liepen al hinkend achter op de concurrentie. Google heeft zichzelf misschien net in de andere voet geschoten.