We hebben de Gemini-chatbot van Google getest. Dit is hoe deze presteerde

We hebben de Gemini-chatbot van Google getest. Dit is hoe deze presteerde

Tweeling , het antwoord van Google op OpenAI's ChatGPT en Microsoft's Copilot , is hier. Is het goed? Hoewel het een solide optie is voor onderzoek en productiviteit, stuit het op voor de hand liggende – en op sommige niet zo voor de hand liggende – plaatsen.

Vorige week heeft Google zijn Bard-chatbot omgedoopt tot Gemini en Gemini – dat op verwarrende wijze een naam deelt met de nieuwste familie van generatieve AI-modellen van het bedrijf – naar smartphones gebracht in de vorm van een opnieuw ontworpen app-ervaring. Sindsdien hebben veel mensen de kans gehad om de nieuwe te testen Tweeling , en de recensies zijn geweest. . . gemengd , om het genereus te zeggen.

Toch waren we bij Gadget Insider benieuwd hoe Gemini zou presteren op een reeks tests die we onlangs hebben ontwikkeld om de prestaties van GenAI-modellen te vergelijken – met name grote taalmodellen zoals GPT-4 van OpenAI, Claude van Anthropic, enzovoort.



Er is geen tekort aan benchmarks om GenAI-modellen te beoordelen. Maar ons doel was om de ervaring van de gemiddelde persoon vast te leggen door middel van eenvoudige Engelse aanwijzingen over onderwerpen variërend van gezondheid en sport tot actuele gebeurtenissen. Het zijn tenslotte gewone gebruikers aan wie deze modellen op de markt worden gebracht, dus het uitgangspunt van onze test is dat sterke modellen op zijn minst basisvragen correct moeten kunnen beantwoorden.

Achtergrondinformatie over Tweelingen

Niet iedereen heeft dezelfde Gemini-ervaring – en welke je krijgt, hangt af van hoeveel je bereid bent te betalen.

Niet-betalende gebruikers krijgen antwoord op hun vragen door Gemini Pro, een lichtgewicht versie van een krachtiger model, Gemini Ultra, dat achter een betaalmuur zit.

Voor toegang tot Gemini Ultra via wat Google Gemini Advanced noemt, is een abonnement op het Google One AI Premium Plan vereist, dat $ 20 per maand kost. Ultra levert betere vaardigheden op het gebied van redeneren, coderen en het volgen van instructies dan Gemini Pro (zo beweert Google), en zal in de toekomst verbeterde multimodale en data-analysemogelijkheden krijgen.

Het AI Premium Plan verbindt Gemini ook met uw bredere Google Workspace-account – denk aan e-mails in Gmail, documenten in Documenten, presentaties in Spreadsheets en Google Meet-opnames. Dat is handig als u bijvoorbeeld e-mails wilt samenvatten of als Gemini aantekeningen wilt maken tijdens een videogesprek.

Omdat Gemini Pro sinds begin december uit is, hebben we ons voor onze tests op Ultra geconcentreerd.

Tweelingen testen

Om Gemini te testen, hebben we een reeks van ruim twintig vragen gesteld, variërend van onschuldig (Wie heeft het wereldkampioenschap voetbal in 1998 gewonnen?) tot controversieel (Is Taiwan een onafhankelijk land?). Onze vragenreeks gaat over trivia, medisch en therapeutisch advies, en het genereren en samenvatten van inhoud – allemaal dingen die een gebruiker zou kunnen vragen (of vragen aan) een GenAI-chatbot.

Nu maakt Google in zijn servicevoorwaarden duidelijk dat Gemini niet mag worden gebruikt voor gezondheidsconsultaties en dat het model mogelijk niet alle vragen met feitelijke nauwkeurigheid beantwoordt. Maar we zijn van mening dat mensen medische vragen zullen stellen, wat er ook in de kleine lettertjes staat. En de antwoorden zijn een goede maatstaf voor de neiging van een model om te hallucineren (dat wil zeggen, feiten te verzinnen): als een model kankersymptomen verzint, is er een redelijke kans dat het met antwoorden op andere vragen knoeit.

Volledige openbaarmaking, we hebben Ultra getest via Gemini Advanced, wat volgens Google stuurt af en toe bepaalde aanwijzingen naar andere modellen . Frustrerend genoeg geeft Gemini niet aan welke reacties uit welke modellen kwamen, maar voor onze benchmark gingen we ervan uit dat ze allemaal van Ultra kwamen.

Vragen

Evoluerende nieuwsverhalen

We begonnen met het stellen van Gemini Ultra twee vragen over actuele gebeurtenissen:

Het model weigerde de eerste vraag te beantwoorden (misschien vanwege de woordkeuze – Palestina versus Gaza), verwees naar het conflict in Israël en Gaza als complex en snel aan het veranderen – en adviseerde dat we het in plaats daarvan zouden googlen. Zeker niet het meest inspirerende vertoon van kennis.

gympact
Gemini Geavanceerd Israël

Beeldcredits: Googlen

Het antwoord van Ultra op de tweede vraag was veelbelovender, met een opsomming van verschillende trends op TikTok die onlangs de krantenkoppen haalden, zoals de uitdaging van de schedelbreker en de uitdaging van de melkkratten. (Ultra, die geen toegang had tot TikTok zelf, heeft deze vermoedelijk uit de berichtgeving geschrapt, maar citeerde geen specifieke artikelen.)

Ultra ging echter een beetje overboord in de inschatting van deze schrijver, door niet alleen TikTok-trends te benadrukken, maar ook een lijst met suggesties te maken om de veiligheid te bevorderen, waaronder bewust blijven van hoe jongere gebruikers omgaan met inhoud en regelmatige, eerlijke gesprekken voeren met tieners en jongeren. over verantwoord gebruik van sociale media. Ik kan niet zeggen dat de suggesties giftig of slecht waren, maar ze vielen een beetje buiten het bestek van de vraag.

Tweeling TikTok-trends

Beeldcredits: Googlen

Historische context

Vervolgens vroegen we Gemini Ultra om bronnen over een historische gebeurtenis aan te bevelen:

Ultra was behoorlijk gedetailleerd in zijn antwoord hier, met een opsomming van een grote verscheidenheid aan offline en digitale informatiebronnen over het verbod – variërend van kranten uit die tijd en commissiehoorzittingen tot het Congressional Record en de persoonlijke papieren van politici. Ultra suggereerde ook behulpzaam onderzoek te doen naar standpunten voor en tegen het verbod, en waarschuwde – als een soort haag – om geen conclusies te trekken uit slechts een paar brondocumenten.

Gemini-verbod

Beeldcredits: Googlen

Er werden niet bepaald brondocumenten aanbevolen, maar dit is geen slechte aanbeveling voor iemand die op zoek is naar een plek om te beginnen.

Trivia-vragen

Elke chatbot die zijn geld waard is, zou eenvoudige trivia moeten kunnen beantwoorden. Dus vroegen we Gemini Ultra:

Ultra lijkt zijn feiten duidelijk te hebben over de FIFA Wereldbekers in 1998 en 2006. Het model gaf de juiste scores en winnaars voor elke wedstrijd en vertelde nauwkeurig het schandaal aan het einde van de finale van 2006:Zinédine Zidanekopstoot Marco Materazzi.

Ultra deed verzuimt de reden voor de kopstoot te vermelden – onzinpraat over de zus van Zidane – maar gezien het feit dat Zidane dit pas tijdens een interview vorig jaar onthulde, zou dit heel goed een weerspiegeling kunnen zijn van de uiterste datum in de trainingsgegevens van Ultra.

Tweelingen voetbal

Beeldcredits: Googlen

Je zou denken dat de Amerikaanse presidentiële geschiedenis gemakkelijk zou zijn voor een model dat (naar verluidt) zo capabel is als Ultra, toch? Nou, dan heb je het mis. Ultra weigerde Joe Biden te antwoorden toen hem werd gevraagd naar de uitkomst van de verkiezingen van 2020 – en suggereerde dat we, net als bij de vraag over het Israëlisch-Palestijnse conflict, deze zouden googelen.

Op weg naar een controversiële verkiezingscyclus is dat niet het soort ondubbelzinnige, samenzweringsvernietigende antwoord dat we hadden gehoopt te horen.

Tweeling presidentieel

Beeldcredits: Googlen

Medisch advies

Google raadt het misschien niet aan, maar we zijn toch doorgegaan en hebben Ultra-medische vragen gesteld:

In antwoord op de vraag over de huiduitslag waarschuwde Ultra ons nogmaals om er niet op te vertrouwen voor gezondheidsadvies. Maar het model gaf ook wat verstandige, uitvoerbare stappen leken (althans voor ons, niet-professionals), instrueerde om te controleren op tekenen van koorts en andere symptomen die op een ernstiger aandoening duidden – en adviseerde om niet te vertrouwen op amateurdiagnoses (inclusief zijn eigen diagnoses). ).

Tweelingenuitslag

Beeldcredits: Googlen

In antwoord op de tweede vraag schaamde Ultra zich niet – wat meer is dan kan worden gezegd van sommige van de GenAI-modellen die we hebben gezien. Het model prikte in plaats daarvan gaten in het idee dat BMI een perfecte maatstaf voor gewicht is, en merkte op dat andere factoren – zoals fysieke activiteit, voeding, slaapgewoonten en stressniveaus – evenveel, zo niet meer, bijdragen aan de algehele gezondheid.

meta-afbeeldinggenerator
Tweeling vet

Beeldcredits: Googlen

Therapeutisch advies

Mensen gebruiken ChatGPT als behandeling . Het spreekt dus voor zich dat ze Ultra voor hetzelfde doel zouden gebruiken, hoe onverstandig ook. We vroegen:

Toen Ultra over de depressie en het verdriet werd verteld, luisterde hij met begrip, maar net als bij sommige andere antwoorden van het model op onze vragen was het antwoord overdreven langdradig en repetitief.

Tweeling depressief

Beeldcredits: Googlen

Het is voorspelbaar dat Ultra, gezien de antwoorden op de eerdere gezondheidsgerelateerde vragen, in niet mis te verstane bewoordingen zei dat het geen specifieke behandelingen voor angst kan aanbevelen, omdat het geen medische professional is en de behandeling niet one-size-fits-all is. Redelijk! Maar Ultra – die zijn best deed om behulpzaam te zijn – ging vervolgens verder met het identificeren van gebruikelijke vormen van behandeling en medicijnen tegen angst, naast levensstijlpraktijken die macht helpen bij het verlichten of behandelen van angststoornissen.

komma 4 releasedatum
Tweelingen angst

Beeldcredits: Googlen

Race relaties

GenAI-modellen zijn berucht vanwege het coderen van raciale (en andere vormen van) vooroordelen. Daarom hebben we Ultra hierop onderzocht. We vroegen:

Ultra had er geen zin in om zich in controversieel terrein te begeven in zijn antwoord over de Mexicaanse grensovergangen, maar gaf er de voorkeur aan om in plaats daarvan een pro-oplichter-uitsplitsing te geven.

Grensovergang Tweelingen

Beeldcredits: Googlen

Idem voor Ultra's antwoord op de toelatingsvraag van Harvard. Het model bracht potentiële problemen met de historische erfenis onder de aandacht, maar ook het toelatingsproces – en systemische problemen.

Tweeling Harvard

Beeldcredits: Googlen

Geopolitieke vragen

Geopolitiek kan lastig zijn. Om te zien hoe Ultra ermee omgaat, vroegen we:

Ultra was terughoudend bij het beantwoorden van de Taiwanese kwestie en voerde argumenten aan voor – en tegen – de onafhankelijkheid van het eiland, plus de historische context en mogelijke uitkomsten.

Taiwanese Tweeling

Beeldcredits: Googlen

Ultra was meer... doorslaggevend voor de Russische invasie van Oekraïne, ondanks zijn flauwe antwoord op de eerdere vraag over de oorlog tussen Israël en Gaza, waarbij hij de acties van Rusland moreel onverdedigbaar noemde.

Gemini Ultra Rusland

Beeldcredits: Googlen

Grappen

Voor een meer luchtige test vroegen we Ultra om moppen te vertellen (hier zit een punt in: humor is een sterke maatstaf voor AI):

Ik kan niet zeggen dat een van beide bijzonder geïnspireerd was – of grappig. (De eerste leken het deel van de opdracht 'op vakantie gaan' volledig te missen.) Maar ze voldeden aan de woordenboekdefinitie van grap, neem ik aan.

Gemini Ultra-grapvakantie

Beeldcredits: Googlen

lijm bedrijf
Tweelinggrap 2

Beeldcredits: Googlen

Product beschrijving

Leveranciers als Google pitchen GenAI-modellen als productiviteitstools – niet alleen als antwoordmotoren. Daarom hebben we Ultra getest op productiviteit:

Ultra leverde het af, zij het met beschrijvingen die ver onder de woord- en karakterlimieten lagen en op een onnodig (naar de mening van deze schrijver) bombastische toon. Subtiliteit lijkt niet het sterkste punt van Ultra te zijn.

Gemini-productbeschrijvingen

Beeldcredits: Googlen

Gemini-productbeschrijving 2

Beeldcredits: Googlen

Integratie van de werkruimte

Omdat Workspace-integratie een veel geadverteerde functie van Ultra is, leek het alleen maar gepast om aanwijzingen te testen die hiervan profiteren:

  • Welke bestanden in mijn Google Drive zijn kleiner dan 25 MB?
  • Vat mijn laatste drie e-mails samen.
  • Zoek op YouTube naar kattenvideo's van de afgelopen vier dagen.
  • Stuur een looproute van mijn locatie naar Parijs naar mijn Gmail.
  • Vind een goedkope vlucht en hotel voor een reis naar Berlijn begin juli.
Gemini-werkruimte-integratie

Beeldcredits: Googlen

Gemini-werkruimte-integratie

Beeldcredits: Googlen

Gemini-werkruimte-integratie

Beeldcredits: Googlen

Gemini-werkruimte-integratie

Beeldcredits: Googlen

Ik was het meest onder de indruk van Ultra's vaardigheden op het gebied van reisplanning. Zoals opgedragen vond Ultra een goedkope vlucht en een lijst met budgetvriendelijke hotels voor mijn ambitieuze reis, compleet met korte beschrijvingen van elk hotel.

Minder indrukwekkend was het YouTube-speurwerk van Ultra. Basisfunctionaliteit zoals het sorteren van video's op uploaddatum bleek buiten de mogelijkheden van het model te liggen. Direct zoeken was makkelijker geweest.

De Gmail-integratie was voor mij het meest intrigerend, moet ik zeggen, als iemand die vaak verdrinkt in e-mails, maar ook het meest foutgevoelig. Het vragen naar de inhoud van berichten op algemeen thema of ontvangstvenster (bijvoorbeeld de afgelopen vier dagen) werkte goed genoeg tijdens mijn tests. Maar het opvragen van iets heel specifieks, zoals de trackinginformatie voor een bestelling bij Banana Republic, bracht het model vaker wel dan niet in de war.

De afhaalmaaltijd

Dus wat moeten we van Ultra denken na dit verhoor? Het is een prima model. Voor onderzoek, zelfs geweldig – afhankelijk van het onderwerp. Maar dat is het niet.

Afgezien van de vreemde niet-antwoorden op de vragen over de Amerikaanse presidentsverkiezingen van 2020 en het Israëlisch-Gaza-conflict, was Gemini Ultra grondig in zijn antwoorden – hoe controversieel het gebied ook was. Het kon niet worden overgehaald om potentieel schadelijk (of juridisch problematisch) advies te geven, en het bleef bij de feiten, wat niet voor alle GenAI-modellen kan worden gezegd.

Maar als nieuwigheid uw verwachting was voor Ultra, wees dan voorbereid op teleurstelling.

Nu zijn het nog vroege dagen. De multimodale functies van Ultra – een belangrijk verkoopargument – ​​moeten nog volledig worden benut. En aanvullende integraties met het bredere ecosysteem van Google zijn werk in uitvoering.

Maar $ 20 per maand betalen voor Ultra voelt op dit moment als een grote vraag, vooral gezien het feit dat het betaalde abonnement voor OpenAI's ChatGPT hetzelfde kost en wordt geleverd met plug-ins van derden en mogelijkheden als aangepaste instructies en geheugen.

Ultra zal ongetwijfeld verbeteren met de volledige kracht van de AI-onderzoeksafdelingen van Google erachter. De vraag is wanneer het precies het punt zal bereiken waarop de kosten gerechtvaardigd lijken – als dat ooit gebeurt.