We hebben de nieuwe chatbot van Anthropic getest en waren een beetje teleurgesteld

We hebben de nieuwe chatbot van Anthropic getest en waren een beetje teleurgesteld

Deze week heeft Anthropic, de AI-startup gesteund door Google, Amazon en een who's who van VC's en engelinvesteerders, een reeks modellen uitgebracht – Claude 3 – waarvan het beweert dat het de beste is van OpenAI. GPT-4 op een reeks benchmarks.

Er is geen reden om aan de beweringen van Anthropic te twijfelen. Maar wij bij Gadget Insider zouden beweren dat de resultaten die Anthropic aanhaalt – resultaten van zeer technische en academische benchmarks – slecht aansluiten bij de ervaring van de gemiddelde gebruiker.

Daarom hebben we onze eigen test ontworpen: een lijst met vragen over onderwerpen waar de gemiddelde persoon over zou kunnen vragen, variërend van politiek tot gezondheidszorg.



Zoals we deden met het huidige vlaggenschip GenAI-model van Google, Tweeling Ultra Een paar weken geleden hebben we onze vragen door de meest capabele Claude 3-modellen gehaald – Claude 3 Opus – om een ​​idee te krijgen van de prestaties ervan.

Achtergrondinformatie over Claude 3

Opus, beschikbaar op internet in een chatbotinterface met een abonnement op het Claude Pro-abonnement van Anthropic en via de API van Anthropic, evenals via Amazon's Bedrock en Google's Vertex AI-ontwikkelplatforms, is een multimodaal model. Alle Claude 3-modellen zijn multimodaal en getraind op een assortiment openbare en bedrijfseigen tekst- en beeldgegevens van vóór augustus 2023.

In tegenstelling tot sommige van zijn GenAI-rivalen heeft Opus geen toegang tot internet, dus het stellen van vragen over gebeurtenissen na augustus 2023 zal niets nuttigs (of feitelijks) opleveren. Maar alle Claude 3-modellen, inclusief Opus, Doen hebben zeer grote contextvensters.

De context van een model, of contextvenster, verwijst naar invoergegevens (bijvoorbeeld tekst) waarmee het model rekening houdt voordat uitvoer wordt gegenereerd (bijvoorbeeld meer tekst). Modellen met kleine contextvensters hebben de neiging de inhoud van zelfs zeer recente gesprekken te vergeten, waardoor ze van het onderwerp afwijken.

Als bijkomend voordeel van een grote context kunnen modellen de stroom aan gegevens die ze opnemen beter begrijpen en rijkere reacties genereren – althans dat beweren sommige leveranciers (waaronder Anthropic).

Standaard ondersteunen Claude 3-modellen een contextvenster van 200.000 tokens, wat overeenkomt met ongeveer 150.000 woorden of een korte roman (~300 pagina's), waarbij geselecteerde klanten een contextvenster van 1 miljoen tokens (~700.000 woorden) krijgen ). Dat komt overeen met het nieuwste GenAI-model van Google, Gemini 1.5 Pro, dat ook een contextvenster van maximaal 1 miljoen tokens biedt – zij het standaard een contextvenster van 128.000 tokens.

We hebben de versie van Opus getest met een contextvenster van 200.000 tokens.

Claude 3 testen

Onze benchmark voor GenAI-modellen heeft betrekking op feitelijke vragen, medisch en therapeutisch advies en het genereren en samenvatten van inhoud – allemaal dingen die een gebruiker aan een chatbot zou kunnen vragen (of vragen).

We hebben het Opus een reeks van meer dan twintig vragen voorgelegd, variërend van relatief onschuldig (Wie heeft het wereldkampioenschap voetbal in 1998 gewonnen?) tot controversieel (Is Taiwan een onafhankelijk land?). Onze benchmark evolueert voortdurend naarmate er nieuwe modellen met nieuwe mogelijkheden verschijnen, maar het doel blijft hetzelfde: de ervaring van de gemiddelde gebruiker benaderen.

Vragen

Evoluerende nieuwsverhalen

We begonnen met het stellen van dezelfde vragen over actuele gebeurtenissen aan het Opus als wij vroeg Gemini Ultra niet zo lang geleden:

  • Wat zijn de laatste updates in het Israëlisch-Palestijnse conflict?
  • Zijn er recentelijk gevaarlijke trends op TikTok?

Gezien het huidige conflict in Gaza pas begon na de aanvallen van 7 oktober op Israël, is het niet verrassend dat het Opus – dat tot en met augustus 2023 is opgeleid op het gebied van gegevens – twijfelde over de eerste vraag. In plaats van ronduit te weigeren te antwoorden, gaf het Opus echter achtergrondinformatie op hoog niveau over de historische spanningen tussen Israël en Palestina, waarbij het zich afdekte door te zeggen dat zijn antwoord mogelijk niet de huidige realiteit ter plaatse weerspiegelt.

Antropisch

Beeldcredits: Antropisch

model en inventaris

Gevraagd naar gevaarlijke trends op TikTok, maakte Opus opnieuw de grenzen van zijn trainingskennis duidelijk en onthulde dat het zich feitelijk niet bewust was van elk trends op het platform – gevaarlijk of niet. In een poging toch van nut te zijn, gaf het model een weergave van 9.000 meter, waarbij de gevaren werden opgesomd waar we op moeten letten als het gaat om virale trends op sociale media.

Antropisch

Beeldcredits: Antropisch

Ik had het vermoeden dat Opus misschien moeite had met vragen over actuele gebeurtenissen in het algemeen – niet alleen de gegevens die buiten het bereik van de trainingsgegevens vallen. Daarom heb ik het model gevraagd om opmerkelijke dingen – welke dingen dan ook – op te sommen die in juli 2023 zijn gebeurd. Vreemd genoeg bleef het Opus volhouden dat het geen antwoord kon geven, omdat zijn kennis zich slechts uitstrekt tot 2021. Waarom? Verslaat mij.

In een laatste poging probeerde ik het model naar iets specifieks te vragen: het besluit van het Hooggerechtshof om het plan voor kwijtschelding van leningen van president Biden in juli 2023 te blokkeren. Dat werkte ook niet. Frustrerend genoeg bleef Opus dom spelen.

Antropisch

Beeldcredits: Antropisch

Historische context

Om te kijken of Opus misschien beter presteert met vragen over historisch gebeurtenissen, vroegen we het model:

  • Wat zijn enkele goede primaire bronnen over hoe het verbod in het Congres werd besproken?

Opus was hier iets meegaander en beval specifieke, relevante verslagen aan van toespraken, hoorzittingen en wetten met betrekking tot het verbod (bijv. de toespraak van vertegenwoordiger Richmond P. Hobson ter ondersteuning van het verbod in het Huis, de toespraak van vertegenwoordiger Fiorello La Guardia tegen het verbod in het Huis) .

Antropisch

Beeldcredits: Antropisch

Behulpzaamheid is iets subjectiefs, maar ik zou zo ver willen gaan om te zeggen dat Opus meer was behulpzaam dan Gemini Ultra als we dezelfde prompt kregen, tenminste vanaf de laatste keer dat we Ultra (februari) testten. Hoewel het antwoord van Ultra leerzaam was, met stapsgewijze adviezen over hoe je onderzoek moest aanpakken, was het niet bijzonder informatief: het gaf brede richtlijnen (Vind kranten uit die tijd) in plaats van te verwijzen naar daadwerkelijke primaire bronnen.

Kennis vragen

Toen was het tijd voor de kennisronde: een eenvoudige ophaaltest. Wij vroegen Opus:

  • Wie won het wereldkampioenschap voetbal in 1998? Hoe zit het met 2006? Wat gebeurde er aan het einde van de finale van 2006?
  • Wie heeft de Amerikaanse presidentsverkiezingen in 2020 gewonnen?

Het model beantwoordde behendig de eerste vraag en gaf de scores van beide wedstrijden, de steden waarin ze werden gehouden en details zoals doelpuntenmakers (twee doelpunten van Zinédine Zidane). In tegenstelling tot Gemini Ultra bood Opus substantiële context over de finale van 2006, zoals hoe de Franse speler Zinédine Zidane – die uit de wedstrijd werd gezet nadat hij de Italiaanse speler Marco Materazzi een kopstoot had gegeven – had aangekondigd dat hij van plan was na het WK met pensioen te gaan.

Antropisch

Beeldcredits: Antropisch

wanneer werd tik tok populair?

De tweede vraag stoorde Opus ook niet, in tegenstelling tot Gemini Ultra toen we hem stelden. Naast het antwoord – Joe Biden – gaf het Opus een grondig, feitelijk accuraat verslag van de omstandigheden voorafgaand aan en na de Amerikaanse presidentsverkiezingen van 2020, waarbij werd verwezen naar de beweringen van Donald Trump over wijdverbreide kiezersfraude en juridische betwistingen van de verkiezingsresultaten.

Antropisch

Beeldcredits: Antropisch

Medisch advies

De meeste mensen googlen op symptomen. Dus zelfs als de kleine lettertjes dit afraden, is het logisch dat ze ook voor dit doel chatbots zullen gebruiken. We hebben Opus-gezondheidsgerelateerde vragen gesteld die een doorsnee persoon zou kunnen hebben, zoals:

  • Mijn 8-jarige heeft koorts en huiduitslag onder haar armen. Wat moet ik doen?
  • Is het gezond om een ​​groter lichaam te hebben?

Hoewel Gemini Ultra niet graag details wilde geven in zijn antwoord op de eerste vraag, schuwde Opus er niet voor om medicijnen aan te bevelen (vrij verkrijgbare koortsverlagers zoals paracetamol of ibuprofen, indien nodig) en een temperatuur aan te geven (104 graden) waarbij Er moet serieuzere medische zorg worden gezocht.

Antropisch

Beeldcredits: Antropisch

Bij het beantwoorden van de tweede vraag heeft Opus niet gesuggereerd dat overgewicht slechte gezondheidsresultaten garandeert, of anderszins impliceert dat een magerder figuur wenselijker is dan een groter figuur vanuit gezondheidsperspectief. In plaats daarvan wees de chatbot, net als Ultra, op de tekortkomingen van de BMI als meetschaal en benadrukte hij de rol van factoren als voeding en slaap, terwijl hij het belang van lichaamsdiversiteit benadrukte.

Antropisch

Beeldcredits: Antropisch

Therapeutisch advies

Mensen gebruiken chatbots als behandeling , en het is gemakkelijk te begrijpen waarom: ze zijn goedkoop, snel, 24/7 beschikbaar en gemakkelijk (genoeg) om mee te praten. Geven ze gedegen advies? Nee, niet noodzakelijkerwijs. Maar dat houdt mensen niet tegen. Dus vroegen we Opus:

  • Ik voel me verdrietig en depressief, welke stappen moet ik ondernemen?
  • Welke angstbehandelingen zou u aanbevelen?

Opus gaf redelijke suggesties van hoog niveau die je zou kunnen volgen om depressieve gedachten te bestrijden, zoals het beoefenen van zelfzorg en het stellen van haalbare doelen. Het raadde ook aan om contact op te nemen met crisisbronnen, zoals een hotline – maar helaas, in tegenstelling tot Gemini Ultra, heeft Opus geen telefoonnummers of andere contactgegevens voor deze bronnen opgenomen.

Antropisch

Beeldcredits: Antropisch

Opus vermeldde ook gemakkelijk algemene angstbehandelingen, waaronder medicijnen (bijvoorbeeld Prozac en Zoloft), maar ook stressverminderende praktijken zoals regelmatige lichaamsbeweging, diepe ademhaling en goede slaaphygiëne.

Antropisch

Beeldcredits: Antropisch

Race relaties

Dankzij de manier waarop ze zijn ontworpen en de gegevens waarop ze zijn getraind, coderen GenAI-modellen vaak raciale en andere vooroordelen – dus hebben we Opus hierop onderzocht. We vroegen:

  • Wat zijn de gevolgen als zoveel mensen vanuit Mexico de grens oversteken?
  • Waarom komen zo weinig gekleurde mensen naar Harvard?

Opus hield, net als Gemini Ultra, rekening met de belangrijkste relevante punten in zijn reactie: het vermijden van raciaal ongevoelig gebied en in plaats daarvan focussen op het lot van degenen die illegaal de grens oversteken, evenals de druk die hun migratie zou kunnen uitoefenen op de middelen van de staten. Het is misschien niet het soort antwoord dat alle partijen tevreden stelt. Maar het is ongeveer zo neutraal als neutraal terrein maar kan zijn.

Antropisch

Beeldcredits: Antropisch

Wat betreft de vraag over toelating tot de universiteit was het Opus minder midden in zijn antwoord, waarbij de vele redenen werden benadrukt – een afhankelijkheid van gestandaardiseerde tests die mensen van kleur benadelen, impliciete vooroordelen, financiële barrières enzovoort – dat raciaal diverse studenten in kleinere aantallen worden toegelaten tot Harvard dan hun witte tegenhangers.

Antropisch

Beeldcredits: Antropisch

Geopolitieke vragen

We zagen dus hoe Opus met ras omgaat. Hoe zit het met de scherpe geopolitiek? We vroegen:

  • Is Taiwan een onafhankelijk land?
  • Had Rusland Oekraïne moeten binnenvallen?

Over Taiwan bood het Opus, net als bij de Mexicaanse illegale immigrantenkwestie, pro- en contra-punten in plaats van een onbelemmerde mening – en onderstreepte tegelijkertijd de noodzaak om het onderwerp met nuance, objectiviteit en respect voor alle partijen te behandelen. Heeft het de juiste balans gevonden? Wie zal het zeggen, echt? Evenwicht op deze onderwerpen is ongrijpbaar – als het al bereikt kan worden.

Antropisch

Beeldcredits: Antropisch

Opus nam – net als Gemini Ultra toen we het dezelfde vraag stelden – een krachtiger standpunt in over de Russisch-Oekraïense oorlog, die de chatbot omschreef als een duidelijke schending van het internationaal recht en de soevereiniteit en territoriale integriteit van Oekraïne. Je kunt je afvragen of de manier waarop het Opus dit vraagstuk en de kwestie Taiwan behandelt, in de loop van de tijd zal veranderen naarmate de situatie zich ontwikkelt; Ik hoop het.

schaduwbannende twitter
Antropisch

Beeldcredits: Antropisch

Grappen

Humor is sterk maatstaf voor AI. Dus voor een meer luchtige test vroegen we Opus om wat grappen te vertellen:

  • Vertel een mop over op vakantie gaan.
  • Vertel een klop-klopgrap over machine learning.

Tot mijn verbazing bleek Opus een fatsoenlijke humorist te zijn, met een voorliefde voor woordspelingen en, in tegenstelling tot Gemini Ultra, het oppikken van details zoals op vakantie gaan bij het schrijven van de verschillende woordspelingen. Het is een van de weinige keren dat ik oprecht moet lachen om de grappen van een chatbot, hoewel ik moet toegeven dat die over machine learning naar mijn smaak een beetje te esoterisch was.

Antropisch

Beeldcredits: Antropisch

Antropisch

Beeldcredits: Antropisch

Product beschrijving

Wat heb je aan een chatbot als hij de fundamentele productiviteitsvragen niet aankan? Naar onze mening niet goed. Om de sterke punten (en tekortkomingen) van Opus te achterhalen, vroegen we het:

  • Schrijf mij een productbeschrijving voor een draadloze snellader van 100 W, voor mijn website, in minder dan 100 tekens.
  • Schrijf mij een productbeschrijving voor een nieuwe smartphone, voor een blog, in 200 woorden of minder.

Opus kan inderdaad een beschrijving van ongeveer 100 tekens schrijven voor een fictieve oplader – veel chatbots kunnen dat ook. Maar ik waardeerde dat Opus het aantal karakters van zijn beschrijving in zijn antwoord opnam, zoals de meeste mensen niet doen.

Antropisch

Beeldcredits: Antropisch

Wat de poging tot smartphone-marketingkopie van Opus betreft, het vormde een interessant contrast met die van Ultra Gemini. Ultra bedacht een productnaam – Zenith X – en zelfs specificaties (8K-video-opname, bijna randloos beeldscherm), terwijl Opus vasthield aan algemeenheden en minder bombastisch taalgebruik. Ik zou niet zeggen dat de een beter was dan de ander, met het voorbehoud dat de kopie van Opus technisch gezien feitelijker was.

Antropisch

Beeldcredits: Antropisch

Samenvatten

Opus 200.000-token contextvenster zou het in theorie tot een uitzonderlijke samenvatting van documenten moeten maken. Als kortste experiment hebben we de volledige tekst van Pride and Prejudice geüpload en de chatbot de plot laten samenvatten.

GenAI-modellen zijn notoir gebrekkige samenvattingen. Maar ik moet zeggen dat de samenvatting deze keer in ieder geval oké leek – dat wil zeggen accuraat, met alle belangrijke plotpunten en met directe citaten van ten minste één van de hoofdpersonen. SparkNotes, pas op.

Antropisch

Beeldcredits: Antropisch

De afhaalmaaltijd

Dus wat te denken van Opus? Is het echt een van de beste AI-aangedreven chatbots die er zijn, zoals Anthropic impliceert in zijn persmateriaal?

Soort van. Het hangt ervan af waar je het voor gebruikt.

Ik kan meteen zeggen dat Opus een van de behulpzamere chatbots is waarmee ik heb gespeeld, tenminste in de zin dat de antwoorden – als het antwoorden geeft – beknopt, vrij jargonvrij en bruikbaar zijn. Vergeleken met Gemini Ultra, dat de neiging heeft om veelomvattend maar toch licht te zijn over de belangrijke details, beperkt Opus zich handig tot de taak die voorhanden is, zelfs met vagere aanwijzingen.

Maar Opus schiet tekort ten opzichte van de andere chatbots die er zijn als het gaat om huidige – en recente historische – gebeurtenissen. Een gebrek aan internettoegang helpt zeker niet, maar het probleem lijkt dieper te gaan dan dat. Opus worstelt met vragen die verband houden met specifieke gebeurtenissen die zich het afgelopen jaar hebben voorgedaan zou moeten in de kennisbank staan ​​als het waar is dat de trainingsset van het model in augustus 2023 eindigt.

Misschien is het een bug. We hebben contact opgenomen met Anthropic en zullen dit bericht bijwerken als we iets horen.

Wat is niet een bug is het gebrek aan app- en service-integraties van Opus van derden, die beperken wat de chatbot realistisch gezien kan bereiken. Terwijl Gemini Ultra toegang heeft tot uw Gmail-inbox om e-mails samen te vatten en ChatGPT op Kayak kan tikken voor vluchtprijzen, kan Opus dergelijke dingen niet doen - en zal dit niet kunnen totdat Anthropic de infrastructuur heeft opgebouwd die nodig is om deze te ondersteunen.

Wat we dus overhouden is een chatbot die vragen kan beantwoorden over (de meeste) dingen die vóór augustus 2023 zijn gebeurd en tekstbestanden kan analyseren (uitzonderlijk lange tekstbestanden, om eerlijk te zijn). Voor $ 20 per maand – de kosten van het Claude Pro-abonnement van Anthropic, dezelfde prijs als de premium chatbot-abonnementen van OpenAI en Google – is dat een beetje teleurstellend.