OpenAI heeft maandag een nieuw generatief AI-model aangekondigd dat zij GPT-4o noemen – de o staat voor omni, verwijzend naar het vermogen van het model om tekst, spraak en video te verwerken. GPT-4o zal de komende weken iteratief worden uitgerold in de ontwikkelaars- en consumentenproducten van het bedrijf.
OpenAI CTO Mira Murati zei dat GPT-4o intelligentie op GPT-4-niveau biedt, maar de mogelijkheden van GPT-4 over meerdere modaliteiten en media verbetert.
geen vlammenwerper
GPT-4o redeneert via stem, tekst en visie, zei Murati maandag tijdens een gestreamde presentatie op het kantoor van OpenAI in San Francisco. En dit is ongelooflijk belangrijk, omdat we kijken naar de toekomst van de interactie tussen onszelf en machines.
GPT-4-turbo , het vorige meest geavanceerde model van OpenAI, was getraind in een combinatie van afbeeldingen en tekst en kon afbeeldingen en tekst analyseren om taken uit te voeren zoals het extraheren van tekst uit afbeeldingen of zelfs het beschrijven van de inhoud van die afbeeldingen. Maar GPT-4o voegt spraak toe aan de mix.
Wat maakt dit mogelijk? Een verscheidenheid aan dingen.
palmscan heel voedsel
Beeldcredits: Open AI
GPT-4o verbetert de ervaring in OpenAI's AI-aangedreven chatbot, ChatGPT, aanzienlijk. Het platform biedt al lang een stemmodus die de reacties van de chatbot transcribeert met behulp van een tekst-naar-spraakmodel, maar GPT-4o versterkt dit, waardoor gebruikers meer als een assistent met ChatGPT kunnen communiceren.
Gebruikers kunnen bijvoorbeeld de door GPT-4o aangedreven ChatGPT een vraag stellen en ChatGPT onderbreken terwijl deze antwoordt. Het model levert realtime responsiviteit, zegt OpenAI, en kan zelfs nuances in de stem van een gebruiker oppikken, en in reactie daarop stemmen genereren in een reeks verschillende emotionele stijlen (inclusief zang).
GPT-4o verbetert ook de visiemogelijkheden van ChatGPT. Gegeven een foto (of een bureaubladscherm) kan ChatGPT nu snel gerelateerde vragen beantwoorden, van onderwerpen variërend van Wat gebeurt er in deze softwarecode? naar Welk merk overhemd draagt deze persoon?
dash-app
De desktop-app van ChatGPT in gebruik bij een codeertaak.
Beeldcredits: Open AI
Deze functies zullen in de toekomst verder evolueren, zegt Murati. Terwijl GPT-4o vandaag de dag naar een afbeelding van een menu in een andere taal kan kijken en deze kan vertalen, zou het model ChatGPT in de toekomst bijvoorbeeld in staat kunnen stellen een live sportwedstrijd te bekijken en de regels aan u uit te leggen.
We weten dat deze modellen steeds complexer worden, maar we willen dat de ervaring van interactie daadwerkelijk natuurlijker en gemakkelijker wordt, en dat je je helemaal niet op de gebruikersinterface concentreert, maar je alleen concentreert op de samenwerking met ChatGPT, zei Murati. . De afgelopen jaren hebben we ons erg gefocust op het verbeteren van de intelligentie van deze modellen… Maar dit is de eerste keer dat we echt een grote stap voorwaarts maken als het gaat om het gebruiksgemak.
heb je spotify
GPT-4o is ook meertalig, beweert OpenAI, met verbeterde prestaties in ongeveer 50 talen. En in de API van OpenAI en de Azure OpenAI Service van Microsoft is GPT-4o twee keer zo snel, de helft van de prijs en heeft hogere tarieflimieten dan GPT-4 Turbo, zegt het bedrijf.
Momenteel maakt spraak niet voor alle klanten deel uit van de GPT-4o API. OpenAI zegt, daarbij verwijzend naar het risico van misbruik, dat het van plan is om de komende weken eerst ondersteuning voor de nieuwe audiomogelijkheden van GPT-4o te lanceren voor een kleine groep vertrouwde partners.
GPT-4o is vanaf vandaag beschikbaar in de gratis laag van ChatGPT en voor abonnees van OpenAI's premium ChatGPT Plus en Team plannen met 5x hogere berichtlimieten. (OpenAI merkt op dat ChatGPT automatisch zal overschakelen naar GPT-3.5, een ouder en minder capabel model, wanneer gebruikers de snelheidslimiet bereiken.) De verbeterde ChatGPT-spraakervaring, ondersteund door GPT-4o, zal in alpha verschijnen voor Plus-gebruikers in de komende maand of dus naast ondernemingsgerichte opties.
In gerelateerd nieuws heeft OpenAI aangekondigd dat het een vernieuwde ChatGPT-gebruikersinterface op internet uitbrengt met een nieuw, meer conversatie-startscherm en berichtindeling, en een desktopversie van ChatGPT voor macOS waarmee gebruikers vragen kunnen stellen via een sneltoets of schermafbeeldingen kunnen maken en bespreken. . ChatGPT Plus-gebruikers krijgen vanaf vandaag als eerste toegang tot de app, en later dit jaar komt er een Windows-versie.
Elders is de GPT-winkel , OpenAI's bibliotheek met en creatietools voor chatbots van derden, gebouwd op zijn AI-modellen, is nu beschikbaar voor gebruikers van de gratis laag van ChatGPT. En gratis gebruikers kunnen profiteren van ChatGPT-functies die voorheen achter een betaalmuur zaten, zoals een geheugenfunctie waarmee ChatGPT voorkeuren voor toekomstige interacties kan onthouden, bestanden en foto's kan uploaden en op internet kan zoeken naar antwoorden op actuele vragen.
We lanceren een AI-nieuwsbrief! Meld u hier aan en ontvang de nieuwsbrief vanaf 5 juni in uw inbox.