De belangrijkste AI-aankondigingen van Google I/O

De belangrijkste AI-aankondigingen van Google I/O

Google gaat all-in op AI – en het wil dat jij het weet. Tijdens de keynote van het bedrijf op de I/O-ontwikkelaarsconferentie op dinsdag noemde Google AI meer dan 120 keer. Dat is een hoop!

Maar niet alle AI-aankondigingen van Google waren op zichzelf significant. Sommige waren incrementeel. Anderen werden herhaald. Om het kaf van het koren te helpen scheiden, hebben we de belangrijkste nieuwe AI-producten en -functies verzameld die op Google I/O 2024 zijn onthuld.

chat gpt-beschikbaarheid

Google is van plan generatieve AI te gebruiken om volledige pagina's met zoekresultaten van Google te organiseren.



Hoe zien AI-georganiseerde pagina’s eruit? Nou, het hangt af van de zoekopdracht. Maar ze kunnen door AI gegenereerde samenvattingen van recensies, discussies van sociale-mediasites zoals Reddit en door AI gegenereerde lijsten met suggesties tonen, zei Google.

Voorlopig is Google van plan om AI-verbeterde resultatenpagina's weer te geven wanneer het detecteert dat een gebruiker op zoek is naar inspiratie, bijvoorbeeld wanneer hij of zij een reis aan het plannen is. Binnenkort worden deze resultaten ook weergegeven wanneer gebruikers zoeken naar eetgelegenheden en recepten, met resultaten voor films, boeken, hotels, e-commerce en nog veel meer.

Project Astra en Gemini Live

Tweeling

Beeldcredits: Googlen / Googlen

Google verbetert zijn AI-aangedreven chatbot Gemini zodat het de wereld om zich heen beter kan begrijpen.

Het bedrijf gaf een preview van een nieuwe ervaring in Gemini genaamd Gemini Live, waarmee gebruikers diepgaande voicechats met Gemini op hun smartphones kunnen hebben. Gebruikers kunnen Gemini onderbreken terwijl de chatbot spreekt om verduidelijkende vragen te stellen, en de chatbot past zich in realtime aan hun spraakpatronen aan. En Gemini kan de omgeving van gebruikers zien en hierop reageren, via foto's of video's die zijn vastgelegd met de camera's van hun smartphones.

Gemini Live – dat pas later dit jaar wordt gelanceerd – kan vragen beantwoorden over dingen die in het zicht (of recentelijk in zicht) zijn van de camera van een smartphone, zoals in welke buurt een gebruiker zich bevindt of de naam van een onderdeel van een kapotte fiets. De technische innovaties die Live aandrijven, komen gedeeltelijk voort uit Project Astra, een nieuw initiatief binnen DeepMind om door AI aangedreven apps en agenten te creëren voor realtime, multimodaal begrip.

Google Ik bespioneer

Ik zie

Beeldcredits: Googlen

Google mikt op OpenAI's Sora met Ik zie , een AI-model dat 1080p-videoclips van ongeveer een minuut lang kan maken als er een tekstprompt wordt gegeven.

Veo kan verschillende visuele en filmische stijlen vastleggen, inclusief opnamen van landschappen en time-lapses, en bewerkingen en aanpassingen aanbrengen in reeds gegenereerd beeldmateriaal. Het model begrijpt camerabewegingen en VFX redelijk goed op basis van aanwijzingen (denk aan beschrijvingen als pannen, zoomen en explosie). En Veo heeft enigszins inzicht in de natuurkunde – zaken als vloeistofdynamica en zwaartekracht – die bijdragen aan het realisme van de video’s die het genereert.

Veo ondersteunt ook gemaskerde bewerking voor wijzigingen in specifieke delen van een video en kan video's genereren van een stilstaand beeld, à la generatieve modellen zoals Stability AI's Stable Video. Misschien wel het meest intrigerend: gegeven een reeks aanwijzingen die samen een verhaal vertellen, kan Veo langere video's genereren - video's die langer dan een minuut duren.

Vraag foto's

Beeldcredits: Gadget-insider

Google Foto's krijgt een AI-injectie met de lancering van een experimentele functie genaamd Ask Photos, mogelijk gemaakt door Google's Gemini-familie van generatieve AI-modellen.

Met Ask Photos, dat later deze zomer wordt gelanceerd, kunnen gebruikers in hun Google Foto's-collectie zoeken met behulp van zoekopdrachten in natuurlijke taal, waarbij gebruik wordt gemaakt van Gemini's begrip van de inhoud van hun foto's (en andere metadata).

In plaats van bijvoorbeeld naar een specifiek ding in een foto te zoeken, zoals One World Trade, kunnen gebruikers veel bredere en complexere zoekopdrachten uitvoeren, zoals het vinden van de beste foto van elk van de nationale parken die ik heb bezocht. In dat voorbeeld zou Gemini signalen zoals belichting, onscherpte en gebrek aan achtergrondvervorming gebruiken om te bepalen wat een foto het beste maakt in een bepaalde set en dat combineren met inzicht in de geolocatie-informatie en datums om de relevante afbeeldingen terug te geven.

Tweeling in Gmail

Beeldcredits: Gadget-insider

Gmail-gebruikers zullen dat binnenkort ook kunnen e-mails zoeken, samenvatten en opstellen , met dank aan Gemini, en onderneem actie op e-mails voor complexere taken, zoals het helpen verwerken van retourzendingen.

In een demo bij I/O liet Google zien hoe ouders op de hoogte konden blijven van wat er op de school van hun kind gebeurde door Gemini te vragen alle recente e-mails van de school samen te vatten. Naast de hoofdtekst van de e-mails analyseert Gemini ook bijlagen, zoals pdf's, en spuugt een samenvatting uit met belangrijke punten en actiepunten.

Vanuit een zijbalk in Gmail kunnen gebruikers Gemini vragen om hen te helpen de bonnen uit hun e-mails te ordenen en deze zelfs in een Google Drive-map te plaatsen, of informatie uit de bonnen te extraheren en in een spreadsheet te plakken. Als u dat vaak doet, bijvoorbeeld als zakenreiziger die de kosten bijhoudt, kan Gemini ook aanbieden om de workflow te automatiseren voor gebruik in de toekomst.

Oplichting detecteren tijdens gesprekken

Beeldcredits: Googlen

Googlen een voorbeeld van een AI-aangedreven functie bekeken om gebruikers tijdens een gesprek te waarschuwen voor mogelijke oplichting.

De mogelijkheid, die in een toekomstige versie van Android zal worden ingebouwd, maakt gebruik van Gemini Nano, de kleinste versie van het generatieve AI-aanbod van Google, dat volledig op het apparaat kan worden uitgevoerd, om in realtime te luisteren naar gesprekspatronen die vaak worden geassocieerd met oplichting.

Er is geen specifieke releasedatum vastgesteld voor de functie. Zoals veel van deze dingen, geeft Google een voorproefje van hoeveel Gemini Nano op termijn kan doen. We weten echter wel dat de functie opt-in zal zijn, wat een goede zaak is. Hoewel het gebruik van Nano betekent dat het systeem niet automatisch audio naar de cloud uploadt, luistert het systeem nog steeds effectief naar de gesprekken van gebruikers – een potentieel privacyrisico.

Bob Boroujerdi

AI voor toegankelijkheid

Beeldcredits: Googlen

Google verbetert zijn TalkBack-toegankelijkheidsfunctie voor Android met een beetje generatieve AI-magie.

Binnenkort zal TalkBack gebruikmaken van Gemini Nano om auditieve beschrijvingen van objecten te maken voor slechtziende en blinde gebruikers. TalkBack kan bijvoorbeeld een kledingstuk als volgt beschrijven: een close-up van een zwart-witte gingham-jurk. De jurk is kort, met een kraag en lange mouwen. Het wordt in de taille vastgebonden met een grote strik.

Volgens Google komen TalkBack-gebruikers ongeveer 90 ongelabelde afbeeldingen per dag tegen. Met behulp van Nano kan het systeem inzicht bieden in de inhoud, waardoor de noodzaak voor iemand om die informatie handmatig in te voeren overbodig wordt.

We lanceren een AI-nieuwsbrief! Aanmelden hier om het vanaf 5 juni in uw inbox te ontvangen.

Lees meer over Google I/O 2024 op Gadget Insider