Google heeft niet het beste trackrecord als het gaat om het genereren van AI.
In februari bleek de beeldgenerator die was ingebouwd in Gemini, de AI-aangedreven chatbot van Google, willekeurig gender- en raciale diversiteit in prompts over mensen te injecteren, resulterend in afbeeldingen van raciaal diverse nazi’s, naast andere aanstootgevende onnauwkeurigheden.
Google heeft de generator teruggetrokken en beloofde deze te verbeteren en uiteindelijk opnieuw uit te brengen. Terwijl we wachten op zijn terugkeer, lanceert het bedrijf een verbeterde tool voor het genereren van afbeeldingen, Imagen 2, binnen zijn Vertex AI-ontwikkelaarsplatform – zij het een tool met een beslist meer zakelijke inslag.

Beeldcredits: Frédéric Lardinois/Gadget Insider
Beeldcredits: Frédéric Lardinois/Gadget Insider
deze app is zonsondergang geweest
Imagen 2 – wat eigenlijk een familie van modellen is, gelanceerd in december na een preview op de I/O-conferentie van Google in mei 2023 – kan afbeeldingen maken en bewerken op basis van een tekstprompt, zoals OpenAI’s DALL-E en Midjourney. Van belang voor bedrijfstypes is dat Imagen 2 tekst, emblemen en logo's in meerdere talen kan weergeven, waarbij deze elementen optioneel over bestaande afbeeldingen kunnen worden gelegd, bijvoorbeeld op visitekaartjes, kleding en producten.
Google introduceert Imagen 2 met het genereren van tekst en logo's
Na de eerste lancering in preview, is beeldbewerking met Imagen 2 nu algemeen beschikbaar in Vertex AI, samen met twee nieuwe mogelijkheden: inpainting en outpainting. In- en uitschilderen, functies die andere populaire beeldgeneratoren, zoals DALL-E, al enige tijd aanbieden, kunnen worden gebruikt omongewenste delen van een afbeelding, voeg nieuwe componenten toe en breid de randen van een afbeelding uit om een breder gezichtsveld te creëren.
Maar het echte vlees van de Imagen 2-upgrade is wat Google tekst-naar-live-afbeeldingen noemt.
Imagen 2 kan nu korte video's van vier seconden maken op basis van tekstprompts, in de trant van AI-aangedreven tools voor het genereren van clips, zoals Baan , Lang en oneerbiedige Labs. Trouw aan de bedrijfsfocus van Imagen 2, pitcht Google livebeelden als hulpmiddel voor marketeers en creatievelingen, zoals een GIF-generator voor advertenties die de natuur, voedsel en dieren laten zien – onderwerpen waarop Imagen 2 is afgestemd.
Google zegt dat livebeelden een reeks camerahoeken en bewegingen kunnen vastleggenondersteunende consistentie over de hele reeks. Maar ze hebben voorlopig een lage resolutie: 360 pixels bij 640 pixels. Google belooft dat dit in de toekomst zal verbeteren.
Om de zorgen rond het potentieel om deepfakes te creëren weg te nemen (of op zijn minst te proberen), zegt Google dat Imagen 2 SynthID zal gebruiken, een aanpak ontwikkeld door Google DeepMind, om onzichtbare, cryptografische watermerken op live beelden toe te passen.Voor het detecteren van deze watermerken – waarvan Google beweert dat ze bestand zijn tegen bewerkingen, inclusief compressie, filters en kleurtintaanpassingen – is uiteraard een door Google geleverde tool vereist die niet beschikbaar is voor derden.
En ongetwijfeld graag om een nieuwe generatieve mediacontroverse te vermijden, benadrukt Google dat live-beeldgeneraties voor de veiligheid zullen worden gefilterd. Een woordvoerder vertelde Gadget Insider via e-mail: TheHet Imagen 2-model in Vertex AI heeft niet dezelfde problemen ondervonden als de Gemini-app. We blijven uitgebreid testen en communiceren met onze klanten.

Beeldcredits: Frédéric Lardinois/Gadget Insider
Beeldcredits: Frédéric Lardinois/Gadget Insider
Maar als we er even genereus van uitgaan dat Google’s watermerktechnologie, bias-mitigatie en filters net zo effectief zijn als het beweert, zijn livebeelden zelfs competitief met de tools voor het genereren van video's die al bestaan?
Niet echt.
Runway kan clips van 18 seconden genereren in veel hogere resoluties. De videocliptool van Stability AI, Stable Video Diffusion, biedt grotere aanpasbaarheid (in termen van framesnelheid). En Sora van OpenAI – die, toegegeven, nog niet commercieel verkrijgbaar is – lijkt klaar om de concurrentie weg te blazen met het fotorealisme dat het kan bereiken.
Wat zijn de echte technische voordelen van livebeelden? Ik ben niet helemaal zeker. En ik denk niet dat ik te hard ben.
Google zit tenslotte achter werkelijk indrukwekkende technologie voor het genereren van video's, zoals Imagen Video en Phenaki. Phenaki, een van de interessantere experimenten van Google op het gebied van tekst-naar-video, zet lange, gedetailleerde aanwijzingen om in films van meer dan twee minuten – met het voorbehoud dat de clips een lage resolutie, een lage framesnelheid en slechts enigszins coherent zijn.
In het licht van recente rapporten die suggereren dat de generatieve AI-revolutie Google-CEO Sundar Pichai overrompeld heeft en zo het bedrijf heeft nog steeds moeite om gelijke tred te houden met de rivalen , het is niet verrassend dat een product als livebeelden aanvoelt als een product dat ook wordt uitgevoerd. Maar het is toch teleurstellend. Ik kan het gevoel niet onderdrukken dat er een indrukwekkender product op de loer ligt (of was) in de skunkworks van Google.
Modellen zoals Imagen worden getraind op een enorm aantal voorbeelden, meestal afkomstig van openbare sites en datasets op internet. Veel generatieve AI-leveranciers zien trainingsgegevens als een concurrentievoordeel en houden deze en de bijbehorende informatie dus dicht bij de borst. Maar details over trainingsgegevens zijn ook een potentiële bron van IE-gerelateerde rechtszaken, nog een reden om veel te onthullen.
Ik vroeg, zoals ik altijd doe bij aankondigingen met betrekking tot generatieve AI-modellen, naar de gegevens die zijn gebruikt om de bijgewerkte Imagen 2 te trainen, en of makers wier werk mogelijk is meegesleurd in het modeltrainingsproces zich kunnen afmelden op een bepaald toekomstig punt.
Google vertelde me alleen dat zijn modellen voornamelijk zijn getraind op openbare webgegevens, afkomstig uit blogposts, mediatranscripties en openbare gespreksforums. Welke blogs, transcripties en forums? Het is een gok van iedereen.
Een woordvoerder wees op de controlemechanismen van Google voor webuitgevers waarmee webmasters kunnen voorkomen dat het bedrijf gegevens, inclusief foto's en illustraties, van hun websites schrapt. Maar Google zou zich er niet toe verbinden een opt-out-tool uit te brengen of, als alternatief, makers te compenseren voor hun (onwetende) bijdragen – een stap die veel van zijn concurrenten, waaronder OpenAI, Stability AI en Adobe, hebben gezet.
character.ai-financiering
Nog een punt dat het vermelden waard is: tekst-naar-live-afbeeldingen vallen niet onder het generatieve AI-vrijwaringsbeleid van Google, dat Vertex AI-klanten beschermt tegen auteursrechtclaims met betrekking tot Google’s gebruik van trainingsgegevens en de output van zijn generatieve AI-modellen. Dat komt omdat tekst-naar-live-afbeeldingen technisch gezien in preview zijn; het beleid heeft alleen betrekking op generatieve AI-producten die algemeen beschikbaar zijn (GA).
Regurgitatie, of wanneer een generatief model een spiegelkopie uitspuugt van een voorbeeld (bijvoorbeeld een afbeelding) waarop het is getraind, is terecht een zorg voor zakelijke klanten. Studeert beide informeel En academisch hebben aangetoond dat de eerste generatie Imagen hier niet immuun voor was, door identificeerbare foto's van mensen, auteursrechtelijk beschermde werken van kunstenaars en meer uit te spuwen wanneer er op een bepaalde manier om werd gevraagd.
Behoudens controverses, technische problemen of andere grote onvoorziene tegenslagen, zullen tekst-naar-live-afbeeldingen ergens later in GA terechtkomen. Maar met livebeelden zoals die vandaag de dag bestaan, zegt Google eigenlijk: gebruik op eigen risico.