OpenAI heeft een hulpmiddel voor het klonen van stemmen gebouwd, maar je kunt het nog niet gebruiken

OpenAI heeft een hulpmiddel voor het klonen van stemmen gebouwd, maar je kunt het nog niet gebruiken

Terwijl deepfakes zich verspreiden, verfijnt OpenAI de technologie die wordt gebruikt om stemmen te klonen – maar het bedrijf houdt vol dat het dit op een verantwoorde manier doet.

Vandaag is het preview-debuut van OpenAI's Stemmotor , een uitbreiding van de bestaande tekst-naar-spraak-API van het bedrijf. Voice Engine wordt ongeveer twee jaar ontwikkeld en stelt gebruikers in staat elk stemfragment van 15 seconden te uploaden om een ​​synthetische kopie van die stem te genereren. Maar er is nog geen datum voor publieke beschikbaarheid, waardoor het bedrijf de tijd heeft om te reageren op de manier waarop het model wordt gebruikt en misbruikt.

We willen ervoor zorgen dat iedereen zich goed voelt over de manier waarop deze wordt ingezet – dat we het landschap begrijpen waarin deze technologie gevaarlijk is en dat we daarvoor maatregelen hebben getroffen, vertelde Jeff Harris, een lid van de productstaf bij OpenAI, aan Gadget Insider in een interview.



Het model trainen

Het generatieve AI-model dat Voice Engine aandrijft, is al een tijdje verborgen in het zicht, zei Harris.

Hetzelfde model ondersteunt de stem- en voorleesmogelijkheden in ChatGPT, de AI-aangedreven chatbot van OpenAI, evenals de vooraf ingestelde stemmen die beschikbaar zijn in de tekst-naar-spraak-API van OpenAI. En Spotify gebruikt het sinds begin september om podcasts voor spraakmakende hosts zoals Lex Fridman in verschillende talen te kopiëren.

Ik vroeg Harris waar de trainingsgegevens van het model vandaan kwamen – een nogal gevoelig onderwerp. Hij zou alleen zeggen dat het Voice Engine-model is getraind op a mengen van gelicentieerde en openbaar beschikbare gegevens.

Modellen zoals de Voice Engine zijn getraind op basis van een enorm aantal voorbeelden – in dit geval spraakopnamen – die meestal afkomstig zijn van openbare sites en datasets op internet. Veel generatiefAI-leveranciers zien trainingsgegevens als een concurrentievoordeel en houden deze en de bijbehorende informatie dus dicht bij de borst. Maar details over trainingsgegevens zijn ook een potentiële bron van IE-gerelateerde rechtszaken, nog een belemmering om veel te onthullen.

Open AI isal wezen aangeklaagdnaar aanleiding van beschuldigingen dat het bedrijf de IE-wetgeving heeft geschonden door zijn AI te trainen op auteursrechtelijk beschermde inhoud, waaronder foto's, illustraties, code, artikelen en e-boeken, zonder de makers of eigenaren krediet te geven of te betalen.

OpenAI heeft licentieovereenkomsten afgesloten met een aantal contentproviders, zoals Shutterstock en de nieuwsuitgever Axel Springer, en staat webmasters toe om te voorkomen dat hun webcrawler hun site scant voor trainingsgegevens. Met OpenAI kunnen kunstenaars zich ook afmelden voor en hun werk verwijderen uit de datasets die het bedrijf gebruikt om zijn beeldgenererende modellen te trainen, waaronder de nieuwste DALL-E 3 .

Maar OpenAI biedt zo'n opt-out-regeling niet voor zijn andere producten. En in een recente verklaring aan het Britse Hogerhuis suggereerde OpenAI dat het onmogelijk is om bruikbare AI-modellen te creëren zonder auteursrechtelijk beschermd materiaal, waarbij wordt beweerd dat ‘fair use’ – de juridische doctrine die het gebruik van auteursrechtelijk beschermde werken toestaat om een ​​secundaire creatie te maken als zolang het transformatief is – beschermt het waar het modeltraining betreft.

Synthetiseren van stem

Verrassend genoeg, Voice Engine is niet getraind of verfijnd op basis van gebruikersgegevens. Dat is gedeeltelijk te danken aan de kortstondige manier waarop het model – een combinatie van een diffusieproces en transformator - genereert spraak.

We nemen een klein audiofragment en tekst en genereren realistische spraak die overeenkomt met de oorspronkelijke spreker, zei Harris. De gebruikte audio wordt verwijderd nadat het verzoek is voltooid.

Zoals hij uitlegde, analyseert het model tegelijkertijd de spraakgegevens die het ophaalt en de tekstgegevens die bedoeld zijn om hardop te worden voorgelezen, waardoor een bijpassende stem wordt gegenereerd zonder dat er per spreker een aangepast model hoeft te worden gebouwd.

Het is geen nieuwe technologie. Een aantal startups levert al jaren stemkloneringsproducten ElfLabs naar Replica Studios naar Papercup naar Deepdub naar Respeecher. Dat geldt ook voor gevestigde Big Tech-bedrijven als Amazon, Google en Microsoft – waarvan de laatste overigens een grote OpenAI-investeerder is.

Harris beweerde dat de aanpak van OpenAI over het algemeen spraak van hogere kwaliteit oplevert.

We weten ook dat de prijs agressief zal zijn. Hoewel OpenAI de prijzen van Voice Engine heeft verwijderd uit het marketingmateriaal dat het vandaag heeft gepubliceerd, wordt in documenten die door Gadget Insider zijn bekeken, vermeld dat Voice Engine $ 15 per miljoen tekens kost, of ongeveer 162.500 woorden. Dat zou Oliver Twist van Dickens passen met een beetje ruimte over. (Een HD-kwaliteitsoptie kost het dubbele, maar verwarrend genoeg vertelde een woordvoerder van OpenAI aan Gadget Insider dat er geen verschil is tussen HD- en niet-HD-stemmen. Maak daar van wat je wilt.)

Dat vertaalt zich naar ongeveer 18 uur aan audio, waardoor de prijs iets ten zuiden van $ 1 per uur ligt. Dat is inderdaad goedkoper dan wat een van de meer populaire rivaliserende leveranciers, ElevenLabs, in rekening brengt: $ 11 voor 100.000 tekens per maand. Maar het doet gaat ten koste van enig maatwerk.

Voice Engine biedt geen bedieningselementen om de toon, toonhoogte of cadans van een stem aan te passen. In feite biedt het niet elk momenteel bezig met het verfijnen van knoppen of draaiknoppen, hoewel Harris opmerkt dat elke expressiviteit in het stemvoorbeeld van 15 seconden door zal gaan in de volgende generaties (als je bijvoorbeeld op een opgewonden toon spreekt, zal de resulterende synthetische stem consistent opgewonden klinken) . We zullen zien hoe de kwaliteit van de meting zich verhoudt tot andere modellen wanneer ze rechtstreeks kunnen worden vergeleken.

Stemtalent als handelswaar

De salarissen van stemacteurs op ZipRecruiter variëren van €12 tot €79 per uur – een stuk duurder dan Voice Engine, zelfs aan de lage kant (acteurs met agenten zullen een veel hogere prijs per project vragen). Als het zou aanslaan, zou de tool van OpenAI stemwerk kunnen commercialiseren. Dus waar blijven acteurs?

De talentindustrie zou niet verrast worden: zij worstelt al een tijdje met de existentiële dreiging van generatieve AI. Stemacteurs wordt steeds vaker gevraagd de rechten op hun stemmen af ​​te staan, zodat klanten AI kunnen gebruiken om synthetische versies te genereren die deze uiteindelijk kunnen vervangen. Stemwerk – vooral goedkoop werk op instapniveau – loopt het risico te worden geëlimineerd ten gunste van door AI gegenereerde spraak.

Nu proberen sommige AI-stemplatforms een evenwicht te vinden.

Replica Studios tekende vorig jaar een enigszins controversieel omgaan met SAG-AFTRA om kopieën van de stemmen van de leden van de mediakunstenaarsvakbond te maken en in licentie te geven. De organisaties zeiden dat de regeling eerlijke en ethische voorwaarden vaststelde om de toestemming van de artiesten te garanderen tijdens het onderhandelen over voorwaarden voor het gebruik van synthetische stemmen in nieuwe werken, waaronder videogames.

De schrijversstaking is voorbij; hier is hoe de AI-onderhandelingen opschudden

ElevenLabs host ondertussen een marktplaats voor synthetische stemmen waarmee gebruikers een stem kunnen creëren, verifiëren en openbaar kunnen delen. Wanneer anderen een stem gebruiken, ontvangen de oorspronkelijke makers een vergoeding: een vast bedrag in dollars per 1.000 tekens.

OpenAI zal dergelijke vakbondsdeals of marktplaatsen niet opzetten, althans niet op de korte termijn, en vereist alleen dat gebruikers expliciete toestemming krijgen van de mensen wier stemmen zijn gekloond, duidelijke openbaarmakingen doen waarin wordt aangegeven welke stemmen door AI worden gegenereerd en dat zij ermee instemmen deze niet te gebruiken. de stemmen van minderjarigen, overleden mensen of politieke figuren van hun generaties.

Hoe dit kruist met de stemacteurseconomie is iets dat we nauwlettend in de gaten houden en waar we erg nieuwsgierig naar zijn, zei Harris. Ik denk dat er veel mogelijkheden zullen zijn om je bereik als stemacteur via dit soort technologie te vergroten. Maar dit zijn allemaal dingen die we gaan leren als mensen de technologie daadwerkelijk inzetten en er een beetje mee spelen.

Ethiek en deepfakes

Apps voor het klonen van stemmen kunnen worden misbruikt (en zijn dat ook geweest) op manieren die veel verder gaan dan het bedreigen van het levensonderhoud van acteurs.

Het beruchte prikbord 4chan, bekend om zijn samenzweerderige inhoud, gebruikt ElevenLabs’ platform om haatdragende berichten te delen waarin beroemdheden als Emma Watson worden nagebootst. James Vincent van The Verge kon AI-tools gebruiken om kwaadwillig en snel stemmen te klonen, genereren monsters die alles bevatten, van gewelddadige bedreigingen tot racistische en transfobe opmerkingen. En bij Vice documenteerde verslaggever Joseph Cox het genereren van een stemkloon die overtuigend genoeg was om het authenticatiesysteem van een bank voor de gek te houden.

Er bestaat angst dat slechte acteurs zullen proberen de verkiezingen te beïnvloeden met stemklonen. En ze zijn niet ongegrond: in januari werd bij een telefooncampagne een deepfaked president Biden ingezet om burgers van New Hampshire ervan te weerhouden te gaan stemmen – wat de FCC ertoe aanzette stappen te ondernemen om toekomstige dergelijke campagnes illegaal te maken.

ontdek 53m

FCC verklaart officieel AI-stemhebbende robocalls illegaal

Welke stappen onderneemt OpenAI, afgezien van het verbieden van deepfakes op beleidsniveau, eventueel om te voorkomen dat Voice Engine wordt misbruikt? Harris noemde er een paar.

Ten eerste wordt Voice Engine in eerste instantie alleen beschikbaar gesteld aan een uitzonderlijk kleine groep ontwikkelaars (ongeveer tien). OpenAI geeft prioriteit aan gebruiksscenario's met een laag risico en sociaal voordeel, zegt Harris, zoals die in de gezondheidszorg en toegankelijkheid, naast het experimenteren met verantwoorde synthetische media.

Enkele vroege gebruikers van Voice Engine zijn onder meer Age of Learning, een edtech-bedrijf dat de tool gebruikt om voice-overs te genereren van eerder gecaste acteurs, en HeyGen, een app voor het vertellen van verhalen die Voice Engine gebruikt voor vertaling. Livox en Lifespan gebruiken Voice Engine om stemmen te creëren voor mensen met spraakproblemen en handicaps, en Dimagi bouwt een op Voice Engine gebaseerde tool om feedback te geven aan gezondheidswerkers in hun primaire taal.

Hier zijn gegenereerde stemmen van Lifespan:

https://techcrunch.com/wp-content/uploads/2024/03/lifespan_generation_ordering.mp3%20https://techcrunch.com/wp-content/uploads/2024/03/lifespan_generation_talking.mp3%20%3Cp%3EEn% 20hier%E2%80%99s%20one%20from%20Livox:%3C/p%3E%20https://techcrunch.com/wp-content/uploads/2024/03/livox_generation_english.mp3%20%3Cp%3ESecond,% 20klonen%20gemaakt%20met%20Voice%20Motor%20zijn%20met watermerk%20met behulp van%20a%20techniek%20OpenAI%20ontwikkeld%20die%20insluit%20onhoorbaar%20identificatoren%20in%20opnamen.%20(Overige%20leveranciers%20inclusief%20Lijkt%20AI%2 0en%20Microsoft%20gebruik%20soortgelijke%20watermerken.)%20Harris%20didn%E2%80%99t%20beloof%20dat%20er%20%E2%80%99t%20manieren%20tot%20omzeilen%20het%20watermerk,%20maar%20beschreven % 20it%20as%20sabotage%20bestendig.%3C/p%3E%20%3Cp%3EIf%20there%E2%80%99s%20an%20audio%20clip%20out%20there,%20it%E2%80%99s%20echt % 20gemakkelijk%20voor%20ons%20naar%20kijken%20bij%20dat%20clip%20en%20bepaal%20dat%20het%20was%20gegenereerd%20door%20ons%20systeem%20en%20de%20ontwikkelaar%20die%20eigenlijk%20deed%20dat%20generatie , %20Harris%20%3Cspan%20%3Esaid.%20So%20far,%20it%20isn%E2%80%99t%20open%20sourced%20%E2%80%94%20wij%20hebben%20it%20intern%20voor% 20nu.%20Wij%E2%80%99re%20nieuwsgierig%20over%20maken%20het%20openbaar%20beschikbaar,%20maar%20duidelijk,%20dat%20komt%20met%20toegevoegd%20risico’s%20in%20termen%20van%20blootstelling%20en%20verbreken % 20it.%3C/span%3E%3C/p%3E%20%3Cblockquote%20class='wp-embedded-content' >

OpenAI lanceert een red teaming-netwerk om zijn modellen robuuster te maken

Ten derde is OpenAI van plan om leden van zijn rood teaming netwerk , een gecontracteerde groep experts die helpen bij het informeren van de risicobeoordeling en risicobeperkingsstrategieën van het AI-model van het bedrijf, toegang tot Voice Engine om kwaadaardig gebruik te onderzoeken.

Enkele deskundigen ruzie maken dat AI red teaming niet alomvattend genoeg is en dat het de taak van leveranciers is om tools te ontwikkelen ter verdediging tegen de schade die hun AI zou kunnen veroorzaken. OpenAI gaat niet zo ver met Voice Engine, maar Harris beweert dat het belangrijkste principe van het bedrijf het veilig vrijgeven van de technologie is.

Algemene uitgave

Afhankelijk van hoe de preview verloopt en de publieke ontvangst van Voice Engine, kan OpenAI de tool vrijgeven aan zijn bredere ontwikkelaarsbasis, maar op dit moment is het bedrijf terughoudend om zich aan iets concreets te binden.

Harris deed geef echter een voorproefje van de routekaart van Voice Engine, waaruit blijkt dat OpenAI een beveiligingsmechanisme test waarmee gebruikers willekeurig gegenereerde tekst kunnen lezen als bewijs dat ze aanwezig zijn en zich bewust zijn van hoe hun stem wordt gebruikt. Dit zou OpenAI het vertrouwen kunnen geven dat het nodig heeft om Voice Engine naar meer mensen te brengen, zei Harris – of het zou nog maar het begin kunnen zijn.

Wat ons vooruit zal blijven duwen op het gebied van de daadwerkelijke voice matching-technologie zal echt afhangen van wat we leren van de pilot, de veiligheidsproblemen die aan het licht komen en de oplossingen die we hebben getroffen, zei hij. We willen niet dat mensen verward raken tussen kunstmatige stemmen en echte menselijke stemmen.

En over dat laatste punt kunnen we het eens zijn.