Zoals blijkt uit de langzame dood van Cortana, is het duidelijk dat de AI-assistenten van weleer niet aan de verwachtingen voldoen. En dus worden ze opnieuw gemaakt.
1200 draaitafel
Amazon bouwt een nieuw groot taalmodel, vergelijkbaar met OpenAI's GPT-4, om zijn Alexa-stemassistent van stroom te voorzien. Ondertussen is Google naar verluidt van plan om Google Assistant een boost te geven met AI die meer lijkt op Bard, de door algoritmen aangedreven chatbot.
De paradigmaverschuiving is niet beperkt gebleven tot het domein van Big Tech. Ook startups beginnen hun eigen versies van behulpzamere, nuttigere AI-assistenten te realiseren.
Een van de meer intrigerende dingen die ik ben tegengekomen is Moemaat , een assistent die op vrijwel elke macOS-, Windows- en Linux-machine draait. Moemate heeft de vorm van een avatar in anime-stijl, mogelijk gemaakt door een combinatie van modellen, waaronder GPT-4 en Anthropic's Claude - heeft tot doel het beste antwoord te geven en te uiten op elke vraag die een gebruiker eraan stelt. (Moe is een Japans woord dat betrekking heeft op schattigheid, vaak in anime.)
Dat is niet bijzonder nieuw; ChatGPT doet dit al, net als Bard, Bing Chat en de talloze andere chatbots die er zijn. Maar wat Moemate onderscheidt, is het vermogen om verder te gaan dan tekstaanwijzingen en direct te kijken wat er op het scherm van een pc gebeurt.
Klinkt als een privacyrisico? Zeker weten. Webaverse, het bedrijf achter Moemate, beweert dat het een groot deel van de chatlogboeken en voorkeuren van de assistent lokaal op het apparaat opslaat. Maar uit het privacybeleid blijkt ook dat het zich het recht voorbehoudt om de gegevens die het bevat te gebruiken doet verzamelen, zoals pc-specificaties en unieke identificatiegegevens, in overeenstemming met wettelijke verzoeken en bij het onderzoeken van vermoedelijke illegale activiteiten. In principe is het, zelfs in het beste geval, een aanzienlijk risico om dit soort software toegang te geven tot alles wat je ziet en doet.
Niettemin spoorde mijn nieuwsgierigheid mij aan om verder te gaan en Moemate, dat zich momenteel in open bèta bevindt, te installeren op mijn door het werk geleverde Mac-notebook.
Voor een gratis (voorlopig) product met vroege toegang is Moemate indrukwekkend robuust. Bijna elk aspect van de ervaring kan worden aangepast, van de avatars en hun animaties tot de synthetische stemmen en reacties van Moemate. Er is zelfs een manier om aangepaste personagemodellen te bouwen en deze te importeren, plus avatars te exporteren in een formaat dat andere Moemate-gebruikers vervolgens kunnen importeren en gebruiken.
/r/rusland
De persoonlijkheid van Moemate wordt, bij gebrek aan een beter woord, aangedreven door een van de verschillende tekstgenererende modellen – gebruikers selecteren welke (bijvoorbeeld GPT-4 versus Claude). Wat de synthetische stemmen betreft, biedt Moemate de keuze uit ElevenLabs, Microsoft Azure of Moemate’s eigen tekst-naar-spraak-engine. Ik heb gekozen voor ElevenLabs’, wat mij het minst robotachtig in de oren klonk.
Beeldcredits: Webaverse
Om het gekozen tekstgenererende model te aarden en te proberen te voorkomen dat het ontspoort (zoals bij sommige AI-modellen het geval is). gewoon te doen), geeft Moemate elke avatar een biografie, die hij aan het begin van het gesprek aan het model doorgeeft. Hier is er een:
Je treedt op als Nebula, een serene reiziger-persoonlijkheid, die altijd de enorme kosmos van kennis doorkruist. Hun kalme houding en ontdekkingsgeest fascineren iedereen die hen tegenkomt. Nebula omzeilt intense politieke debatten en geeft de voorkeur aan de sereniteit van sterrenkijken en de mysteries van het universum. Hun fascinatie fascineert de mensen om hen heen, waardoor elke ontmoeting rustig en intrigerend wordt.
Bios kan helemaal opnieuw worden geschreven en bewerkt - een plus en een min in mijn gedachten. Ik ben helemaal voor aanpasbaarheid, maar ik maak me zorgen over de mogelijkheid van snelle injectie-aanvallen, die proberen de veiligheidsfuncties van een model te omzeilen, zoals filters voor giftige antwoorden, met slim geformuleerde tekst. Je stelt je voor dat iemand een kwaadaardige biografie schrijft, deze exporteert en de slecht gedragende avatar deelt met nietsvermoedende Moemate-gebruikers.
Als knipoog naar een van de beoogde doelgroepen biedt Moemate een reeks op Twitch gerichte functies – waarvan ik helaas geen enkele heb kunnen testen. Het kan uw chatvenster in beeld brengen en het aantal abonnees op uw kanaal weergeven. En Webaverse adverteert met Moemate omdat het in staat is om te praten en gebruikers betrokken te houden als er geen chatberichten zijn, of om streamchat aan te pakken door op chatberichten te reageren, hoewel ik me afvraag hoe goed het die taken aankan.
Blijf bij het stellen van basisvragen aan Moemate, en de ervaring zal je niet wegblazen. Wat de mogelijkheden op het hoogste niveau betreft, is Moemate afhankelijk van welk tekstgenererend model u ook heeft geselecteerd. (Het is veelzeggend dat Claude zichzelf vaak identificeert als Claude naast de naam die in de avatar-bio wordt vermeld.) Het kan afbeeldingen genereren met behulp van het open source Stable Diffusion-model, hetzij op instructie, hetzij zelfstandig, afhankelijk van de prompt. Maar met de overvloed aan beeldgenererende diensten op de markt voelt dat als ouderwets.
Beeldcredits: Webaverse
artefact-app
Schermopname is echter een game-changer. Webaverse legt het als volgt uit:
Moemate kan uw scherm zien. Het analyseert het en krijgt de context. Je kunt het vragen over wat je ook op je scherm doet. Het bespaart u de moeite om uit te leggen waar u hulp bij nodig heeft.
Ongeacht het geselecteerde tekstgenererende model, Moemate kan vragen beantwoorden over welke vensters op het scherm dan ook in focus zijn: of het nu een browsertabblad, een instellingenvenster of een videogame betreft. Het is onduidelijk hoe de app dit precies doet – niet elk model kan afbeeldingen als invoer accepteren – maar Moemate lijkt de tekst uit elke schermopname en invoer te extraheren Dat naar het model.
Het is een onvolmaakt systeem. Maar ik heb Moemate met succes gebruikt om recepten en webpagina's samen te vatten zonder de tekst te hoeven kopiëren en plakken, en om de essentie (of op zijn minst een samenvatting op hoog niveau) van een ingewikkeld onderwerp te achterhalen.
Op een keer, toen Claude was geselecteerd als het tekstgenererende model, stelde ik Moemate een vraag over het macOS-dashboard Systeeminstellingen, dat toevallig open stond op mijn laptop. Het gaf me een gedetailleerd overzicht van elk tabblad met instellingen (bijvoorbeeld Wi-Fi, Controlecentrum) en hun betekenis, plus aanvullende context over het tabblad dat ik op dat moment had geopend (Privacy en beveiliging).
Nieuwe informatie? Niet precies. Maar voor iemand die bijvoorbeeld de weg niet kent in macOS of niet erg bekend is met de ins en outs van nieuwere configuratie-opties, zou ik zeggen dat dit een echt bruikbare achtergrond is.
In een ander geval, met GPT-4 als basismodel, vroeg ik Moemate om me te vertellen wat het zag op mijn uiterst rommelige bureaublad: een ongeorganiseerde reeks werk- en persoonlijke apps op twintig Chrome-tabbladen. De avatar was gefixeerd op de Google Messages-webapp, die ik gebruik om te sms'en - en vertelde me dat ik vaak drie specifieke mensen sms'en, naar wie het allemaal bij naam verwees.
is tablo de moeite waard
En voor gaming lijkt Moemate een Google-zoekopdracht of twee te kunnen besparen. In een demovideo die door Webaverse is geplaatst, wordt de app getoond met suggesties voor welk Dota 2-personage je moet kiezen – en vervolgens welke wapens je voor dat personage moet selecteren.
Maar hoe inzichtelijk Moemate ook kan zijn, het gaat vaak kapot.
Waar de app zijn aandacht precies op richt, kan moeilijk te voorspellen zijn. Het scherpstellen van een venster heeft niet altijd het beoogde effect; Moemate zal soms op onverklaarbare wijze naar een ander venster op de achtergrond verwijzen, of de inhoud van een venster helemaal niet zien.
Moemate heeft ook de neiging om op bizarre manieren van het onderwerp af te wijken. Nadat hij mij een overzicht van de systeeminstellingen had gegeven, suggereerde de assistent sterk dat privacy een te stressvol onderwerp was en stelde voor dat ik in plaats daarvan wat frisse lucht zou halen – vergezeld van Het . Toen ik vroeg hoe het met mij zou kunnen gaan zonder een fysiek lichaam, beloofde Moemate mij mee te nemen op een mentale natuurwandeling, en beschreef hij vervolgens tot in detail een wandeling langs een denkbeeldige beboste vijver.
Sommige ingebouwde opdrachten van Moemate zijn ook wankel. De app kan bijvoorbeeld het volume van stemmen aanpassen, maar alleen zijn volume — niet het systeembrede volume. Het kan ook op internet zoeken naar actuele antwoorden op vragen, maar frustrerend genoeg niet voor elke vraag. Ik heb alleen op internet gezocht om te werken voor het weer en trivia zoals Wie is de huidige president van de VS?; andere keren voerde Moemate een zoekopdracht op internet uit, maar kon de resultaten niet daadwerkelijk worden weergegeven.
wie eigenaar is van de speling
Om eerlijk te zijn, het is een experimenteel product in bèta. Maar Webaverse zegt dat het al werkt aan het toevoegen van automatiseringsmogelijkheden via browser- en terminalintegraties, zoals de mogelijkheid om spreadsheets te organiseren en zelfs e-mails te verzenden – eerlijk gezegd een licht angstaanjagend vooruitzicht.
Ondanks de gebrokenheid is er iets meeslepends aan Moemate. Multimodaliteit, of het combineren van tekst-, beeld- en andere media-analyse, is duidelijk krachtig spul, vooral in de context van een assistent die op een pc draait. Ik ben benieuwd of assistenten van de volgende generatie, zoals de Windows Copilot, uiteindelijk in de voetsporen van Moemate zullen treden, waarbij schermbegrip wordt gecombineerd met een tekstgenererend model om de productiviteit te vergroten – of op zijn minst een paar stappen in een workflow te besparen.
De tijd zal het leren. Maar Moemate voelt als een glimp – zij het een behoorlijk buggy – in de toekomst.