De robotica van Google DeepMind richt zich op robots voor algemeen gebruik, generatieve AI en wifi op kantoor

De robotica van Google DeepMind richt zich op robots voor algemeen gebruik, generatieve AI en wifi op kantoor

[Een versie van dit stuk verscheen voor het eerst in de robotica-nieuwsbrief van Gadget Insider, Actuator. Abonneer u hier .]

Eerder deze maand debuteerde het DeepMind-team van Google met Open X-Embodiment, een database met robotica-functionaliteit die is gemaakt in samenwerking met 33 onderzoeksinstituten. De betrokken onderzoekers vergeleken het systeem met ImageNet, de historische database die in 2009 werd opgericht en nu meer dan 14 miljoen afbeeldingen bevat.

Tesla model en prijsdaling

Net zoals ImageNet het onderzoek naar computervisie heeft gestimuleerd, geloven wij dat Open X-Embodiment hetzelfde kan doen om de robotica vooruit te helpen, merkten onderzoekers Quan Vuong en Pannag Sanketi destijds op. Het bouwen van een dataset van diverse robotdemonstraties is de belangrijkste stap in het trainen van een generalistisch model dat veel verschillende soorten robots kan besturen, diverse instructies kan volgen, basisredeneringen over complexe taken kan uitvoeren en effectief kan generaliseren.



Op het moment van de aankondiging bevatte Open X-Embodiment meer dan 500 vaardigheden en 150.000 taken verzameld uit 22 robotuitvoeringen. Niet helemaal ImageNet-cijfers, maar het is een goed begin. DeepMind trainde vervolgens zijn RT-1-X-model op basis van de gegevens en gebruikte het om robots in andere laboratoria te trainen, waarbij een succespercentage van 50% werd gerapporteerd vergeleken met de interne methoden die de teams hadden ontwikkeld.

Ik heb dit waarschijnlijk al tientallen keren herhaald op deze pagina’s, maar het is werkelijk een opwindende tijd voor robotisch leren. Ik heb met zoveel teams gesproken die het probleem vanuit verschillende invalshoeken benaderen met steeds grotere effectiviteit. De heerschappij van de op maat gemaakte robot is nog lang niet voorbij, maar het voelt zeker alsof we een glimp opvangen van een wereld waarin de robot voor algemeen gebruik een duidelijke mogelijkheid is.

Simulatie zal ongetwijfeld een groot deel van de vergelijking uitmaken, samen met AI (inclusief de generatieve variëteit). Het voelt nog steeds alsof sommige bedrijven het paard achter de wagen hebben gespannen als het gaat om het bouwen van hardware voor algemene taken, maar wie weet over een paar jaar?

Vincent Vanhoucke is iemand die ik al een tijdje probeer vast te pinnen. Als ik beschikbaar was, was hij dat niet. Schepen in de nacht en zo. Gelukkig konden we het eind vorige week eindelijk laten werken.

Vanhoucke is nieuw in de rol van het hoofd robotica van Google DeepMind, nadat hij in mei in de rol stapte. Hij is echter al meer dan zestien jaar actief binnen het bedrijf, meest recentelijk als vooraanstaand wetenschapper voor Google AI Robotics. Alles bij elkaar genomen is hij misschien wel de best mogelijke persoon om mee te praten over de robotambities van Google en hoe deze hier terecht zijn gekomen.

Beeldcredits: Googlen

Gadget Insider: Op welk punt in de geschiedenis van DeepMind heeft het roboticateam zich ontwikkeld?

Vincent Vanhoucke: Oorspronkelijk stond ik niet aan de DeepMind-kant van het hek. Ik maakte deel uit van Google Onderzoek. We zijn onlangs gefuseerd met de DeepMind-inspanningen. Dus in zekere zin is mijn betrokkenheid bij DeepMind uiterst recent. Maar er is een langere geschiedenis van robotica-onderzoek bij Google DeepMind. Het begon vanuit de toenemende opvatting dat perceptietechnologie echt heel goed aan het worden was.

Een groot deel van de computervisie, audioverwerking en al dat soort dingen ging echt de hoek om en werd bijna een menselijk niveau. We beginnen ons af te vragen: Oké, aangenomen dat dit de komende jaren zo doorgaat, wat zijn dan de gevolgen daarvan? Een van de duidelijke gevolgen was dat het plotseling een reële mogelijkheid zou worden om robotica in een echte omgeving te hebben. Het daadwerkelijk kunnen evolueren en uitvoeren van taken in een alledaagse omgeving was volledig afhankelijk van het hebben van een heel, heel sterke perceptie. Ik werkte aanvankelijk aan algemene AI en computervisie. Ik heb in het verleden ook aan spraakherkenning gewerkt. Ik zag wat er aan de muur hing en besloot om robotica te gaan gebruiken als de volgende fase van ons onderzoek.

Ik heb begrepen dat een groot deel van het Everyday Robots-team in dit team terecht is gekomen. De geschiedenis van Google met robotica gaat aanzienlijk verder terug. Het is tien jaar geleden dat Alphabet al deze overnames deed [Boston Dynamics, enz.]. Het lijkt erop dat veel mensen van die bedrijven het bestaande roboticateam van Google hebben bevolkt.

Er is een aanzienlijk deel van het team dat door deze overnames is gekomen. Het was vóór mijn tijd – ik was echt betrokken bij computervisie en spraakherkenning, maar we hebben nog steeds veel van die mensen. Meer en meer kwamen we tot de conclusie dat het hele roboticaprobleem onder het algemene AI-probleem viel. Het daadwerkelijk oplossen van het intelligentiegedeelte was de belangrijkste factor voor elk betekenisvol proces in de echte robotica. We hebben veel van onze inspanningen verlegd naar het oplossen van het feit dat perceptie, begrip en controle in de context van algemene AI het grote probleem zou zijn dat we moesten oplossen.

Het leek erop dat veel van het werk dat Everyday Robots deed betrekking had op algemene AI of generatieve AI. Wordt het werk dat dat team deed overgedragen aan het DeepMind-roboticateam?

We werkten al zeven jaar samen met Everyday Robots. Ook al waren we twee afzonderlijke teams, we hebben zeer, zeer diepe verbindingen. Een van de dingen die ons destijds ertoe aanzette om echt naar robotica te gaan kijken, was een samenwerking die een beetje een skunkworks-project was met het Everyday Robots-team, waar ze toevallig een aantal robotarmen hadden liggen die stopgezet. Het was één generatie wapens die tot een nieuwe generatie had geleid, en ze lagen maar rond en deden niets.

We besloten dat het leuk zou zijn om die armen op te pakken, ze allemaal in een kamer te zetten en ze te laten oefenen en leren hoe ze voorwerpen moeten vastpakken. Het idee om een ​​grijpprobleem aan te leren was destijds niet in de tijdsgeest aanwezig. Het idee om machinaal leren en perceptie te gebruiken als manier om het grijpen door robots te controleren, was niet iets dat was onderzocht. Als de wapens slaagden, gaven we ze een beloning, en als ze faalden, gaven we ze een duim omlaag.

Voor het eerst hebben we machine learning gebruikt en hebben we dit probleem van gegeneraliseerd begrijpen in essentie opgelost met behulp van machine learning en AI. Dat was destijds een gloeilampmoment. Er was echt iets nieuws daar. Dat was de aanleiding voor de onderzoeken met Everyday Robots rond de focus op machinaal leren als een manier om die robots te besturen. En ook, aan de onderzoekskant, veel meer robotica als een interessant probleem naar voren brengen om alle deep learning AI-technieken waarmee we zo goed hebben kunnen werken, op andere gebieden toe te passen.

DeepMind belichaamde AI

Beeldcredits: Diepe geest

Werd Everyday Robots geabsorbeerd door uw team?

Een fractie van het team werd door mijn team geabsorbeerd. We hebben hun robots geërfd en gebruiken ze nog steeds. Tot op heden blijven we de technologie ontwikkelen waar zij echt pionierden en aan werkten. De hele impuls leeft voort met een iets andere focus dan wat het team oorspronkelijk voor ogen had. We concentreren ons echt veel meer op het stuk intelligentie dan op het robotgebouw.

U zei dat het team naar de Alphabet X-kantoren verhuisde. Is er iets diepers, wat betreft samenwerking tussen teams en het delen van middelen?

Het is een heel pragmatische beslissing. Ze hebben goede wifi, goede stroom, veel ruimte.

Ik hoop dat alle Google-gebouwen goede wifi hebben.

Je zou het hopen, toch? Maar het was een heel gewone beslissing van ons om hierheen te verhuizen. Ik moet zeggen dat de beslissing grotendeels was dat ze hier een goed café hebben. Ons vorige kantoor had niet zo lekker eten en mensen begonnen te klagen. Er is daar geen verborgen agenda. We werken graag nauw samen met de rest van X. Ik denk dat er veel synergieën zijn. Ze hebben echt getalenteerde robotici die aan een aantal projecten werken. Wij hebben samenwerkingen met Intrinsic die wij graag koesteren. Het is heel logisch dat we hier zijn, en het is een prachtig gebouw.

Er is een beetje overlap met Intrinsic, in termen van wat ze doen met hun platform – zaken als no-code robotica en robotica-leren. Ze overlappen met algemene en generatieve AI.

Het is interessant hoe robotica vanuit elke hoek is geëvolueerd, zeer op maat gemaakt en een heel andere reeks expertise en vaardigheden heeft aangenomen. De reis die we maken bestaat voor een groot deel uit het proberen om robotica voor algemene doeleinden mogelijk te maken, of deze nu wordt toegepast in een industriële omgeving of meer in een huiselijke omgeving. De principes erachter, aangedreven door een zeer sterke AI-kern, zijn zeer vergelijkbaar. We verleggen echt de grenzen door te onderzoeken hoe we een zo breed mogelijke toepassingsruimte kunnen ondersteunen. Dat is nieuw en spannend. Het is een heel groen veld. Er is veel te ontdekken in de ruimte.

Ik vraag mensen graag hoe ver ze denken dat we verwijderd zijn van iets dat we redelijkerwijs universele robotica kunnen noemen.

Er is een kleine nuance in de definitie van robotica voor algemene doeleinden. We zijn echt gefocust op methoden voor algemene doeleinden. Sommige methoden kunnen worden toegepast op zowel industriële robots als thuisrobots of trottoirrobots, met al die verschillende uitvoeringsvormen en vormfactoren. We gaan er niet van uit dat er een belichaming voor algemene doeleinden bestaat die alles voor je doet, meer dan wanneer je een belichaming hebt die zeer op maat is gemaakt voor jouw probleem. Het is goed. We kunnen het snel afstemmen op het oplossen van het probleem dat u specifiek heeft. Dit is dus een grote vraag: zullen er universele robots komen? Dat is iets waar veel mensen met hypotheses rondgooien, of en wanneer het zal gebeuren.

Tot nu toe is er meer succes geboekt met op maat gemaakte robots. Ik denk dat de technologie er tot op zekere hoogte niet is geweest om meer algemene robots mogelijk te maken. Of dat is waar de zakelijke modus ons naartoe zal brengen, is een heel goede vraag. Ik denk niet dat die vraag kan worden beantwoord totdat we meer vertrouwen hebben in de technologie erachter. Dat is waar we nu in rijden. We zien meer tekenen van leven – dat zeer algemene benaderingen die niet afhankelijk zijn van een specifieke uitvoeringsvorm plausibel zijn. Het laatste wat we hebben gedaan is dit RTX-project. We gingen naar een aantal academische laboratoria – ik denk dat we nu dertig verschillende partners hebben – en vroegen of we naar hun taak konden kijken en naar de gegevens die ze hadden verzameld. Laten we dat in een gemeenschappelijke opslagplaats van gegevens onderbrengen, en laten we er een groot model bovenop trainen en kijken wat er gebeurt.

DeepMind RoboCat

Beeldcredits: Diepe geest

Welke rol zal generatieve AI spelen in robotica?

Ik denk dat het heel centraal zal staan. Er was een grote taalmodelrevolutie. Iedereen begon zich af te vragen of we veel taalmodellen voor robots konden gebruiken, en ik denk dat het heel oppervlakkig had kunnen zijn. Weet je, laten we gewoon de rage van de dag oppakken en uitzoeken wat we ermee kunnen doen, maar het blijkt extreem diep te zijn. De reden daarvoor is dat, als je erover nadenkt, taalmodellen niet echt over taal gaan. Ze gaan over gezond verstand redeneren en begrip van de dagelijkse wereld. Dus als een groot taalmodel weet dat je op zoek bent naar een kop koffie, kun je die waarschijnlijk in een kastje in de keuken of op een tafel vinden.

Een koffiekopje op tafel zetten is logisch. Een tafel op een koffiekopje zetten is onzinnig. Het zijn zulke simpele feiten waar je niet echt over nadenkt, omdat ze volkomen duidelijk voor je zijn. Het is altijd heel moeilijk geweest om dat aan een belichaamd systeem te communiceren. De kennis is echt heel moeilijk te coderen, terwijl die grote taalmodellen die kennis hebben en deze coderen op een manier die zeer toegankelijk is en die we kunnen gebruiken. We hebben deze op gezond verstand gebaseerde redenering dus kunnen toepassen op robotplanning. We hebben het kunnen toepassen op robotinteracties, manipulaties, mens-robot-interacties, en het hebben van een agent die dit gezonde verstand heeft en over dingen kan redeneren in een gesimuleerde omgeving, naast perceptie die echt centraal staat in het robotica-probleem.

DeepMind-kat

De verschillende taken die Gato leerde voltooien. Beeldcredits: Diepe geest

Simulatie is waarschijnlijk een groot deel van het verzamelen van gegevens voor analyse.

Ja. Het is één ingrediënt hiervoor. De uitdaging met simulatie is dat je de kloof tussen simulatie en realiteit moet overbruggen. Simulaties zijn een benadering van de werkelijkheid. Het kan heel moeilijk zijn om heel precies te zijn en de werkelijkheid heel goed weer te geven. De fysica van een simulator moet goed zijn. De visuele weergave van de werkelijkheid in die simulatie moet heel goed zijn. Dit is eigenlijk een ander gebied waarop generatieve AI zijn stempel begint te drukken. Je kunt je voorstellen dat je, in plaats van daadwerkelijk een fysica-simulator te moeten gebruiken, gewoon genereert met behulp van het genereren van afbeeldingen of een soort generatief model.

Tye Brady vertelde me onlangs dat Amazon simulatie gebruikt om pakketten te genereren.

Dat is heel logisch. En in de toekomst denk ik dat je naast het genereren van activa ook futures kunt genereren. Stel je voor wat er zou gebeuren als de robot een actie zou uitvoeren? En verifiëren dat het daadwerkelijk doet wat u wilde, en dat gebruiken als een manier om plannen te maken voor de toekomst. Het is een beetje zoals de robot die droomt, waarbij hij generatieve modellen gebruikt, in plaats van dat hij dit in de echte wereld moet doen.