Artikel ur The Economist, Robotics, 5 juni 2024, översatt av InPress. ©2024 The Economist Newspaper Limited. Alla rättigheter förbehållna.
Vad handlar artikeln om?
Tack var AI, eller egentligen VLA (Vision-language-action) kan man nästan säga att robotar har fått en hjärna, vilket ger robottekniken ett stort kliv framåt. Robotarna har blivit mycket smartare. Till och med utrustade med lite sunt förnuft.
Vad ser du framför dig nu?” En man ställer frågan till en humanoid robot som står bakom ett bord. ”Jag ser ett rött äpple på ett fat mitt på bordet, ett diskställ med muggar och en tallrik. Och jag ser dig, som står bredvid med en hand på bordet”, svarar roboten. ”Bra – kan jag få något att äta?”, säger mannen. ”Javisst”, säger roboten. Den böjer armarna, lyfter upp äpplet med höger hand, flyttar över det till vänster hand och överräcker därefter frukten till mannen. Han ber roboten förklara vad den gjorde. ”Jag gav dig äpplet, eftersom det var det enda ätbara som fanns på bordet och som jag kunde ge dig”, svarar den.
Den här demonstrationen, som visas i en video som robotföretaget Figure släppte i mars, fick många att häpna. Filmen visar en robot som kan föra samtal, känna igen och flytta på föremål, lösa problem och förklara vad den gör. Och Figure är inte ensamma om att producera så imponerande resultat. Under många år var utvecklingen långsam, men plötsligt verkar robotarna ha blivit mycket smartare. Vad har hänt?
Den magiska ingrediensen är artificiell intelligens, AI. Forskare, startup-företag och techjättar använder sig av framsteg inom AI, som stora språkmodeller, LLM – large language models, talsyntes och bildigenkänning, och tillämpar dem på robotteknik. LLM:er brukar förknippas med chatbotar som ChatGPT – men det visar sig att de även kan driva riktiga robotar. ”Algoritmerna är flyttbara”, säger Peter Chen, vd för Covariant, ett startup-företag med bas i Emeryville i Kalifornien. ”Det är bakgrunden till den här renässansen på robotteknikområdet.”
Funktionerna för taligenkänning och den nästan kusligt verkliga talsyntesen hos roboten i Figures video levererades av OpenAI, som investerat i företaget. OpenAI avvecklade sin egen enhet för robotteknik kring 2020 och satsade i stället på att investera i Figure och andra startup-företag. Men nu har OpenAI ångrat sig och under den senaste månaden har företaget börjat bygga upp ett nytt team som arbetar med robotteknik – ett tecken på att trenden har börjat vända.
En viktig förutsättning för användning av AI i robotar var utvecklingen av ”multimodala” modeller – AI-modeller som är tränade på olika typer av data. Medan en språkmodell är tränad med hjälp av stora textmängder, är ”vision-språkmodeller” även tränade med kombinationer av bilder, stillbilder eller rörliga bilder, och textbeskrivningar. De här modellerna lär sig relationen mellan text och bild, vilket gör att de kan besvara frågor om vad som händer i ett foto eller en video, eller kan generera nya bilder baserade på textfrågor.
De nya modeller som används inom robotteknik tar den här idén ett steg längre. Dessa ”vision-language-action”-modeller, VLA, tar in texter och bilder, plus data som rör robotens närvaro i den fysiska världen, inklusive avläsningar av interna sensorer, graden av rotation hos olika leder och placeringen av ställdon, som gripklor eller fingrarna på en robothand. Modellerna kan sedan besvara frågor om en viss miljö, som ”kan du se ett äpple?”. Men de kan också förutse på vilket sätt en robotarm behöver röra sig för att lyfta upp äpplet och hur det kommer att påverka situationen.
Med andra ord kan VLA fungera som en ”hjärna” för robotar med olika typer av kroppar. Det kan handla om jättelika stationära armar i fabriker eller lager, eller vara mobila robotar med ben eller hjul. Och till skillnad från LLM-modeller, som enbart hanterar text, måste VLA-modeller kombinera flera oberoende återgivningar av världen: i text, bilder och via sensoravläsningar. Att förankra modellens perception i verkligheten på det här sättet gör att ”hallucinationerna” – AI-modellernas tendens att hitta på och missuppfatta saker – minskar avsevärt.
Peter Chens företag, Covariant, har utvecklat en modell som kallas RFM-1. Den är tränad på att använda text, bilder och data från mer än 30 olika typer av robotar. Modellens programvara används främst i ”plock”-robotar i lager och på distributionscentraler i förortsområden där det finns billig mark, men är ont om arbetskraft. Covariant tillverkar inte någon del av maskinvaran på egen hand. I stället används företagets programvara för att uppgradera befintliga robotars ”hjärnor”.
”Vi förväntar oss att robotarnas intelligens kommer att förbättras i samma takt som programvaran utvecklas, eftersom vi får tillgång till så mycket mer data som roboten kan lära sig av”, säger Peter Chen.
Att använda dessa nya modeller för att styra robotar har flera fördelar jämfört med tidigare metoder, menar Marc Tuscher, en av grundarna till Sereact, ett startup-företag inom robotteknik baserat i Stuttgart. En fördel är ”zero-shot”-inlärning, vilket är teknikjargong för kapaciteten att göra något helt nytt – som att ”lyfta upp den gula frukten” – utan att uttryckligen ha tränats att göra det. VLA-modellernas multimodala egenskaper förser robotarna med mer sunt förnuft och kunskap om världen jämfört med tidigare – exempelvis fakta som att bananer är gula och en typ av frukt.
En annan fördel är ”kontextbaserad inlärning” – möjligheten att förändra en robots beteende med hjälp av textkommandon i stället för invecklad omprogrammering. Marc Tuscher exemplifierar med en lagerrobot som är programmerad att sortera paket. Roboten blev förvirrad när öppna lådor av misstag placerades i systemet. Tidigare hade man behövt träna om modellen för att få roboten att bortse från de öppna lådorna.
”Idag ger vi den ett kommando – strunta i de öppna lådorna – och då plockar den bara stängda lådor”, säger Marc Tuscher. ”Vi kan ändra vår robots beteende genom att ge den ett kommando. Det är fantastiskt.” Robotar kan i praktiken programmeras av icke-specialiserade mänskliga operatörer med hjälp av vanliga språkkommandon i stället för programkod.
De här modellerna kan också svara. ”När roboten gör ett misstag kan man ställa en fråga och den svarar då i textform”, säger Peter Chen. Det är till hjälp vid felsökning, eftersom man kan ändra kommandot och ge roboten nya instruktioner, säger Tuscher. ”Man kan säga till den att ”det här är inte bra, gör inte så i framtiden.” Också det här innebär att det blir enklare för icke-specialister att arbeta med robotar.
Att kunna fråga en robot vad den gör och varför är till särskilt stor hjälp när det gäller självkörande bilar. Dessa bilar är egentligen bara en variant av robotar. Wayve, ett startup-företag i London som tillverkar självkörande bilar, har utvecklat en Vlam som kallas Lingo-2. Förutom att styra bilen kan modellen förstå textkommandon och förklara varför den fattar vissa beslut.
”Modellen kan ge förklaringar medan vi kör och den gör att vi kan felsöka, ge systemet instruktioner eller ändra dess beteende så att den kör på ett visst sätt”, säger Alex Kendall, en av Wayves grundare. Som exempel beskriver han en situation där man frågar modellen vilken hastighetsgräns som gäller och vilka signaler i omgivningen, som skyltar och markeringar i vägbanan, den har använt för att komma fram till svaret. ”Vi kan kontrollera vilken typ av kontext den kan förstå och vad den kan se”, säger han.
Foto: Wayve
Precis som med andra former av AI, är det viktigt att ha tillgång till stora mängder träningsdata. Covariant, som grundades 2017, har under många år samlat in data från sina befintliga tillämpningar. De använde man för att träna RFM-1. Robotar kan också styras manuellt och utföra en viss uppgift några gånger. Modellen kan sedan använda de data detta genererar för att göra generaliseringar. Denna process kallas ”imitationsinlärning”. Peter Tuscher säger att han använder en spelkontroll i den här processen, vilket kan vara lite knöligt.
Men det är inte det enda alternativet. Ett spännande forskningsprojekt vid Stanford University, under namnet Mobile ALOHA, genererade data för att lära en robot enkla hushållssysslor, som att göra kaffe, med hjälp av en process som kallas ”Wholebody Teleoperation”. Den påminner om hur man styr en marionettdocka. Forskarna i projektet ställde sig bakom roboten och rörde på dess ben och armar. På så sätt kunde den uppfatta, lära in och kopiera en viss uppsättning rörelser. Forskarna menar att med den här metoden ”kan människor lära robotar slumpmässiga funktioner”.
Chelsea Finn, professor vid Stanford som ledde Mobile Aloha-projektet, är också en av grundarna av startup-företaget Physical Intelligence som nyligen hämtade in 80 miljoner dollar från bland annat OpenAI. Skild, ett startup-företag på robotområdet, är en avknoppning från Carnegie Mellon University och beräknas ha tagit in 300 miljoner dollar under april. Figure, som fokuserar på humanoida robotar, hämtade in 675 miljoner dollar i februari. Wayve fick in 1,05 miljarder dollar i maj, den största finansieringsrundan någonsin för ett europeiskt startup-företag inom AI.
Alex Kendall hos Wayve säger att det växande intresset för robotar gör att ”förkroppsligad AI” hamnar i fokus. Utvecklingen inom AI-programvara leder till att den i större utsträckning tillämpas på maskinvara som samspelar med den verkliga världen. ”AI är så mycket mer än chatbotar”, säger han. ”Om några decennier kommer människor att förknippa AI med fysiska maskiner ute i verkligheten.”
I takt med att programvaran för robottekniken blir bättre, är det nu maskinvaran som sätter gränser, säger forskarna. Inte minst när det handlar om humanoida robotar. Men när det gäller robothjärnor, säger Peter Chen, ”gör vi mycket snabba framsteg som gör dem intelligentare”.
Denna text publicerades ursprungligen i det tryckta magasinet Världen Om oktober 2024.
Översättare: Helen Gustafsson
Läs fler artiklar från samma nummer här.
Så här jobbar Världen Om med kvalitetsjournalistik: Vi väljer ut artiklar. analyser, data och intervjuer från The Economist som täcker in geopolitik, vetenskap, livsstil, affärer och kultur. The Economist har funnits sedan 1843 för att "stärka kampen för intelligent upplysning i syfte att motverka okunskap som hindrar framsteg och utveckling."