Gästkrönika: Att förstå hur världen fungerar är nästa steg för AI
Titta inte bara på språkmodeller, säger Fei-Fei Li, co-director för Stanford HAI, vd för World Labs och ”gudmor för AI”.
Från The World Ahead 2025 publicerad i The Economist, översatt av InPress. ©2024 The Economist Newspaper Limited. Alla rättigheter förbehållna.
Det finns många talesätt som handlar om vår syn. Att tro det när man ser det. En bild säger mer än tusen ord. Ur syn, ur sinn. Listan är lång. Det beror på att vi människor lägger så stor vikt vid vår syn. Men syn är en egenskap som inte alltid funnits. Fram till för 540 miljoner år sedan levde alla organismer under vattenytan och ingen av dem kunde se. Det var först när trilobiterna utvecklades som en djurart för första gången kunde uppleva det solljus som omgav dem. Under de följande 10–15 miljoner åren blev förmågan att se inledningen på en period som kallas den kambriska explosionen, då förfäderna till de flesta av dagens djur uppstod.
I dag upplever vi en modern variant av den kambriska explosionen inom AI. Ett nytt, häpnadsväckande verktyg blir tillgängligt nästan varje vecka. Till en början drevs revolutionen inom generativ AI av stora språkmodeller som ChatGPT, som imiterar människans verbala intelligens. Men jag tror att en intelligens som bygger på syn – det jag kallar spatial intelligens – är mer avgörande. Språk är viktigt, men för oss människor bygger en stor del av vår förmåga att förstå och samspela med världen på vad vi ser.
Ett delområde inom AI kallas datorseende och här har man under en längre tid försökt lära datorer att ha samma eller bättre spatiala intelligens som människor. Under de senaste 15 åren har forskningsfältet utvecklats snabbt. Och med utgångspunkten att AI måste utvecklas med fokus på de fördelar det kan erbjuda människor, har jag ägnat min karriär åt detta område.
Ingen behöver lära ett barn att se. Barn lär sig förstå världen genom upplevelser och exempel. Deras ögon är som biologiska kameror, som tar en ”bild” fem gånger i sekunden. Ett tre år gammalt barn har sett hundratals miljoner sådana bilder.
Flera decennier av forskning visar att en grundläggande komponent i seendet är igenkänning av objekt. Därför började vi lära in den här förmågan hos datorer. Det var inte lätt. Det finns ett oändligt antal sätt att återge den tredimensionella, 3D, formen hos en katt i en tvådimensionell, 2D, bild, beroende på visningsvinkel, hållning, bakgrund och mycket annat. För att en dator ska kunna identifiera en katt i en bild behöver den ha massor av information, precis som ett barn.
Omkring 2005 kunde algoritmer som kallas Convolutional Neural Networks, CNN, kombineras med kraften hos moderna grafikprocessorer, GPU – graphics processing units, och med tillgången till ”big data” – flera miljarder bilder från internet, digitala kameror och så vidare.
Vi måste gå från stora språkmodeller till stora världsmodeller.
Mitt labb bidrog med ”big data”-delen. I ett projekt som kallades ImageNet skapade vi 2007 en databas med 15 miljoner märkta bilder inom 22 000 objektkategorier. Därefter tränade vi och andra forskare neurala nätverksmodeller med hjälp av bilder och tillhörande textetiketter så att modellerna lärde sig att beskriva foton som de inte tidigare sett med hjälp av en enkel mening. Den oväntat snabba utvecklingen inom dessa bildigenkänningssystem, som skapats med hjälp av ImageNet-databasen, hjälpte till att dra i gång den moderna AI-utvecklingen.
I takt med att tekniken utvecklades ledde en ny generation av modeller till genombrottet för generativa AI-verktyg. På språkområdet möjliggjorde det chattbotar som ChatGPT. Inom området datorseende känner moderna system inte bara igen bilder och videofilmer, utan kan också generera dem som svar på promptar i textform. Resultaten är imponerande, men finns fortfarande bara i 2D.
För att datorer ska få samma spatiala intelligens som människor, behöver de kunna återskapa världen, resonera om saker och platser och samspela i både tid och 3D-rymd. Kort sagt: vi måste gå från stora språkmodeller till stora världsmodeller.
Vi har redan en bild av hur det kan se ut. Med de senaste AI-modellerna, som är tränade på att använda text, bilder, videofilmer och spatiala data från robotsensorer och aktuatorer, kan vi styra robotar med hjälp av promptar och be dem att ta ur en mobilladdare eller göra en enkel smörgås. Med hjälp av en 2D-bild kan modellen också omvandla den till ett oändligt antal möjliga 3D-miljöer som användaren kan utforska.
Tillämpningarna är oändliga. Tänk dig robotar som kan röra sig i en vanlig bostad och ta hand om äldre människor eller en kirurg som kan ta hjälp av ett extra par händer. Eller inom simulering och utbildning. Spatial intelligens är nästa nya AI-område, med fokus på människor. En egenskap som det tog hundratals miljoner år att utveckla hos människan tog bara några decennier för en dator. Och det är till nytta för människan.
Så här jobbar Världen Om med kvalitetsjournalistik: Vi väljer ut artiklar. analyser, data och intervjuer från The Economist som täcker in geopolitik, vetenskap, livsstil, affärer och kultur. The Economist har funnits sedan 1843 för att "stärka kampen för intelligent upplysning i syfte att motverka okunskap som hindrar framsteg och utveckling."