Kontaktperson
Aleksis Pirinen
Forskare
Kontakta AleksisAleksis Pirinen, senior forskare maskininlärning
Artikeln publicerades i nyhetsbrevet Om AI 15 december 2021
Djupa neuronnät används för alla möjliga typer av artificiell perception, som bildigenkänning, ljudanalys och textbehandling – dock oftast bara för ett område i taget. Men morgondagens metoder kan bli mer generella och allra bäst har de visat sig fungera utan mänsklig inblandning.
Nu har det snart gått ett decennium sedan Alexander Krizhevsky, Ilya Sutskever och Geoffrey Hinton satte igång den pågående AI-boomen. Med sin metod som fick namnet AlexNet slog de forskarvärlden med häpnad. Mest förvånande var kanske att det byggde på flera decennier gammal forskning.
Nyheten låg snarare i möjligheterna i de parallella framsteg som gjorts beträffande beräkningskapacitet, i synnerhet hos grafikkort. Dessa visade sig väl anpassade för den typ av beräkningar som dessa modeller som AlexNet utför. Krizhevsky, Sutskever och Hinton var först med att uppvisa den makalösa synergi som kan uppstå när djupa neuronnät får tillgång till mer beräkningskraft.
Sedan dess har en rad framsteg gjorts och revolutionen inom djup maskininlärning, till stor del driven av data och beräkningskraft, ser ut att fortgå ytterligare. Gemensamt för många framsteg är att de baseras på AI-modeller som är experter inom ett snävt område i taget, till exempelvis bildigenkänning eller översättning av text.
I takt med en större tillgång till data och mer beräkningskapacitet har dock modellarkitekturerna börjat utvecklas mot ett större oberoende av vilken datatyp som behandlas och vilken uppgift som utförs.
Modellerna är också anpassade för att bearbeta en viss typ av data åt gången som bild, ljud eller text. Därför måste modellarkitekturerna modifieras för varje nytt användningsområde. I takt med en större tillgång till data och mer beräkningskapacitet har dock modellarkitekturerna börjat utvecklas mot ett större oberoende av vilken datatyp som behandlas och vilken uppgift som utförs. Här reduceras mängden antaganden som görs om in- och utdatan för modellerna, och de påverkas därmed mindre av mänskliga förkunskaper – eller förutfattade meningar. Det är ju långtifrån alltid som mänskliga antagandena har visat sig vara de bästa.
Inom bildigenkänning har så kallade faltningsnätverk, en variant av djupa neuronnät (se faktaruta nedan), varit ledande sedan 2012. De är designade efter hur man förväntar sig att bilddata beter sig. Bland annat antas att en given pixel i en bild är mest korrelerad med sina omgivande pixlar. I ett faltningsnätverk lär sig modellen sedan känna igen relevanta mönster lokalt i bilden.
En stor fördel med denna arkitektur är att den innehåller relativt få parametrar och att den därmed inte kräver så mycket data för att uppnå en viss förmåga.
Men jämfört med 2012 så finns det i dag en mycket större tillgång till data och även till beräkningskraft. Något som fått allt fler att fråga sig om AI-modellerna kan bli ännu kraftfullare utan de begränsningar som skapas av mänskliga antaganden.
En väldigt populär modell som ligger i linje med mer generell artificiell perception är Transformern från Google Brain. Den ursprungliga modellen användes fram till i fjol framför allt inom språkbehandling, men har sedan dess även blivit en central modell för bildanalys: Vision Transformer (ViT).
Denna modelltyp gör färre antaganden om indatan, och tillåter nästintill obegränsad interaktion mellan pixlar på olika ställen i bilden. För att undvika dilemmat med kvadratisk skalning i antalet pixlar delas dock bilden in i ett antal rektangulära regioner, där lokala beräkningar initialt utförs inom varje region. Därmed finns vissa mänskliga antaganden om datan inbakade i även i denna modellarkitektur.
Ännu mer generella arkitekturer har dock publicerats bara under det senaste året. Ett exempel är Google Deepminds Perceiver-arkitektur. Denna är i grunden en Transformer-modell men kräver ingen förprocessering av indatan. Istället lär sig nätverket automatiskt vilka korrelationer i bilden som är värda att bevara utifrån den beräkningskapacitet som finns tillgänglig.
Samma forskargrupp som står bakom Perceiver har introducerat ytterligare en modifiering, Perceiver I/O, som är ännu mer generell. Därmed kan modellen i princip användas till alltifrån bildigenkänning till översättning av text.
Nästa steg inom generell artificiell perception är svår att sia om även om Google nyligen hintat om deras Pathways-modell, som dock fortfarande är lite av en hemlighet. Pathways-modellen ska kunna undvika ett stort kvarvarande hinder mot generell artificiell perception: omträning.
Medan de tidigare modellerna måste anpassa sina parametrar, träna om dem, till varje nytt användningsområde så ska Pathways slippa detta steg. Problemet med omträning i dagens modeller är att de glömmer bort sina tidigare kunskaper, vilket gör det omöjligt för de flesta av dagens modeller att utföra flera typer av uppgifter samtidigt, som bild-, text- och ljudigenkänning.
Det pågår visserligen sedan tidigare mycket forskning för att få AI-modeller att behärska flera användningsområden samtidigt, eller för att snabbt och effektivt kunna tränas om när nya behov uppstår. Men någon helt tillfredsställande lösning existerar inte i ännu.
Låt oss avslutningsvis spekulera lite om potentiella positiva respektive negativa följder av trenden mot mer generella modeller. Fördelarna kretsar primärt kring att samma modell kan användas till många olika uppgifter. Något som bland annat kan göra AI-verktyg mer lättillgängliga även för icke-experter. Resultatmässigt visar sig också dessa mer generella modelltyper ofta vara bättre än de som baseras på fler mänskliga antaganden, om de tränas på stora datamängder.
Nackdelen är dock att relativt få organisationer och aktörer har förmågan att utveckla och utnyttja den fulla potentialen hos modellerna. Här finns risken att tech-jättar som Google, Facebook, Microsoft och Amazon sätter agendan, eftersom de har tillgång både till mest data och beräkningskapacitet. Detta väcker viktiga frågor om demokrati och inflytande kring AI – en teknologi som i allt större utsträckning genomsyrar vårt samhälle och dagligen påverkar de flesta av oss.
Ett ensidigt fokus på större och kraftfullare AI-modeller riskerar även att göra den globala AI-infrastrukturen mindre resilient, exempelvis mot energikriser. Dessa spås bli många fler under den kommande transitionen mot ett fossilfritt samhälle.
Vidare är de klimat- och miljömässiga kostnaderna kopplade till användningen av tunga AI-modeller inte försumbara. Alltså behövs satsningar även på AI-modeller som kan utföra uppgifter på ett tillförlitligt sätt med betydligt mindre beräkningskapacitet. Satsningarna är viktiga inte minst för att människor i länder och regioner med svagare ekonomier eller elnät ska kunna nyttja - och delta i utvecklingen av - dagens och morgondagens AI-system.
Djupa neuronnät är AI-modeller som processar indata genom flera på varandra följande steg för att göra en förutsägelse. Om indatan är en bild kan en förutsägelse vara vilka objekttyper som finns i bilden. Varje processeringssteg kallas ett lager, och ett neuronnät består alltså av flera på varandra följande lager som extraherar olika typer av information från indatan. Vilken typ av information som extraheras är inte förutbestämt, utan detta är något som modellen ‘lär sig’ genom att ‘träna’ på stora mängder data. Om indatan består av bilder på ansikten kan det hända att vissa tidiga lager lär sig grundläggande egenskaper, som att urskilja konturer runt kinder, ögon och andra ansiktsdelar, medan senare lager lär sig att förstå mer sofistikerade egenskaper, som en muns relativa position i förhållande till en näsa.
A. Krizhevsky, I. Sutskever, G. Hinton, Imagenet classification with deep convolutional neural networks, Advances in Neural Information Processing Systems, 2012.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L Kaiser, I. Polosukhin, Attention is all you need, Advances in Neural Information Processing Systems, 2017.
A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby, An image is worth 16x16 words: Transformers for image recognition at scale, International Conference on Learning Representations, 2021.
A. Jaegle, F. Gimeno, A. Brock, A. Zisserman, O. Vinyals, J. Carreira, Perceiver: General perception with iterative attention, International Conference on Machine Learning, 2021.
Perceiver IO: A General Architecture for Structured Inputs & Outputs https://deepmind.com/research/open-source/perceiver-IO
Introducing Pathways: A next-generation AI architecture https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
Global Energy Crisis Is the First of Many in the Clean-Power Era https://www.bloomberg.com/news/articles/2021-10-05/global-energy-crisis-is-the-first-of-many-in-the-clean-power-era