Kontaktperson
Olof Mogren
Senior Researcher
Kontakta OlofVad händer när man utmanar ett AI-verktyg för bildigenkänning till att istället skapa bilder? Den frågan ställde sig Ariel Ekgren, AI-forskare på RISE. Genom att ”vända” på algoritmen i bildigenkänningsverktyget CLIP hoppas han få värdefull kunskap om en algoritms preferenser, hur den lär sig och vad det får för konsekvenser i algoritmens beskrivning av verkligheten.
– CLIP är ett verktyg från det amerikanska företaget OpenAI som har tränats på 400 miljoner av matchningar av text och bildpar vilket gör att algoritmen har en bra förståelse för bilder. Jag vill med hjälp av generativ språkteknologi visualisera hur modellen lär sig av all data, förklarar Ariel Ekgren.
Ariel Ekgren började sin bana inom AI och maskininlärning via teknisk fysik på KTH innan han hoppade av utbildningen och gav sig in i startupvärlden. Via KTH kom han i kontakt med företaget Gavagai där intresset för kopplingen mellan AI, maskininlärning och språkteknologi väcktes. Det var också på Gavagai han kom i kontakt med RISE.
– RISE ligger långt fram inom AI-området och ger mig möjlighet att fördjupa mig inom AI och språkteknologiska frågor. Detta projekt med CLIP är ett projekt jag ägnar mig åt vid sidan av mina övriga arbetsuppgifter utifrån mitt eget intresse. Det är en fantastisk möjlighet att förstå exakt hur en viss algoritm fungerar för att kunna använda den och veta vad den gör eller utveckla den vidare, säger Ariel Ekgren.
CLIP-verktyget kan kombinera text och bild på ett nytt flexibelt sätt som lämpar sig bra för bildsökningssystem. Istället för att på förhand välja sina bildkategorier som man är intresserad av så kan verktyget istället matcha vilken skriven text som helst mot innehållet i en bild. Det som Ariel Ekgren nu gör är alltså att använda CLIP för att se om algoritmen själv även kan skapa bilder genom att vända på algoritmen. Det visar sig att det går, även om bilderna inte alltid är så verklighetstrogna. Modellen används faktiskt idag av konstnärer för att skapa digitala konstverk. För att algoritmen ska kunna förstå en korrekt bild av verkligheten kan man kombinera den med andra algoritmer som är gjorda just för att generera bilder av specifika saker som till exempel landskap eller liknande.
I framtiden skulle ett verktyg som CLIP kunna utvecklas från endast bildigenkänning till att även generera media som stockfoton och stockvideo till exempel. Ariel Ekgren försöker också översätta CLIP till svenska vilket på grund av den mindre textmängden som finns på svenska inte kan bli lika kraftfullt som den engelska versionen men tillräckligt bra. Idag används modellen av Kungliga Biblioteket för generell bildigenkänning och deras data är oerhört värdefull eftersom det är den mest omfattande svenska textsamlingen vi har.
Ett AI-verktygs analyser är dock aldrig bättre än de data som det får tillgång till vilket naturligtvis speglar, och riskerar att förstärka, den världsbild som datan representerar. AI-verktygen kan inte ifrågasätta och problematisera sin data. Detta etiska dilemma genomsyrar all AI-forskning och Ariel Ekgrens experiment med CLIP visar att bildigenkänningsverktyget inte är något undantag.
– Om man ber verktyget skapa en bild av en forskare till exempel så väljer modellen att skapa en bild av en man – eftersom flest män har den titeln i text- och bilddatan, och i världen. Hur ska vi förhålla oss till de svar som algoritmerna ger? Ska vi respektera datan som den är eller tvinga modellerna att svara det vi vill? Vem bestämmer då vad som är rätt?, säger Ariel Ekgren.