Kan en pilotstudie på europeiska patentdata vara första steget till att undvika framtida kemikaliekatastrofer? Forskare på RISE har byggt en maskininlärningsmodell som identifierar bisfenoler och potentiellt andra farliga kemiska ämnen. Med mer träning och utveckling kan samhällsvinsterna bli enorma.
Världens kemikalieinspektioner ligger i princip alltid steget efter. Bisfenoler är ett talande exempel. Först kommer misstanken, är ämnet hormonstörande? Sedan beläggen, jodå visst är det så. Och så regleringen, förbud i EU mot bisfenol A i nappflaskor 2011, och sedan i termopapper 2020 (används för kvitton).
Problemet? Införande av regleringar kommer när skadan redan är skedd och ofta kommer nya varianter som ännu inte hunnit regleras, så att myndigheterna får jaga ikapp.
Behovet av ett kraftfullt och proaktivt sätt att jobba är tveklöst stort. I samarbete med Kemikalieinspektionen och Patent och registreringsverket har forskare på RISE använt data från Europeiska patentverket för att utvärdera ett antal AI-metoder.
– Patentdata är ovanligt välstruktuerad. Den är gjord för att vara maskinläsbar och lätt att behandla, säger Olof Görnerup, forskare inom maskininlärning och storskalig dataanalys på RISE.
Dessutom, patentdata är en bra källa till att förstå vad som händer i teknikutvecklingen, resonerar forskarna. Beviljade patent föregår normalt den breda implementationen med flera år och innehåller information om kemiska ämnen i en produkt. Myndigheter kan därmed tidigt få vetskap om problematiska kemikalier är på väg att introduceras på marknaden.
Språkteknologi öppnar nya möjligheter
Tidigare har sådana här kartläggningar skett genom månader av manuellt nyckelordssökande. Ett arbete som därtill är svårt att verifiera – hur vet man att alla relevanta dokument är med?
Den snabba utvecklingen inom språkteknologi ger helt andra möjligheter.
– Istället använde vi semantisk sökning genom en AI-modell som ”förstår” mer av texten. Att vissa ord och fraser relaterar till ett ämne. Vad det handlar om är att hitta ord och fraser som betydelsemässigt liknar varandra, säger Olof Görnerup.
Det är viktigt att förstå var det används kemikalier
För att kunna avgöra vilka dokument som är relevanta hade AI-systemet först tränats på referensdata från en tidigare kartläggning av bisfenol-relaterade patent och databasen PubChems. Ett litet urval av dokument där klassen var känd visades för en AI-modell, som använde informationen för att hitta andra relevanta dokument.
Hög precision med AI
Resultatet visade att den AI-metod som klarade sig bäst kunde identifiera 96 procent av alla relevanta patent (precision). Samtidigt som 91 procent av de patent som identifierats som relevanta också är relevanta (återkallelsegrad).
– Vi såg direkt att det finns absolut potential att använda AI på det här området, säger Olof Görnerup.
Forskarna understryker att mer utveckling behövs och modellerna måste fintränas. Bland annat finns mycket bilddata i form av linjeteckningar och tekniska skisser som de förtränade modellerna (bland annat CLIP) hade svårt att hantera. Mycket av informationen av kemikalier i patent är just i form av bilder så potentialen i bättre sökning med hjälp av datorseende är stor. Inom närmare räckhåll ligger att skapa ett verktyg för Kemikalieinspektionen att automatiskt screena fram farliga kemikalier utan att ha djup insikt i olika teknikområden.
– Det är viktigt att förstå var det används kemikalier. En farlig kemikalie som bara används i kontrollerade processer utgör inte lika stor risk som en kemikalie som kanske är mindre farlig men som riskerar att spridas brett.
– Finns det nischteknikområden där sådant användande glider under radarn? Termopapper upptäcktes till exempel rätt sent. Det används överallt, många människor hanterar det dagligen genom kvittoskrivning.
– Tänk vilka vinster man skulle kunna uppnå om man undviker en ny PFAS-katastrof.