Kontaktperson
Alexander Minidis
Forskare Projektledare
Kontakta AlexanderAlexander Minidis, Erik Ylipää & Johan Broberg
Artikeln publicerades i nyhetsbrevet Om AI 26 januari 2022
Användningen av AI och maskininlärning kommer att kraftigt accelerera utvecklingstakten av nya kemiska processer och läkemedel. Här har RISE:s utveckling av nya metoder och system gett en tydlig fördel. Fortfarande finns det dock hinder att övervinna inom bland annat hantering och tillgång till data.
De senaste fem-sex åren har forskningsområdet om AI i synteskemi närmast exploderat. Antalet vetenskapliga publikationer inom området har gått från dussintals per år till tusentals. AI används i dag för att ge såväl digitala beskrivningar av olika molekyler, som att förutsäga resultat från kemiska reaktioner.
Maskininlärning och andra AI-metoder har visat sig kunna både komplettera och delvis ersätta de betydligt långsammare och mer resurskrävande traditionella simuleringsmjukvarorna. AI erbjuder också nya möjligheter till automatisering och rationalisering av manuellt arbete inom till exempel kemi- och materialsyntes. Många av dagens kommersiella lösningar är dock både dyra att använda och svårtillgängliga. Samarbeten mellan akademin och läkemedelsbranschen har lett till nya sätt att närma sig synteskemi med hjälp av öppen källkod och AI/maskininlärning. Här finns lovande projekt som ASKCOS eller AIZynthfinder, vilka visserligen fortfarande lider av en del barnsjukdomar men redan i dag visar en väg in i framtiden.
Inom RISE vill vi ställa detta på sin spets: hur långt kan vi komma inom kemin med hjälp av AI? Är det möjligt att helt förutsäga en viss reaktion med hjälp av AI och maskininlärning? Kan det till och med göras bättre än med traditionella metoder och ge bättre produkter? Är det möjligt att förutspå och därmed undvika oönskade biprodukter eller orenheter i produkterna?
Syntesen av läkemedel är mer komplex än vad många inser. Även för de som inte vet något om kemi blev uppmärksamheten kring syntesen av läkemedlet Remdesivir, i kölvattnet av Covid19-pandemin, ett bra exempel av hur komplexa och dyra vissa läkemedel kan vara.
De största hindren för en ökad användning av AI och maskininlärning finns inom två områden: tillgången av data och de matematiska definitionerna av enskilda kemiska enheter. Detta bekräftas både av den forskning som publicerats de senaste åren som av våra egna resultat.
Även om området organisk synteskemi har utvecklats under lång tid finns inte samma goda tillgång till data som inom andra områden. Dessutom lider den data som finns av en rad felaktigheter, till exempel inkonsekvenser, inkompatibla format och rena fel. Det finns även kommersiella hinder som försvårar användningen. De data som finns publikt tillgängliga har ofta sitt ursprung i patent vilket gör dem än mer svåra att använda. Trots det så är det användningen av dessa som gjort dagens proof-of-concepts möjliga och lett till att fältet utvecklats.
Nästa svårighet finns i att beskriva eller identifiera kemiska ämnen och även reaktioner på ett sätt som en dator kan förstå. Beskrivningen behöver vara så enkel som möjligt för att underlätta datorns beräkningar. Då flera kemiska föreningar ofta är inblandade samtidigt går det sällan att använda definitioner från andra närliggande områden.
Här har flera metoder studerats, alla med sina för- och nackdelar. Hittills har den vanligaste metoden inneburit en definition av enskilda molekyler som kombineras med en slutpunkt i form av ett resultat från en reaktion. Något som görs i så kallad QSAR-modellering som i dag används inom läkemedelsutveckling.
Liksom andra områden inom datahantering så är själva sammanställningen och formateringen av data mycket tidskrävande. Uppskattningsvis står detta arbete fortfarande för cirka 80-90 procent av utvecklingstiden vid projekt som involverar maskininlärning. Denna databehandling kan vara ett forskningsfält i sig och potentiellt leda till ett paradigmskifte för de företag med kommersiella tjänster som CAS (Chemical Abstract Services) i hur de tillhandahåller data och till vilken kostnad.
När det gäller att identifiera enskilda molekyler och reaktioner är så kallade SMILES-strängar den mest etablerade och praktiska metoden. Men de är ganska begränsade när det gäller att beskriva kemiska reaktioner då de inte kan ge fullständiga beskrivningar av molekylernas 3D-strukturer. Dessutom har de en tendens att variera i längd vilket gör dem svåra att använda som standardmetoder för statistisk inlärning. De är dock användbara i vissa scenarion, som vid uppskattningar eller approximationer.
En annan metod är så kallade molekylära fingeravtryck (bitvektorer) men då också de baseras på SMILEs så ärver de metodens begränsningar. Även om fingeravtryck kodar molekyler förvånansvärt bra, går storskalig strukturell information förlorad. Detta blir uppenbart när man försöker återskapa den övergripande strukturen. En av metodens fördelar är att den inte kräver så omfattande beräknings- eller lagringskapacitet – här räcker en ordinär arbetsstation gott för själva analysen.
Genom att kombinera metadata eller att sammanfläta olika metoder, upptäcks kontinuerligt nya sätt att beskriva molekyler. Ofta kräver dessa sätt tillgång till kraftfulla beräkning miljöer och mycket data.
Nyare metoder har ett annat angreppssätt och beskriver istället molekylen som en graf, vilket gör att den kan användas som input till så kallade Graph Neural Networks. De har bland annat fördelen av att kunna hålla all information om strukturerna intakta samtidigt som nya strukturer genereras.
Genom att kombinera metadata eller att sammanfläta olika metoder, upptäcks kontinuerligt nya sätt att beskriva molekyler. Ofta kräver dessa sätt tillgång till kraftfulla beräkningsmiljöer och mycket data.
Hos RISE finns djup och bred kompetens i ett flertal divisioner inom såväl beräkningsbaserad materialvetenskap och farmakologi/toxikologi som maskininlärning och beräknings teknologier.
Vi arbetar särskilt med att utveckla system där vi kombinerar olika metadata för att bättre kunna beskriva reaktioner. Modellerna som vi utvecklar bör också visa sig användbara inom bredare molekylära tillämpningar.
Även om AI inte kommer att ersätta dagens kemister i närtid, så kommer det att vara ett viktigt verktyg och underlätta beslutfattandet när kraven är höga på att spara tid, pengar och ge hållbara resultat.
Alexander Minidis, forskare synteskemi
Erik Ylipää, forskare djup maskininlärning
Johan Broberg, forskare