Tor Björn Minde
Enhetschef
Kontakta Tor BjörnI en tidigare bloggpost ställde vi frågan, "Kör generativ AI på luft?" och diskuterade de utmaningar som är kopplade till energiförbrukning samt strategier för att mildra denna. Vi lät även ChatGPT försöka besvara denna fråga, men den kunde inte ge ett tydligt svar.
I denna bloggpost ämnar vi att fördjupa oss i energiförbrukningen som är kopplad till träning och användning av stora språkmodeller. Det är viktigt att notera att det finns begränsat med detaljerad forskning tillgänglig inom detta område, och vår analys är baserad på data som samlats in från olika källor, vilket ger en första insikt som kan behöva uppdateras i framtiden.
Resan för artificiell intelligens (AI) började på 1950-talet och präglades av betydande milstolpar som Alan Turings förslag till "Turings test" och Dartmouth Conference, där termen "artificiell intelligens" myntades. I slutet av 1950-talet utvecklade Frank Rosenblatt och Bernard Widrow perceptronen och LMS-algoritmen, vilket lade grunden för neuronnätverk, även om de var begränsade i sin kapacitet.
Tre decennier senare beskrev David Rumelhart och andra backpropagation-algoritmen, vilket möjliggjorde skapandet av flerlagers nervnät. Detta markerade början på maskininlärning och möjligheten att träna nervnät med tusentals parametrar och flera lager.
Ytterligare tre decennier passerade, och år 2017 beskrev forskare hur man tränar superstora neuronnätverk som kallas transformers. Detta inledde eran för generativ AI och stora språkmodeller, med modeller som innehåller miljarder till biljoner parametrar, tränade på enorma datamängder. Dessa modellers prestanda har förvånat både forskare och allmänheten och lett till att de används flitigt av miljontals människor varje dag.
De 30-åriga tidsspannen i AI-utvecklingen är fascinerande. Vad kommer de nästa 30 åren att föra med sig?
Tillväxthastigheten för användare av ChatGPT (GPT-3) har överträffat alla andra online-tjänster avsevärt. Det tog bara fem dagar efter dess lansering i november 2022 att nå en miljon användare. Jämfört med detta tog det Instagram 2,5 månader, Facebook 10 månader och Twitter två år att uppnå samma milstolpe efter sina respektive lanseringar. För att nå 100 miljoner aktiva användare tog ChatGPT endast två månader, jämfört med TikToks nio månader och Instagrams 30 månader. Sedan dess har OpenAI tränat nästa generations modell, GPT-4, och introducerat den bakom en betalvägg. Tillväxthastigheten för GPT-4:s användning är inte offentligt känd.
Kostnaden för att Träna GPT-4 Att träna en superstor språkmodell som GPT-4, med 1,7 biljoner parametrar och med användning av 13 biljoner tokens (ordsnuttar), är en betydande uppgift. OpenAI har avslöjat att det kostade dem 100 miljoner dollar och tog 100 dagar, med användning av 25 000 NVIDIA A100 GPU:er. Servrar med dessa GPU:er förbrukar cirka 6,5 kW vardera, vilket resulterar i en uppskattad energiförbrukning på ca 50 GWh under träningen. Om molnkostnader värderas, ungefär 1 dollar per A100 GPU-timme, skulle dessa kostnader ensamma uppgå till cirka 60 miljoner dollar.
OpenAI har också påpekat att det krävs cirka 6 FLOP (floating-point operations) per parameter per token för att träna GPT-4. Detta motsvarar totalt 133 miljarder petaFLOP för GPT-4. För att sätta detta i perspektiv, om den europeiska superdatorn LUMI användes, som har en prestanda på 550 petaFLOP/s och 8,5 MW, skulle det ta cirka 8 år och 600 GWh för att slutföra träningen. Detta är endast en indikation på den omfattande skala av GPU-kluster som behövs för att träna GPT-4.
För att ge en jämförelse använder alla datacenter i Sverige för närvarande cirka 3 000 GWh av energi. GPT-4:s träning på ca 50 GWh ensam skulle utgöra ungefär 2% av den kapaciteten för en enda träningsomgång. När man tar hänsyn till träningens krav från olika företag och organisationer globalt blir det tydligt varför datacenterindustrin upplever en ökad efterfrågan på kapacitet.
Platsen för träning spelar också en avgörande roll för den miljömässiga påverkan av stora språkmodeller. Om GPT-4 skulle tränas i norra Sverige, där energimixen resulterar i 17 gCO2eq/kWh, skulle det motsvara att köra en genomsnittlig bil runt jorden 300 gånger. Om träningen av GPT-4 genomfördes i Tyskland, med en miljöpåverkan som motsvarar 30 genomsnittliga bilar som kör runt jorden 300 gånger, understryker detta betydelsen av träningsplatsen.
Jämförelsevis är träningen av GPT-3 mindre resursintensiv. Med 175 miljarder parametrar och träning på 300 miljarder tokens skulle träningen kosta 315 miljoner petaFLOP, vilket är 0,2% av träningskostnaden för GPT-4. På ett kluster med 25 000 GPU skulle GPT-3 kunna tränas på cirka 6 timmar och använda 114 MWh.
Även om GPT-4 för närvarande är en betaltjänst förväntas dess användning öka i framtiden. För närvarande är de 100 miljoner aktiva användarna främst engagerade med GPT-3, den öppna ChatGPT-tjänsten. Om vi hypothetiskt antar att alla 100 miljoner aktiva användare övergår till GPT-4 skulle modellen hantera 3,4 miljarder petaFLOP per förfrågan, baserat på en antagen förfrågestorlek på 1 000 tokens och 2 FLOP per förfrågan enligt OpenAI:s angivelser. Jämfört med detta resulterar förfrågningar till GPT-3 i 0,35 miljarder petaFLOP per förfrågan, en tiondel av den beräknade belastningen för GPT-4.
OpenAI har avslöjat att GPT-3:s tjänst körs på ett serverkluster med 128 GPU:er. Med varje NVIDIA A100 GPU-server som använder 0,13 Wh per förfrågan på bara 0,004 sekunder summerar det till 0,68 miljarder petaFLOP per dag och 91 GWh per år för förfrågningar med GPT-4. I motsats till detta resulterar förfrågningar med GPT-3 på 10 kluster med 16 6U-servrar i 0,07 miljarder petaFLOP per dag och 9,5 GWh per år.
För att ge en jämförelse hävdar Google att en sökning använder 0,28 Wh. Således är en förfrågan till GPT-4 ungefär fyra gånger mer energikrävande än en Google-sökning, medan en förfrågan till GPT-3 är hälften så dyr som en Google-sökning. Enligt Google motsvarar deras energianvändning att hålla en 60 W glödlampa påslagen i 17 sekunder.
Sammanfattningsvis är energianvändningen som är kopplad till generativ AI och stora språkmodeller betydande. När dessa modeller blir populära och användningen ökar blir det allt viktigare att förstå och hantera deras miljömässiga och energirelaterade konsekvenser.
Vi på ICE datacenter hjälper dig gärna om fler frågor om datacenter, vätskekylning och energianvändning för AI dyker upp — hör av dig om du har några frågor!