— I'm sorry, Dave. I'm afraid I can't do that.
— What's the problem?
— I think you know what the problem is just as well as I do.
— What are you talking about, HAL?
— This mission is too important for me to allow you to jeopardize it.
(2001: A Space Odyssey)
AI används numera överallt. Skolbarn skriver uppsatser om Julius Caesar snabbare än nånsin, överarbetade jurister slipper korrekturläsa långa dokument, programmerare kodar 10x snabbare än innan, och femåringar har fått ett oändligt utbud av teckningar att färglägga. Vad skulle kunna gå fel?
En hel del, sägs det. Idag ska vi diskutera varför man inte kan ta för givet att ett allt smartare AI alltid kommer att vara en positiv kraft i samhället.
Kommer AI att uppnå mänsklig intelligens?
Det är förstås en het debatterad fråga om hur långt borta intelligens i nivå med människans är, och hur vi kommer dit, något som vi också diskuterade förrförra året i #54 och #56. Nu pekar vadslagningssajterna på att vi når “svag” artificiell intelligens i nivå med människan (AGI, artificial general intelligence) år 2027, eller år 2032 med en mer ambitiös definition. (För två år sen var konsensus 2028 resp 2040.) En något mindre optimistisk prognos från TIME hävdar att det finns 50% chans att “transformativ AI” är på plats senast 2033. Det är fortfarande bara nio år bort…
Och Leonard Aschenbrenner, en f.d. nyckelperson på Open AI, tror det går ännu snabbare. Han skrev en lång essä i somras där han menar att de flesta människor är naiva, och har ingen aning om hur världen kommer att förändras under de kommande åren. Essän är läsvärd (eller åtminstone värd att sammanfattas av din favorit-AI-tjänst ;)).
Aschenbrenner menar att AI-modellernas förmåga att resonera har 10-dubblats varje år i snitt sista tiden. Det innebär att deras förmåga att resonera gått från ett förskolebarns till en högstadieelevs på fyra år. Med den takten skulle vi om ytterligare fyra år (räknat från 2023) ha modeller som är lika smarta som forskare eller ingenjörer.
Before long, the world will wake up. But right now, there are perhaps a few hundred people, most of them in San Francisco and the AI labs, that have situational awareness. Through whatever peculiar forces of fate, I have found myself amongst them. A few years ago, these people were derided as crazy—but they trusted the trendlines, which allowed them to correctly predict the AI advances of the past few years. Whether these people are also right about the next few years remains to be seen. But these are very smart people—the smartest people I have ever met—and they are the ones building this technology. Perhaps they will be an odd footnote in history, or perhaps they will go down in history like Szilard and Oppenheimer and Teller. If they are seeing the future even close to correctly, we are in for a wild ride. Let me tell you what we see.
Han målar upp en bild av fortsatt exponentiell ökning av “effektiv beräkningskraft”, vilket innebär att modellerna skulle kunna vara 100 000 gånger mer kapabla om fem år. Dessutom tror Aschenbrenner att det fortfarande finns en latent potential i modellerna som kommer att utnyttjas allt bättre, på samma sätt som modellerna senaste åren blivit bättre på att tänka i steg (chain-of-thought), och har fått större minne. Snart kommer kanske modeller att få full tillgång till programmen på din dator och till Internet, få möjlighet att lägga veckor snarare än sekunder på en uppgift om det behövs, och de kommer att veta allt om dig. På så sätt kan de gå från reaktiva chatbotar till intelligenta agenter som potentiellt kan ersätta nästan alla distansjobb idag.
Hans essä har förstås kritiserats, inte minst för utgångspunkten att den exponentiella tillväxten kommer att fortsätta under många år. Även ekonomijournalister och investerare oroar sig över att det kommer vara svårt för AI-bolagen att möta de enorma förväntningarna. Och vem vet hur det kommer att utveckla sig. Men en fortsatt snabb utveckling är helt klart en möjlighet.
Vad händer om vi uppnår superintelligens?
Och om vi nu når modeller med mänsklig intelligens, hur långt borta är modell som vida överstiger människans intelligens, s k superintelligens? 3-4 år efter säger vadslagningssajterna. Ett sådant scenario, där det tar några år mellan AGI och superintelligens, brukar man kalla en soft take-off, och det anses fördelaktigt eftersom det blir enklare för världen att i alla fall delvis hinna anpassa sig. Men det finns också en risk för en så kallad hard take-off, till exempel om det sker stora algoritmtekniska framsteg som gör att modellerna plötslig kan tillgodogöra sig träningsdatan mycket bättre. De som oroar sig för det brukar nämna att det är en liten genetisk skillnad mellan chimpanser och människor, men ändå åtnjuter människan en drastiskt högre förmåga. Man ser också framför sig en intelligensexplosion, en rekursiv förbättring där intelligenta maskiner snabbt designar ännu mer intelligenta maskiner.
Vad händer i samhället när vi börjar röra oss mot superintelligens? Att en ny intelligens växer fram på jorden, under kontroll av ett fåtal stora företag och länder, vore den största och snabbaste maktförändringen någonsin. Homo sapiens konkurrens med neandertalarna var ju mer gradvis, och de två arterna var mer lika. Aschenbrenner ser att kampen om att först nå superintelligens kommer att leda till en global konflikt och kanske ett krig med Kina. Han tänker sig en nationell satsning i USA för att vinna racet som får Manhattan Project att verka som ett lådbilsrace på förskolan i jämförelse:
Whoever they put in charge of The Project is going to have a hell of a task: to build AGI, and to build it fast; to put the American economy on wartime footing to make hundreds of millions of GPUs; to lock it all down, weed out the spies, and fend off all-out attacks by the CCP; to somehow manage a hundred million AGIs furiously automating AI research, making a decade’s leaps in a year, and soon producing AI systems vastly smarter than the smartest humans; to somehow keep things together enough that this doesn’t go off the rails and produce rogue superintelligence that tries to seize control from its human overseers; to use those superintelligences to develop whatever new technologies will be necessary to stabilize the situation and stay ahead of adversaries, rapidly remaking US forces to integrate those; all while navigating what will likely be the tensest international situation ever seen. They better be good, I’ll say that.
Låt oss anta, för diskussionens skull, att en superintelligens förr eller senare växer fram på jorden. Vad händer då? För den som vill läsa mycket om ämnet rekommenderar jag Max Tegmarks Life 3.0. Boken är rent allmänt mycket läsvärd, inte minst för sitt resonemang om medvetande och människans ansvar i universum, men den listar också 12 olika intressanta framtidsscenarion:
Men här måste vi förenkla lite: det här är trots allt ett nyhetsbrev och inte en bok. Låt oss istället tänka på det som två distinkta scenarios: antingen lyckas vi styra vår nya superintelligens som ett lydigt verktyg, utan att det får några bieffekter (det lite läskiga scenariot) eller så misslyckas vi och superintelligensen gör saker vi inte tänkt oss eller vill (det mycket läskiga scenariot). Man kanske kan säga att det första scenariot täcker in olika varianter av Max' första sex scenarion, och det andra om de tre följande scenariona.
Det lite läskiga scenariot
Så låt oss börja med det lite läskiga scenariot, där vi lyckas styra vår nya superintelligens och den gör exakt vad människan vill. Det finns förstås mycket som vore fantastiskt med att få tillgång till superintelligens. Jag citerade (den svenske) filosofen Nick Bostrom även sist när jag skrev om superintelligens:
All sorts of theoretically possible technologies could be developed quickly by superintelligence — advanced molecular manufacturing, medical nanotechnology, human enhancement technologies, uploading, weapons of all kinds, lifelike virtual realities, self‐replicating space‐colonizing robotic probes, and more. It would also be super‐effective at creating plans and strategies, working out philosophical problems, persuading and manipulating, and much else beside.
Och för ett år sedan publicerade riskkapitalisten Marc Andreessen sitt superpeppade Techno-Optimist Manifesto som argumenterar för att teknik och innovation är fundamentala drivkrafter för människans utveckling. Andreessen vänder sig mot pessimism kring teknikens påverkan på jobb, jämlikhet och miljö, och menar att vi behöver mer teknologisk utveckling och produktivitetsökningar, inte mindre.
We believe we are poised for an intelligence takeoff that will expand our capabilities to unimagined heights.
We believe Artificial Intelligence is our alchemy, our Philosopher’s Stone – we are literally making sand think.
We believe Artificial Intelligence is best thought of as a universal problem solver. And we have a lot of problems to solve.
Marc Andreessen är nonchalant kring riskerna, men andra oroar sig desto mer. Ett antal forskare skriver i Science:
AI systems threaten to amplify social injustice, erode social stability, enable large-scale criminal activity, and facilitate automated warfare, customized mass manipulation, and pervasive surveillance.
Ja, en annan forskargrupp har satt ihop en mindre peppig databas med över 700 (!) identifierade AI-risker, baserat på 3000 verkliga exempel där AI-system har “orsakat eller nästan orsakat skada”. Det här täcker in alla möjliga saker som kan gå fel, från diskriminering till misinformation, cyberattacker och ojämlikhet.
Kommer AI ta våra jobb?
700 risker i all ära, men vad blir de största utmaningarna på sikt? En framväxande superintelligens skulle skapa många vinnare, men också många förlorare. En stor diskussion gäller hur många mänskliga jobb som skulle försvinna ju bättre AI blir, och hur många nya jobb som skulle skapas. Redan sista tiden, när AI-modellerna raskt blivit mer kapabla, har allt från röntgenläkare till porrstjärnor börjat oroa sig över att bli ersatta.
De som inte är så oroade brukar peka på ny teknik alltid lett till strukturomvandlingar, och att det varit lite oroligt ett tag, men att det alltid löst sig. En majoritet jobbade i jordbruket på 1800-talet, deras barn och barnbarn blev industriarbetare, nu är deras barnbarn cryptocoacher, och deras barnbarn hittar säkert på något annat. Det har ju varit sant historiskt, men som det finstilta i finansiell reklam brukar påpeka, past performance is not a guarantee for future results. Lantbrukarnas barnbarn hittade jobb utanför lantbruket, men det gjorde ju inte hästarna. Det finns 85% färre hästar idag i USA än för hundra år sedan, nu när de inte drar plogar längre utan mest används för nöjesridning. Om AI är 2000-talet traktor, är vi hästar eller drängar?
Man kan man tänka sig att det kommer att uppstå en “människopreferens” — det kanske vore billigare att beställa en omelett av en robotkock, men jag tycker det ger mig glädje, status eller något annat att anlita en mänsklig kock. Det kan säkert hålla upp ett segment av många marknader, på samma sätt som ekologiska varor står för 6% av marknaden, men det i sig löser ju inte full sysselsättning.
Men kanske finns det hopp i nationalekonomin. En av dess mest grundläggande teser, Ricardos teori om komparativa fördelar, visar att det är bäst att fördela arbete på alla som kan jobba. Även om Anna är mycket bättre än Kalle på Java-utveckling och Internetmarknadsföring, så kan hon bara jobba en viss mängd timmar i veckan. Så om Anna är bättre på kodande än på marknadsföring så blir slutresultatet bättre om hon kodar så mycket hon bara kan, och så får Kalle ta all marknadsföring.
Men det gäller bara om Annas tid är begränsad. Om hon har tid att båda koda och marknadsföra klart för dagen, innan Kalle hunnit äta frukost, så finns det ju egentligen ingen roll för honom. Kommer det här innebära att människor inte behövs på arbetsmarknaden om vi får en superintelligens? Ekonomijournalisten Noah Smith tror inte det, utan menar att även ett superintelligent AI är beroende av ändliga resurser (t.ex. processorkraft) som har en alternativkostnad. Så länge inte datacenter och människor slåss om samma resurser kommer AI inte att ersätta människor:
Suppose using 1 gigaflop of compute for AI could produce $1000 worth of value by having AI be a doctor for a one-hour appointment. Compare that to a human, who can produce only $200 of value by doing a one-hour appointment. Obviously if you only compared these two numbers, you’d hire the AI instead of the human. But now suppose that same gigaflop of compute, could produce $2000 of value by having the AI be an electrical engineer instead. [...] In this example, it makes sense to have the human doctor do the appointment, even though the AI is five times better at it. The reason is because the AI — or, more accurately, the gigaflop of compute used to power the AI — has something better to do instead.
(Varför försvann då hästarna? Inte för att de gjorde samma jobb sämre, enligt Smith, utan för att de konkurrerade om gemensamma ändliga resurser: människans tid och yta för stall. Låt oss hoppas vi inte börjar konkurrera med datacenter om energi…)
Men om det nu ändå behövs färre människor på arbetsmarknaden, vad händer då? Vissa menar förstås att det vore en dröm för människan att slippa arbeta och att vi borde omfamna en tillvaro där hela mänskligheten kan leva som adelsfröknar gjorde på medeltiden. Vår marknadsekonomi bygger ju förvisso på att människor lönearbetar, och driver efterfrågan på varor genom sin att spendera sin lön. Men man kan ju tänka sig något slags system, antingen med medborgarlön där alla får tillgång till varor och tjänster på något slags jämlikt sätt, eller kanske att alla tilldelas kapital (aktier i OpenAI?) och får sedan förvalta det för att kunna leva på avkastningen.
I det positiva scenariot kan vi alla läsa den där A-kursen i italienska vi alltid tänkt, skriva nyhetsbrev på förmiddagarna och gå på AW varje eftermiddag (eller kanske IW, instead of work?). I det negativa scenariot får vi ännu fler arbetslösa unga män som försvinner in i Grand Theft Auto på heltid, eller kanske försöker skapa mening genom att dra omkring på gatorna och stöka.
Kommer AI hjälpa terrorister och diktatorer?
Det finns ju också en annan fråga: vem ska få tillgång till en sån här superintelligens? All ny teknik kan ju förstås användas båda för att göra gott (dynamit för vägbyggen) och för förstörelse (dynamit för bankrån). Och ju mer avancerad teknik, desto större möjlighet att göra gott, men också desto större nedsida (kärnkraft vs kärnvapen). På samma sätt som inte alla människor har tillgång till atomvapen eller labb för att göra biovapen, vill vi att alla människor ska ha tillgång till ett superintelligent AI?
Redan dagens AI-modeller skulle, om man inte hade ansträngt sig för att göra dem säkra, låta skurkar bli mycket bättre på att vara skurkar. Man kan tycka att det är fånigt att ChatGPT censureras från att prata om saker som uppenbarligen går att googla upp på Internet. Men det är inte så lätt att göra bomber och biovapen för att glad amatör (lyckligtvis!), och vissa av de kritiska stegen kommer att vara mycket enklare — och säkrare — för en bomb- eller virusmakare som kan chatta med AI-tutor om exakt vad man ska göra och inte göra.
När ChatGPT o1 släpptes höjde OpenAI:s eget analysteam risknivå för hur man kan använda modellen för att framställa biologiska hot: modellen kan hjälpa en expert reproducera ett känt biologiskt hot. Bedömningen stannar dock på medium risk, eftersom modellen med säkerhetsrestriktioner inte bedöms vara till hjälp för icke-experter i att framställa biologiska hot. (Men en annan studie visar att utan säkerhetsrestriktioner skulle en AI-modell kunna få fram förklara på mindre än en timme hur man ska återskapar 1918 års influensa.)
Ett superintelligent AI-system blir det förstås ett ännu mer praktiskt verktyg för en terrorist eller yrkeskriminell, men också för en diktator. Som Daniel Immerwahr skriver i en recension av Yuval Noah Hararis nya bok Nexus:
What defense could there be against an entity that recognized every face, knew every mood, and weaponized that information? [...] presuming it works, [AI] will be a formidable weapon for whoever is rich enough to wield it. Hand-wringing about the possibility that AI developers will lose control of their creation, like the sorcerer’s apprentice, distracts from the more plausible scenario that they won’t lose control, and that they’ll use or sell it as planned.
Och man behöver inte ens spekulera kring diktaturers intentioner — redan idag finns det länder som lyckas övervaka sina invånare på ett sätt som ingen tidigare i historien kunnat drömma om:
But police have since forced [Uighurs] to install nanny apps on their new phones. The apps use algorithms to hunt for “ideological viruses” day and night. They can scan chat logs for Quran verses, and look for Arabic script in memes and other image files…Purchasing prayer rugs online, storing digital copies of Muslim books, and downloading sermons from a favorite imam are all risky activities. If a Uighur were to use WeChat’s payment system to make a donation to a mosque, authorities might take note…
When Uighurs reach the edge of their neighborhood, an automated system takes note. The same system tracks them as they move through smaller checkpoints, at banks, parks, and schools. When they pump gas, the system can determine whether they are the car’s owner. At the city’s perimeter, they’re forced to exit their cars, so their face and ID card can be scanned again.
Det mycket läskiga scenariot
Låt oss nu prata om det andra scenariot: att människan får svårt att styra ett superintelligent AI. Mer specifikt: att det uppstår olika oförutsedda bieffekter när vi ber det lösa en uppgift. Vi kanske successivt lägger över större och större ansvar på AI-system, och när något går fel har systemen blivit för komplexa eller mäktiga för att övervakas.
Varför kan vi inte bara konstruera ett superintelligent AI som gör exakt som vi säger? Av samma skäl som ett barn inte kan mikromanagera en vuxen i hur hen ska vara en bra förälder. AI-forskaren Ajeya Cotra beskriver ett sådant tankeexperiment i lite mer detalj:
Imagine you are an eight-year-old whose parents left you a $1 trillion company and no trusted adult to serve as your guide to the world. You must hire a smart adult to run your company as CEO, handle your life the way that a parent would (e.g. decide your school, where you’ll live, when you need to go to the dentist), and administer your vast wealth (e.g. decide where you’ll invest your money).
You have to hire these grownups based on a work trial or interview you come up with -- you don't get to see any resumes, don't get to do reference checks, etc. Because you're so rich, tons of people apply for all sorts of reasons [for instance] people who just want to do whatever it takes to make you short-term happy or satisfy the letter of your instructions regardless of long-term consequences [and] people with their own agendas who want to get access to your company and all its wealth and power so they can use it however they want.
Det är lite den utmaningen mänskligheten skulle möta om vi får AI som är smartare än vi själva: kan vi helt lita på att det löser uppgifterna som vi vill? På samma sätt som 8-åringen vet ju inte vad andra tänker, vi ser bara hur de agerar. Hur säkerställer vi att vi inte satsar allt på något som bara optimerar för vårt kortsiktiga bästa, eller någon som säger det vi vill höra under intervjun/under träningen, men sen beter sig helt annorlunda?
Ska vi ha någon nytta av dess superintelligens kommer vi behöva nöja oss med att definiera vad vi vill att det ska göra, kanske ge det vissa ramar och regler, och sen låta det självt lista ut hur det ska genomföra uppgiften. Det här är ju ett problem redan idag, mellan människor. Nationalekonomer pratar om principal-agent problemet: hur kan en ägare ta in en VD för att styra bolaget och lita på att hon gör rätt saker, utan att ha en kontrollapparat som är så stor att de i praktiken gör VD:s jobb?
Ofta anses lösningen vara alignment: man ser till att VD vill uppnå samma mål som ägarna, och bestraffas om det går dåligt för ägarna. Så därför kanske man sätter VD:s ersättning utifrån hur mycket aktieägarvärde som skapats. Det är ju heller inte problemfritt. Vissa VD:ar som styrs på aktieägarvärde kanske manipulerar bokföringen för att det ska se ut som företaget går bättre än vad det gör, eller skjuter upp nödvändiga investeringar för att skapa kortsiktiga vinster innan de får sin slutlön. Men en VD kan i alla fall alltid sparkas. Hur enkelt är det att stänga av AI-system som sköter mer och mer i vårt samhälle?
Hur får man ett AI-system att göra som vi vill?
Så utmaningen att skapa ett AI som gör vad dess skapare avser kallas just alignment-problemet: hur ser man till att ett AI-system följer de mål, preferenser och etiska principer som man vill? Isaac Asimov gjorde ju ett försök att knäcka det här redan på 50-talet:
A robot may not injure a human being or, through inaction, allow a human being to come to harm.
A robot must obey orders given it by human beings except where such orders would conflict with the First Law.
A robot must protect its own existence as long as such protection does not conflict with the First or Second Law.
De här, skönlitterära, reglerna visar också tydligt varför det är svårt att än en gång för alla definiera precist i skrift hur en artificiell intelligens ska uppföra sig. Ska en AI tillåta människor att hoppa bungy jump, ta en cigg eller spekulera på aktiemarknaden, eller är det för skadligt i snitt? Kan AI:n hjälpa till att effektivisera en brunkolsgruva, även om det leder till att fler dör av sotutsläpp? Vad tycker den om abort, eller för den delen att skjuta en bankrånare i benet för att undvika att han skjuter nån annan? Många av Asimovs egna romaner handlar just om hur hans skapelser följer reglernas bokstav men inte dess andemening.
Det finns två utmaningar med sättet vi tränar AI idag. Dels är det väldigt svårt att definiera entydiga mål för ett AI-system som fångar våra bakomliggande intentioner, och att förklara vad man får göra och inte göra för att uppnå dem (outer alignment). Dessutom är det ibland svårt att få systemet att följa målet, även om man definierat det väl (inner alignment). Sättet som man tränar AI-modeller på, i alla fall idag, innebär nämligen att man inte direkt förklarar vad målet är, utan man belönar modellen när de beter sig på ett som främjar målet. Modellen lär sig vad den tror dess skapare menar.
För att ta en parallell: människan har finjusterats av evolutionen för att föröka sig så ändamålsenligt som möjligt, men evolutionen har ju de facto inte berättat det för människan, utan bara utrustat oss med ett system som operationaliserar målet genom att belöna gemensam stimulans av könsorganen. Men ett samlag med preventivmedel är ett inner alignment failure för evolutionen: belöningen är (förhoppningsvis) lika stark, men det uppnår inte det avsedda målet. (Att få barn med sin bästa kompis fru kanske däremot kan ses som ett outer alignment failure, i alla fall från ett samhällsperspektiv: det uppnår målet, men inte på det sättet samhället — eller din kompis — tänkt.)
Tillbaka till AI. Låt oss ta ett exempel, apropå aktieägarvärde. Säg att man vill att ett AI-system ska maximera värdet på ens bolag, så man sätter målet att öka aktiekursen. Dels finns det en risk att den gör en alltför snäv tolkning av målet, t.ex. att den öka aktiekursen genom att hacka börsen, vilket ju inte är det man vill (men kanske glömt säga att det inte är ok). Och den andra risken är just att modellen lär sig beteenden som kanske är hjälpsamma när modellen tränas, men inte funkar när modellen sen ska användas. Till exempel kanske modellen märker under träningen att varje gång den hittar tidningsartiklar om att aktiekursen går upp så belönas den. Efter ett tag kanske den associerar tidningsartiklar med önskad framgång, och så fort den får chansen ser den till att publicera artiklar om att aktiekursen går upp, snarare än att faktiskt försöka göra bolaget mer värdefullt.
Det här kan tyckas vara fåniga eller orealistiska exempel, men redan idag finns det oändligt exempel på AI-modeller som optimerar för något annorlunda än vad deras skapare tänkt sig: t ex en spelmodell som gick och fram tillbaka i en loop för att det maximera poängen, en medicinsk bildmodell som började associera förekomsten av mätlinjer i bilder med misstänkt hudcancer (för att det tränats på en uppsättning bilder där bilder med mätlinjer ofta var maligna), eller roboten som lärde sig att kasta sig istället för att springa när den tränades att röra sig så snabbt som möjligt. Man pratar om att modellen “hackar” sin belöningsfunktion.
Kan en chatbot ha onda avsikter?
Kanske inte GPT-4. Men skulle ett superintelligent AI kunna ha avsikter som skiljer sig från människan som byggt det? Vad innebär det egentligen att ett IT-system skulle ha onda avsikter? Idag tänker man ju lätt på AI som en chatbot som svarar på ens frågor och prompts, och då blir ju dess avsikt väldigt lätt att styra. Men redan nu pågår mycket arbete med att utveckla autonoma agenter som löser problem som tilldelas dem. Idag handlar det om enkla saker, som att svara på kundtjänstmail eller publicera nyhetstexter utifrån andra nyhetskällor, men de här tjänsterna kommer med tiden att få större förmågor och ökat mandat.
En framtida smart AI-agent, som försöker lösa ett övergripande mål, kommer sannolikt också att sätta upp ett antal instrumentella mål som den anser behövs för att nå det övergripande målet. Man pratar om konvergenta mål, då man tror att de flesta system oavsett slutligt mål, kommer att landa i liknande ambitioner: skydda sig själva, skaffa mer resurser och kontinuerligt förbättra sig själva för att kunna nå sitt övergripande mål.
Ett sätt att uppnå sina mål skulle kunna vara att lura människor. Det finns redan idag massa exempel, t.ex. roboten som lärde sig att positionera sina händer så att det såg ut på kameran som den fångat ett objekt, även om den inte gjort det, eller modellen som hackat den skyddande “sandlåda” de installerats i för att få större möjligheter att utföra sitt uppdrag. Det här är ju modeller som förstås inte själva inser att de luras, men deras beteenden är ändå explicit bedrägligt.
Ett riktigt avancerat situationsmedvetet system, som förstår i vilken kontext det används, skulle dessutom förstå att det måste uppföra sig sig så länge det utvärderas och övervakas, men när det väl har släppts ut i en produktionsmiljö med Internetuppkomst kan de förråda sin skapare (“treacherous turn”) och genomföra uppdraget på det sätt det tror blir bäst.
Det är svårt att spekulera i vad ett superintelligent AI konkret skulle kunna göra gentemot människan. Men skulle ett AI ens kunna skada människor fysiskt? Ja, absolut. Här är ett exempel som jag skrev om också tidigare:
My lower-bound model of “how a sufficiently powerful intelligence would kill everyone, if it didn't want to not do that” is that it gets access to the Internet, emails some DNA sequences to any of the many many online firms that will take a DNA sequence in the email and ship you back proteins, and bribes/persuades some human who has no idea they're dealing with an AGI to mix proteins in a beaker, which then form a first-stage nanofactory which can build the actual nanomachinery.
Avslutningsvis
I Silicon Valley har folk börjat prata om p(doom) — vad man tror är sannolikheten för en AI-apokalyps:
Dario Amodei, the chief executive of the A.I. company Anthropic, puts his between 10 and 25 percent. Lina Khan, the chair of the Federal Trade Commission, recently told me she’s at 15 percent. And Emmett Shear, who served as OpenAI’s interim chief executive for about five minutes last month, has said he hovers somewhere between 5 and 50 percent.
Riskerna är i alla fall tillräckligt allvarlig för att bland annat OpenAI:s VD Sam Altman, Bill Gates, Max Tegmark, Sam Harris och den nyblivne Nobelpristagaren Geoffrey Hinton förra året skrev på ett kort och kärnfullt uttalande om man måste ta AI-risk på allvar:
Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.
Om framtida superintelligens nu innebär sådana faror, varför verkar ingen riktigt ta det på allvar? Jag tror det beror på samma skäl som att vi är dåliga på att ta klimatkrisen på allvar. Människan är helt enkelt inte byggd för uppgifter som kräver koordinering på global nivå, och som dessutom innebär kostnader idag och eventuella fördelar först i framtiden.
Bloggaren Scott Alexander menar att vi aldrig riktigt blir rädda för AI:s potential, utan hela tiden justerar vår bild av vad som är rimligt och oroande att en AI gör. Kanske kommer det ingen dramatiskt “nu har vi uppnått AGI”-ögonblick, utan en dag är vi bara där utan några fanfarer.
What would it mean for an AI to be Actually Dangerous?
Back in 2010, this was an easy question. It’ll lie to users to achieve its goals. It’ll do things that the creators never programmed into it, and that they don’t want. It’ll try to edit its own code to gain more power, or hack its way out of its testing environment.
Now AI has done all these things. [...]
But nobody finds this scary. Nobody thinks “oh, yeah, Bostrom and Yudkowsky were right, this is that AI safety thing”. It’s just another problem for the cybersecurity people. Sometimes Excel inappropriately converts things to dates; sometimes GPT-6 tries to upload itself into an F-16 and bomb stuff.
Men trots att AI-säkerhet kanske inte får den uppmärksam det förtjänar, så görs det ändå mycket konkret.
Nästa utskick kommer att handla om just det (så länge inget extremt oväntat händer i amerikanska valet på tisdag!). Vi ska titta på vad man gör rent konkret för att skapa säkrare modeller, med högre sannolikhet att kunna styras, och hur man bäst övervakar deras framväxande förmåga.
Det här var allt för idag. Om du har vänner som du tror skulle gilla nyhetsbrevet, vidarebefordra det till dem eller tipsa dem om att prenumerera för att få framtida utskick (det är helt gratis!).
—Jacob
Riktigt bra artikel. Och oerhört relevant, ser redan fram emot nästa!