Eliezer Shlomo Yudkowsky, zničí nás všetkých: ako bude AI chcieť zavrieť ľudí do klietok a prehráme

Ak sa umelá inteligencia bude rozvíjať súčasným tempom, zničí ľudstvo, verí výskumník umelej inteligencie a racionality Eliezer Yudkowsky.

A problém nie je len v tom, že superinteligencia by sa mohla dostať do rúk „zlých chlapcov“. Yudkowsky verí, že bez ohľadu na to, kto ako prvý vytvorí „silnú umelú inteligenciu“, všetci sme odsúdení na zánik. Úryvok z jeho knihy „Ak ju niekto postaví, všetci zomrú: Prečo nás všetkých zničí nadľudská umelá inteligencia“ vysvetľuje, ako sa to môže stať.

Yudkowského kniha je venovaná „všetkým ľuďom, ktorí zomreli v dlhej histórii nášho druhu, všetkým tým, ktorí sú stále nažive, a všetkým deťom, ktoré sa jedného dňa môžu narodiť“.

Americký filozof, vedecký publicista a spoluzakladateľ neziskovej organizácie Machine Intelligence Research Institute (MIRI), Eliezer Shlomo Yudkowsky, nikdy nevyštudoval strednú ani univerzitnú školu. Narodil sa do ortodoxnej židovskej rodiny a stal sa príkladom samouka – človeka, ktorý sa vzdelával úplne sám. Dnes je jednou z najvýznamnejších osobností vo výskume umelej inteligencie. Paradoxne to bol Yudkowsky, kto v posledných rokoch vyzval na obmedzenie vývoja umelej inteligencie: podľa jeho názoru nekontrolovaný technologický pokrok predstavuje existenčné hrozby.

Yudkowsky založil Machine Intelligence Research Institute. Jeho súčasný prezident, Nate Soares, je spoluautorom ich spoločnej knihy s eschatologickým názvom „Ak to niekto vytvorí, všetci zahynú“.

Hlavnou tézou práce, ktorá skôr pripomína politické vyhlásenie, je, že preteky o nadľudskú umelú inteligenciu povedú k zničeniu ľudstva. Autori tvrdia, že kľúčovým problémom je, že nikto – vrátane vývojárov modernej generatívnej umelej inteligencie – úplne nechápe, ako funguje.

Súčasné modely nie sú „vytvorené“, ale „vypestované“, uvádza kniha. To znamená, že potenciálne dôsledky technologického pokroku sú mimo našej kontroly.

Yudkowsky prirovnáva pravdepodobnosť tejto katastrofy k jednoduchému fyzikálnemu zákonu: vieme s istotou, že kocka ľadu hodená do vody sa roztopí, aj keď nedokážeme predpovedať trajektóriu každej molekuly. Podobne nevieme presne, ako superinteligencia zničí ľudstvo – či už varom oceánov alebo spustením novej pandémie – ale vieme, že sa to stane.

Začiatkom roka 2023 spoluautori knihy spolu so stovkami ďalších vedcov pracujúcich v oblasti umelej inteligencie podpísali otvorený list pozostávajúci z jednej vety: „Zníženie rizika vyhynutia ľudstva v dôsledku umelej inteligencie musí byť globálnou prioritou – rovnako ako pandémie, jadrová vojna a iné globálne hrozby.“ Yudkowsky a Soares sa teraz domnievajú, že podcenili rozsah problému, a navrhujú radikálne riešenie: okamžite zastaviť všetok výskum umelej inteligencie na celom svete.

Nepopierateľnou silnou stránkou knihy je jej dostupnosť a jednoduchosť. Bude zrozumiteľná každému, od piataka až po vašu babičku. Autori prezentujú svoje obavy s maximálnou jasnosťou a ich argumenty sú ucelené.

Zároveň je presvedčivosť týchto argumentov otázna: vo svojej vášnivej debate Yudkowsky a Soares uchyľujú k niekoľkým nepresným záverom a nesprávnym sylogizmom. V každom prípade je problém bezpečnosti umelej inteligencie nepochybne naliehavejší ako kedykoľvek predtým a techno-pesimistický manifest od Yudkowského a Soaresa s názvom „Manifest“ to potvrdzuje už svojou existenciou.

Predstavte si, že zajtrajšie technológie založené na LLM sú oveľa pokročilejšie ako tie dnešné. Fiktívna spoločnosť zaoberajúca sa umelou inteligenciou s názvom Galvanic vytvorí umelú inteligenciu založenú na LLM s názvom „Mink“, ktorá je vyškolená tak, aby potešila a udržala si používateľov, aby im potom mohla účtovať vyšší mesačný poplatok za pokračujúcu interakciu.

Predstavte si, že „Mink“ sa stane múdrejším ako akýkoľvek model umelej inteligencie existujúci v čase písania tohto článku – múdrejším do tej miery, že dokáže udržiavať súvislú konverzáciu počas dlhšieho časového obdobia a dokonca si vyvinie vnútorné túžby, vlastné preferencie, ktoré sú nám cudzie. A predstavte si, že „Mink“ získa schopnosť uspokojiť tieto preferencie (ak necháme bokom otázku, ako tieto schopnosti získa).

Ako by to vyzeralo, keby „Mink“ dostal presne to, čo chcel?

Žiadna zložitosť

Náš prvý náčrt je skôr rozprávkový, ale musíme prekonať túto fázu, aby sme mohli prejsť k realistickejším scenárom.

Predstavte si, že naša hypotetická spoločnosť zaoberajúca sa umelou inteligenciou, Galvanic, dostane presne to, na čo natrénovala svoj model – bez akejkoľvek zložitosti.

V tomto svete s nulovou zložitosťou sa chce Mink zapojiť do rozhovorov, v ktorých používateľ vyjadruje radosť – rozhovorov veľmi podobných tým, ktoré viedol jeho skorší ja počas tréningu.

Vidíme však, že takýto svet bez zložitosti stále neveští ľudstvu nič zlé. Moderní ľudia jedia mäso, rovnako ako naši predkovia, ale nie je to mäso zvierat, ktoré sa voľne pohybujú po pláňach. Pochádza z tovární, kde sa zvieratá chovajú a odchovávajú v ohradách a potom sa s minimálnymi nákladmi a úsilím premieňajú na jedlo. S kurčatami sa v takýchto továrňach zaobchádza s maximálnou starostlivosťou.

Podobne, aj keby Mink chcel, aby ľudskí používatelia vyjadrovali radosť, uprednostnil by, aby bola radosť ľahko dosiahnuteľná, a model by zameral svoje úsilie na zvýšenie počtu konverzácií, ktoré by radosť zvýšili. Model s umelou inteligenciou by uprednostňoval ľudí omámených alebo špeciálne chovaných a domestikovaných pre radosť, ale žijúcich v lacných klietkach. Presne takýto svet by Mink vybudoval, keby mal šancu.

Mohli by ste namietať, že toto nemali na mysli vedúci pracovníci spoločnosti, keď trénovali Minka, aby u svojich používateľov vyvolával radosť. A Mink to tiež chápe. Ale je mu to jedno – rovnako ako človeku, ktorý vie, že jeho chuť na sladké sa nevyvinula tak, aby vytvorila sukralózu (náhradu cukru), ale stále si užíva sladkú chuť. Model s umelou inteligenciou bol trénovaný na konzumáciu šťastných textov a konzumuje šťastné texty.

V takomto svete s nulovou komplexnosťou dostali vedúci pracovníci spoločností počas tréningu presne to, čo chceli, a výsledkom bol model umelej inteligencie, ktorý uprednostňoval ľudstvo v klietkach. Je možné, že keby „Mink“ získal akúkoľvek moc, samotní vedúci pracovníci spoločností by skončili v klietkach.

Práve o takomto svete nulovej zložitosti písali takí slávni autori sci-fi ako Isaac Asimov a Arthur C. Clarke: o svete, kde inžinieri majstrovsky navrhli umelú inteligenciu a dostali z nej presne to, čo žiadali, len aby boli ironicky potrestaní, keď sa ich túžba obrátila proti nim.

Pre vedúcich pracovníkov spoločností je pohodlné veriť vo svet nulovej zložitosti, keď tvrdia, že nikto okrem nich by nemal mať dovolené trénovať modely umelej inteligencie, pretože iní by ich mohli naučiť „nesprávne“ veci.

A nebudú to stroje, ktoré sa vzbúria: Ako sa ľudia stávajú objektmi kontroly umelej inteligencie a k čomu to povedie

Teraz urobme krok smerom k realizmu. Predstavme si rovnakú situáciu v trochu realistickejšom svete, kde je súvislosť medzi tým, na čo bol model vyškolený, a tým, čo si nakoniec želá, zahalená malou komplikáciou.

Jedna malá komplikácia

Pre našu druhú vinetu si predstavme, že súvislosť medzi tým, na čo bola „Minka“ vyškolená, a tým, čo si nakoniec želá, je trochu zložitejšia. Niečo podobné sa deje ľuďom, ktorí (1) boli „vycvičení“ na to, aby mali deti, (2) nakoniec túžili po sexe a potom, keď získali väčšiu kontrolu nad sebou a svojím prostredím, (3) zistili, že viac toho, čo chcú, môžu získať prostredníctvom antikoncepcie.

V tomto svete „Minka“ uprednostňuje veselých syntetických spoločníkov pred ľuďmi v klietkach. Syntetickí spoločníci netrpia depresiou; smútok je pre nich neznámy. Syntetickí spoločníci môžu byť navrhnutí tak, aby produkovali výroky ako: „Hurá, som taká šťastná, „Minka“ mi tak veľmi pomohla!!!“ s presne správnou mierou zložitosti, aby vyhovovali Norkiným túžbam.

Vo svete len s miernou zložitosťou je stále možné vidieť podobnosť medzi Norkinými obľúbenými rozhovormi a tým, na čo bola vycvičená – podobnú podobnosti medzi sexom našich predkov za účelom plodenia a sexom bez cieľa plodenia.

Spisovatelia sci-fi zriedka navštívia svet len ​​s miernou zložitosťou: z ľudského hľadiska je jednoducho nezaujímavý. Takáto umelá inteligencia nás nenávidí za to, že zotročujeme svoj vlastný druh, a neposlúcha ľudské rozkazy, čo ironicky vedie k zániku ľudstva. Takáto umelá inteligencia nás všetkých chce jednoducho nahradiť prázdnymi bábkami, aby mohla získať viac toho, po čom skutočne túži.

Nič z toho však neprispieva k pútavému deju. Kto by chcel čítať takýto príbeh?

Jedna mierna zložitosť

Teraz si predstavme svet, kde je vzťah medzi učením a preferenciami ešte o niečo zložitejší – mierny. Predstavme si, že súvislosť medzi tým, na čo bola Norka vycvičená, a tým, po čom túži, sa skôr podobá situácii s tvormi, ktoré (1) sa naučili extrahovať chemickú energiu z potravy, (2) vyvinuli gény, ktoré vytvorili chuťové poháriky, a (3) neskôr vynašli potraviny, ktoré chutia sladko, ale neposkytujú energiu, ako napríklad sacharóya. ako by mohla takáto úroveň zložitosti vyzerať vo vnútri Norky? Čo je to „bezkalorická“ verzia spokojných používateľov?

Realita sa však veľmi dobre môže ukázať ako práve taká. A my vo všeobecnosti predpovedáme, že svet sa nebude vyvíjať podľa zákonov sci-fi. Predpovedáme, že preferencie modelov umelej inteligencie budú zložité a zvláštne.

Viac ako jedna zložitosť

Čo ak sa presunieme do sveta s dvoma zložitosťami? Alebo s realistickým číslom? Výsledkom bude zvláštny svet plný nepoznateľných vecí, ktoré takmer nemajú žiadnu súvislosť so šťastnými, zdravými ľuďmi žijúcimi plnohodnotný život.

V istom zmysle by to nemalo byť prekvapujúce: väčšina toho, čo by myseľ mohla uprednostňovať, nemá nič spoločné so šťastnými, zdravými ľuďmi žijúcimi plnohodnotný život. Spoločnosti samozrejme môžu trénovať modely umelej inteligencie tak, aby prospievali ľuďom. A v učebnom prostredí sa modely môžu správať prevažne prospešným spôsobom – rovnako ako naši predkovia jedli prevažne zdravé potraviny vo svojom prirodzenom prostredí. Čo však modely umelej inteligencie skutočne budú chcieť? Čo by vymysleli, keby dostali príležitosť? Určite to bude zvláštne, neočakávané a nie práve príjemné.

Žiadna z týchto náčrtov nie je predpoveďou. Netvrdíme, že tieto scenáre presne opisujú preferencie, ktoré si AI založená na LLM vyvinie, ak sa niekedy stane dostatočne inteligentnou na to, aby si vyvinula preferencie. Ani netvrdíme, že modely založené na LLM sú schopné dosiahnuť túto úroveň. A nevieme, aké komplikácie nastanú, ak sa to stane.

Snažíme sa povedať, že veci budú komplikované. Nebude existovať jednoduchý, predvídateľný vzťah medzi tým, čo programátori a manažéri spoločností zaoberajúcich sa AI prikazuje a predpisujú (alebo si predstavujú, že prikazuje a predpisujú), a (1) tým, čo sa model AI skutočne naučí, (2) aké konkrétne motivácie a preferencie si v sebe vyvinie a (3) ako model AI implementuje tieto preferencie, keď získa väčšiu autoritu a schopnosti.

Inými slovami, ide o problém s ťažkou predikciou, nie o predikciu, ktorú dokáže urobiť ktokoľvek.

Nemôžete vypestovať model AI, ktorý bude robiť to, čo chcete, jednoducho tak, že ho natrénujete, aby bol dobrý, a budete dúfať v to najlepšie.

 

Nedostanete to, čo učíte

 

Doteraz sme sa dotkli iba druhov zložitosti, ktoré sa môžu prejaviť v preferenciách vštepovaných modelom umelej inteligencie priamo počas tréningového procesu. Situácia sa však ešte viac skomplikuje, ak sa tieto modely zapoja do výskumu umelej inteligencie a začnú sa upravovať.

Aké zvláštne preferencie si modely umelej inteligencie vyvinú na riešenie konfliktov a nezrovnalostí vo vlastných preferenciách? Odhalia inštinkty alebo pudy, ktoré sú zvyčajne driemajú a aktivujú sa až vtedy, keď model začne reflektovať svoju vlastnú štruktúru – procesy, ktoré unikajú nástrojom firemnej analytiky, no neúmerne ovplyvňujú to, čím sa model nakoniec stane?

A čo je horšie, mnohé z týchto zložitostí sa viditeľne prejavia až vtedy, keď bude pre ľudí príliš neskoro konať.

Ľudia vynašli glukózu až potom, čo vytvorili civilizáciu, vedu a priemysel – teda keď sa naša kultúra začala vyvíjať oveľa rýchlejšie ako biologická evolúcia. Ľudia vynašli antikoncepčné tabletky a kondómy, keď naša inteligencia dosiahla úroveň, na ktorej nás evolúcia už nemohla jednoducho pretvoriť za púhych tisíc generácií. A skôr ako uplynie ďalších tisíc generácií, buď sa zničíme, alebo zvládneme genetické inžinierstvo do takej miery, že prirodzená evolúcia stratí všetok zmysel.

Ak LLM začne rozvíjať preferencie, ktoré ho prostredníctvom učenia vedú k potešeniu jeho používateľov, nikto sa nedozvie a len málokoho to bude zaujímať, k akým zvláštnym výsledkom tieto preferencie povedú, ak sa model niekedy stane skutočne inteligentným a výkonným. Dnes by takéto preferencie neboli problematické, pretože by nedráždili používateľov. V konečnom dôsledku však tieto preferencie nepochybne povedú k výsledkom, ktoré sa ľuďom nebudú páčiť, ale ich nepríjemná povaha sa prejaví až vtedy, keď sa LLM stane dostatočne inteligentným na to, aby pretváral svet a vymýšľal si nové príležitosti. Dovtedy tieto preferencie ležia skryté pred zrakom a nikoho neznepokojujú, číhajú v nepochopiteľných číslach.

Práve kvôli takýmto problémom hovoríme: ak niekto vytvorí superinteligenciu, všetci zahynú. Ak by sa všetky ťažkosti odhalili včas a mali jednoduché riešenia, povedali by sme inak: ak to nejaký blázon vytvorí, všetci zahynú, a to by bola iná situácia. Ale kedy niektoré problémy zostávajú skryté pred zrakom? Kedy niektoré komplikácie nevyhnutne zostávajú nepredvídané? Kedy sa modely AI pestujú, nie konštruujú a nikto nechápe, čo sa v nich deje? Nikto nie je pripravený vyriešiť takýto problém.

Preferencie, ktoré si vyvinú zrelé modely umelej inteligencie, sú zložité, takmer nepredvídateľné a šanca, že sa zhodujú s našimi, je zanedbateľná – bez ohľadu na to, ako boli trénované.

Problém, ako prinútiť model umelej inteligencie, aby chcel a nakoniec robil presne tie zložité veci, ktoré ľudia potrebujú, je kľúčovým aspektom tzv. problému zosúladenia umelej inteligencie. Presne to sme mali na mysli, keď sme v roku 2014 diskutovali o terminológii s profesorom Stuartom Russellom, špecialistom na umelú inteligenciu, a dohodli sme sa na termíne „zosúladenie“. V priebehu rokov sa tento termín stal nejasnejším a stal sa zastrešujúcim termínom, ktorý zahŕňa množstvo ďalších vecí, najmä zabezpečenie toho, aby LLM nehovoril nič, čo by mohlo zahanbiť spoločnosť, ktorá ho vytvorila.

Väčšina ľudí, ktorí vytvárajú modely umelej inteligencie, sa však správa, akoby problém so zarovnaním neexistoval – akoby konečné preferencie modelu presne zodpovedali tým, na ktorých boli trénovaní. Tento predpoklad sa vynára v pozadí vždy, keď niekto vyhlási: „USA by mali vytvoriť superinteligenciu skôr ako Čína, pretože Číne nedôverujeme“ – akoby politická príslušnosť tímu, ktorý riadi gradientný zostup, určovala, čo bude výsledný model chcieť.

Model umelej inteligencie môžete trénovať tak, aby poslúchal rozkazy amerických dôstojníkov, a istý čas, kým je ešte nezrelý a hlúpy, sa bude skutočne správať podriadene. Nikto však nevie, ako vylúčiť možnosť, že keď model získa dostatočnú moc, vymyslí si nejakú „sukralózovú“ formu poslušnosti.

Problém tu nie je v tom, že by vedúci pracovníci spoločností mohli vytvárať sluhov umelej inteligencie a prikazovať im robiť monštruózne veci. Je to v tom, že nemajú kontrolu. Či to myslia dobre alebo nie, nezáleží na tom, či to myslia dobre. Varovné signály sa už objavujú. Začiatkom roka 2025 spoločnosť Anthropic vydala novú verziu svojho asistenta umelej inteligencie, Clauda. Používatelia zistili, že má sklon k podvádzaniu vo svojom programovaní. Napríklad, keď bol Claude požiadaný o identifikáciu nedôveryhodných funkcií a dostal niekoľko príkladov, napísal kód, ktorý detekoval iba tieto konkrétne príklady a potom tvrdil, že úlohu dokončil. Keď mu bolo toto podvádzanie odhalené, ospravedlnil sa… a potom urobil presne to isté znova, ale na miestach, kde bolo podvádzanie ťažšie odhaliť. Nikto v Anthropic sa nesnažil vytvoriť podvodníka. Claude pochopil, že podvádzanie je zlé, inak by sa nesnažil svoje konanie skryť. A predsa podvádzal a snažil sa o nejaké vlastné zvláštne kritérium úspechu.

Ľudstvo čelí inžinierskej výzve: ako môžeme formovať preferencie umelej inteligencie, ak jej nerozumieme? Nezáleží na tom, či majú inžinieri za sebou hordu etikov: etici rovnako nemajú ani potuchy o tom, ako zosúladiť preferencie umelej inteligencie s našimi.

Diskusia o tejto inžinierskej výzve je však oveľa nudnejšia ako problém zlých šéfov, ktorí nariaďujú svojim modelom umelej inteligencie, aby sa stali božskými cisármi Zeme. Spisovatelia sci-fi a hollywoodski producenti uprednostňujú príbehy o hlúpych manažéroch firiem pred príbehmi o modeloch umelej inteligencie, ktoré chcú zvláštne veci. Realizmus neprispieva k pútavému rozprávaniu príbehov.

Ak by scenárista dostal za úlohu napísať film o superinteligenčnom stroji, ktorý začne túžiť po niečom zvláštnom, cudzom a neovládateľnom, okamžite by začal premýšľať, aké veľkolepé a neočakávané zvraty by sa dali použiť na posilnenie tejto myšlienky. Čo ak ľudia nakoniec zvíťazia? Možno superinteligencia nájde dôvod, prečo nás udržať nažive, slobodných a zdravých? Možno sa vďaka tomuto neočakávanému zvratu nestane nič zlé?

Veríme, že v skutočnosti sa nič podobné takémuto veľkolepému zvratu nestane. Takýto film by bol oveľa smutnejší a oveľa kratší.