ZLOMOVÝ ZÁPAS, KTERÝ PŘED 10 LETY ODSTARTOVAL REVOLUCI AI: PŘÍBĚH ALPHAGO

V březnu 2016 se v hotelovém apartmá v jihokorejském Soulu odehrál zápas, který navždy změnil běh dějin umělé inteligence. Dva hráči se utkali ve starověké hře Go, hře nepředstavitelné složitosti, o které se dlouho myslelo, že je pro stroj nemožné ji zvládnout. Na jedné straně stál Lee Sedol, legendární osmnáctinásobný mistr světa v Go. Na druhé straně AlphaGo, systém umělé inteligence založený na neuronových sítích, postavený na výkonné technice zvané posilující učení. Jeho vítězství 4:1 nad lidským šampionem nebylo jen triumfem algoritmu, ale milníkem, který o deset let později vnímáme jako skutečný počátek moderní revoluce AI.

Klíčové momenty, které formovaly revoluci AI

Proč právě Go? Nepředstavitelná výzva pro AI

Hra Go, s jejími jednoduchými pravidly, ale vedoucí k ohromující komplexnosti taktik a strategií, byla považována za dokonalou výzvu pro umělou inteligenci. Poté, co byl šach „vyřešen“ vítězstvím Deep Blue nad Garrym Kasparovem, se Go stalo otevřenou hranicí. „Go je mnohem složitější než šachy, o mnoho řádů,“ vysvětluje Thore Graepel, významný výzkumník z Google DeepMind a klíčový architekt projektu AlphaGo. „Nikdo neočekával, že bude vyřešeno v dohledné době.“

Pushmeet Kohli, který vede vědeckou práci v Google DeepMind, doplňuje: „Bylo to považováno za extrémně komplexní problém nejen kvůli šířce prohledávacího prostoru, tedy počtu možných tahů, ale také kvůli hloubce – jak dlouho musíte uvažovat a jak dlouhé jsou hry. V šachu uvažujete o 60 až 70 tazích, v Go je to mnohem, mnohem déle.“

První dny AlphaGo: Ponížení Thoreho Graepela

Thore Graepel, sám zkušený hráč Go, si pamatuje svůj první den v DeepMind: „Představte si, že přijdu první den do práce v DeepMind. Znám pár lidí, včetně Davida Silvera, a ten se mě zeptá: ‚Thore, ty jsi hráč Go, že? Nemohl bys nám udělat laskavost a otestovat naši dětskou verzi něčeho, co se tehdy ještě ani nejmenovalo AlphaGo?‘“ Thore se s nervozitou a vzrušením postavil proti rané verzi systému, která byla trénována na několika stovkách tisíc lidských profesionálních her. „Hráli jsme konzervativně, snažil jsem se nedělat chyby. Ale samozřejmě, přesně v tom byla ta verze programu dobrá. Byla trénována na lidských profesionálních hrách, takže přesně věděla, co dělat proti konvenční hře.“ Thore prohrál o malý rozdíl a získal tak „korunu prvního člověka, který oficiálně prohrál s AlphaGo“. Zážitek byl „pokorný“, ale zároveň skvělý způsob, jak se představit týmu.

Jak AlphaGo fungovalo: Rychlé a pomalé myšlení

„Krása AlphaGo spočívala v prvku rychlého a pomalého myšlení,“ říká Pushmeet Kohli. AlphaGo bylo dokonalou kombinací těchto procesů, které se spojily, aby zvládly extrémně velký prohledávací prostor. Thore Graepel vysvětluje paralelu s lidským mozkem: „Velmi dobře to odpovídá tomu, jak hrají lidé. My také dokážeme rychle posoudit pozici a vidět slibné tahy. Nikdy se nedíváme na všechny možné tahy. Okamžitě se zaměřujeme na určité, možná i esteticky příjemné tahy, které se zdají být ty správné, vedené naší intuicí.“

AlphaGo využívalo dvě hlavní neuronové sítě: síť hodnot (value network), která posuzovala, jak dobrá je daná pozice pro jednoho z hráčů, a síť politik (policy network), která navrhovala nejpravděpodobnější tahy profesionálního hráče. „Hluboké učení bylo v té době zralé na to, aby se vypořádalo s tímto problémem, a dalo nám příležitost implementovat rychlé myšlení,“ dodává Thore. Pomalé myšlení pak představovalo prohledávání herního stromu, techniku známou z „dobré staromódní AI“.

Cesta k Soulu: Sázka a evropský šampion

Před historickým zápasem s Lee Sedolem DeepMind testoval AlphaGo proti profesionálnímu hráči Fan Huimu, tehdejšímu evropskému šampionovi. Thore Graepel si nebyl jistý, zda AlphaGo dokáže porazit profesionála, a tak se vsadil s Davidem Silverem: kdo prohraje, bude muset přijít do práce oblečený jako starověký japonský mistr Go. „Byl jsem to já, kdo se tak ukázal, protože to bylo ve skutečnosti 10:0,“ vzpomíná Thore. Tento výsledek posílil důvěru týmu, že jsou připraveni na ještě těžší soupeře.

Historický zápas s Lee Sedolem: Napětí a překvapení

Lee Sedol byl v té době pravděpodobně nejlepším hráčem na světě, přirovnávaný k Rogeru Federerovi. Pro DeepMind bylo obrovskou ctí, že přijal jejich výzvu. Napětí bylo obrovské, zejména proto, že Lee Sedol byl přesvědčen o svém vítězství, zakládajíc své hodnocení na dřívějších hrách AlphaGo. Co však nevěděl, bylo, že AlphaGo se neustále zlepšovalo díky tréninku a algoritmickým vylepšením. V Jižní Koreji, kde jsou hráči Go celebritami, byla atmosféra elektrizující. „Představte si typické počítačové geeky, kteří se najednou ocitnou v centru světové pozornosti kvůli tomuto zápasu,“ říká Thore.

Nervozita byla hmatatelná. Tým pracoval do poslední minuty, aby zajistil stabilitu systému. „Chtěli jsme mít polštář. Bylo by hezké být o něco lepší, abychom měli jistotu, protože toto je světová scéna. Pokud prohrajete, je to rána pro reputaci.“

Tah 37: Když AI přepsala pravidla Go

Během druhé hry AlphaGo provedlo tah, který šokoval celý svět Go. „Není jediný lidský hráč, který by si vybral tah 37,“ prohlásili profesionální komentátoři. AlphaGo samo odhadlo, že pravděpodobnost, že by tento tah zahrál člověk, je 1 ku 10 000.

Thore Graepel seděl v anglicky mluvící komentátorské místnosti, když se to stalo. „Michael Redmond, náš americký komentátor, měl na zdi velkou demo desku a tam pokládal všechny kameny. Vzal kámen odpovídající tahu 37 a pak ustoupil a řekl: ‚Ach, to musí být špatně.‘ Vzal ho zpět, pak se znovu podíval na obrazovku a řekl: ‚Ne, ne, to je skutečně to, co AlphaGo zahrálo.‘“

Tah 37 byl „ramenní tah“ na páté linii, něco, čemu se lidští hráči Go obvykle vyhýbají. AlphaGo tímto tahem naznačilo, že je stále výhodné obětovat více území protistraně, pokud se tím získá vliv směrem ke středu desky. „Nejenže to byl velmi speciální tah, ale svým způsobem představoval nový způsob, jak vážit tyto dva faktory – okamžité území versus vliv směrem ke středu desky – proti sobě,“ vysvětluje Thore. Pushmeet Kohli zdůrazňuje: „Jsou okamžiky, kdy vidíte skutečný potenciál systému AI rozšiřujícího lidské znalosti, kdy lidé po mnoho let studovali hru Go a pak přijde tento konkrétní bod, kdy jsou tyto znalosti rozšířeny.“ Zpočátku byl tah považován za halucinaci nebo chybu, ale později se ukázalo, že byl klíčový pro druhé vítězství AlphaGo.

Tah 78: Lidský triumf uprostřed prohry

Poté, co AlphaGo vyhrálo tři hry v řadě, Lee Sedol provedl tah, který systém zmátl a donutil ho rezignovat. „Co tady Lee Sedol dělá? Právě spálil sedm nebo osm minut jen na tento tah,“ zaznělo v komentářích. „Nevím, co se AlphaGo snaží dělat.“

Tah 78 byl neobvyklý klínový tah, který AlphaGo nedokázalo správně vyhodnotit. „Od té doby jsme pozorovali, že AlphaGo už nemělo dobrý přehled o pozici. Viděli jsme, že tahy, které dělalo, pro nás nedávaly smysl – špatným způsobem,“ říká Thore. Ačkoliv AlphaGo již vyhrálo zápas, tato čtvrtá hra byla stále nesmírně důležitá. „Kdyby Lee Sedol vyhrál poslední dvě, co byste usoudili? Že na to přišel, že našel zranitelnost. Byl by to lidský triumf.“

Navzdory zklamání týmu cítili hluboký obdiv k Lee Sedolovi. „Musíte si představit tohoto mistra, který zasvětil svůj život hraní této hry, v této bitvě, která pro něj musela být tak těžká. A pak ve čtvrté hře najde cestu.“ Lee Sedol to na tiskové konferenci vyjádřil slovy, že byl „tak šťastný a hrdý, že možná naposledy jménem lidstva dokázal najít způsob, jak překonat stroj.“ Někteří tento tah nazvali „božským tahem“.

Dědictví AlphaGo: Od AlphaZero k moderní AI

Konečné skóre bylo 4:1 pro AlphaGo. Reakce komunity Go byla smíšená – někteří byli ohromeni, jiní cítili konec jedné éry. Celkově však došlo k nárůstu zájmu o hru Go a komunita začala od AlphaGo čerpat inspiraci. Dnes existuje mnoho programů fungujících na stejném principu, které se používají k výuce a analýze her.

V AI světě byl zápas AlphaGo s Lee Sedolem klíčovým zlomem. „Mnoho lidí, zejména v komunitě strojového učení, začalo vidět důkazy, že tyto systémy se mohou samy učit a jít nad rámec lidských znalostí,“ říká Pushmeet Kohli. „A to je velmi důležitý bod, protože v strojovém učení trénujete s daty, která byla shromážděna, a vaše přirozené očekávání je, že model bude pouze konzistentní s touto distribucí. Ukázat, že můžete jít nad rámec této distribuce a že tento vhled pak může být využit světem, je úžasný vhled, který z celé této zkušenosti vyplývá.“

Ještě fascinující byl vývoj AlphaZero, systému, který byl trénován bez jakýchkoli lidských dat, pouze se znalostí pravidel hry. „Z vědeckého hlediska by se dalo říci, že to je ještě větší krok než původní AlphaGo,“ tvrdí Thore Graepel. AlphaZero začalo hrát zcela náhodně, ale sbíráním zkušeností se postupně zlepšovalo. Nejenže znovu objevilo lidské strategie, ale také našlo nové, inovativní přístupy. „Nyní samozřejmě není omezeno lidskými znalostmi a to, co objevilo, bylo úžasné.“ AlphaZero bylo navíc mnohem obecnější – dokázalo hrát šachy, Go i shogi, a mohlo by hrát jakoukoli jinou deskovou hru, pokud by bylo takto trénováno. Tento princip – učení se od nuly – se stal základem pro dnešní průlomy v AI, od velkých jazykových modelů po řešení vědeckých výzev, jako je skládání proteinů.

Deset let po onom zlomovém zápase v Soulu je jasné, že AlphaGo nebylo jen o hře Go. Bylo to o posunutí hranic toho, co stroje dokážou, a o odhalení potenciálu umělé inteligence objevovat nové znalosti a řešit ty nejkomplexnější problémy lidstva. Příběh AlphaGo je připomínkou, že největší objevy často začínají u odvážných experimentů a odvahy jít tam, kam se nikdo jiný neodvážil.

O Tunehill

Tunehill přináší myšlenky a rozhovory, které hýbou světem. Srozumitelně a ve tvém jazyce. Články a podcasty o technologiích, práci a budoucnosti.