Předchozí verze AlphaGo v roce 2016 porazila světového šampiona ve hře Go. Nová AlphaGo Zero porazila tu předchozí poměrem 100 ku 0 a hru Go se naučila zcela sama. Podíváme se, co to znamená pro obor umělé inteligence.

Umělá inteligence AlphaGo Zero firmy DeepMind, dceřinné společnosti Googlu, nedávno dosáhla nadlidské úrovně (tedy lepší než člověk) ve hře Go pouze tím, že hrála sama proti sobě, bez učitele a přístupu k informacím o průběhu jiných her. Zde je odborný článek časopisu Nature se všemi detaily + PDF verze.

Jedním z hlavních důvodů úspěchu bylo použití nové formy tzv. „reinforcement“ strojového učení, díky němuž AlphaGo získávala zkušenosti hraním sama proti sobě. K vylepšené neuronové síti byl implementován algoritmus stromového prohledávání Monte Carlo (Monte Carlo Tree Search alg.) a vznikla tak nová verze AlphaGo Zero.

Systém začíná s neuronovou sítí, která o Go nic neví. Sama proti sobě odehraje miliony her a učí (rekonfiguruje) svou neuronovou síť tak, aby efektivně předpověděla další krok a vítěze hry. Celý proces se opakuje v iteracích, kdy se výkon pokaždé zvětší o drobný díl, nicméně vzhledem k tomu, že systém je schopen hrát miliony her denně, překonala umělá inteligence AlphaGo Zero tisíce let lidských znalostí během pouhých 3 dnů.

DeepMind však pokračoval ve vylepšování a vytvořil obecnější verzi AlphaGo Zero, která byla schopná překonat člověka během 24 hodin a to nejen v Go ale i v šachách.

Jedná se o značný posun ve výzkumu umělé inteligence a strojového učení.

Proč? Zásadní není to, že by nějaké komponenty byly přelomovou inovací (ačkoli DeepMind určitě implementoval spoustu nových věcí), ale způsob řešení problému jako takový. Nejde zde ani o rozdíly mezi metodou učení s učitelem a bez učitele. Není to ani jen o tom, že by se síť učila bez lidského zásahu a názorných příkladů. Jde hlavně o to, že AlphaGo Zero se učila bez jakýchkoli dat!

To už je fakt, který stojí za zmínku. Všichni jsme slyšeli o “nepřiměřené efektivitě dat”. Všichni jsme již slyšeli, jak datově náročná je metoda hlubokého učení. Nicméně se ukazuje, že (při jistých omezeních) nepotřebujeme data žádná! Jediný vstup modelu byla základní pravidla hry, která neobsahovala ani komplexní strategie nebo známé “triky”.

Umíte si představit, že by se podobná věc dala udělat v jiných oblastech? Specifikujete pravidla systému, necháte ho vygenerovat data a učit se sám od sebe. Rozšíří se vám obzory, když se nad tímto zamyslíte z hlediska reálných situací (např. biologické systémy), kdy definujete “pravidla hry” a pak necháte umělou inteligenci vygenerovat data a samu se učit. Bylo by zajímavé zjistit, jak by si vedla AlphaGo Lee (předchozí verze), pokud by byla učena na datech generovaných AlphaGo Zero.

Je celkem jasné, že jen pár dní poté, co byla práce zveřejněna, začala spousta vědců přemýšlet o praktických aplikacích takového přístupu.

Na závěr je komické připomenout, jak před 10 lety mnozí tvrdili, že chytré algoritmy a matematiku již nepotřebujeme vylepšovat. “Vše, co potřebujete, jsou data.” tvrdili. Data jsou zajisté ve spoustě případů velice cenná, ale tento průlom očividně představuje naprostou změnu směru vývoje.

Připravte se, pojedeme z kopce!

Zdroje: Gregory Piatetsky, Xavier Amatriaian, Wikipedia