AlphaZero

Gikan sa Wikipedia, ang gawasnong ensiklopedya
Jump to navigation Jump to search

Usa ka kompyuter program ang AlphaZero nga giugmad sa DeepMind. Naggamit ni sa susamang paagi sa AlphaGo Zero sa pagbansay dili lang sa dula nga Go, apan sa chess ug shogi sab. Niadtong Disyembre 5, 2017, mibutyag ang grupo sa DeepMind og preprint nga pagpaila sa AlphaZero. Sulod sa 24 oras mikab-ot ni og labi pa sa tawhanong barahan sa pagdula pinaagi sa pagbuntog sa pipila ka tibuok-kalibotan ka ngilngig nga kompyuter program,  ang Stockfish, ang elmo, ug ang 3-ka-adlaw kagahia nga AlphaGo Zero.[1] Gibuntog sa AlphaZero ang Stockfish human sa 4 ka oras  bansaybansay batok sa iyang kaugalingon gamit ang 5,000 unang henerasyon nga tensor processing unit (TPUs) sa pagmugna sa mga dula ug 64 ka ikaduha nga henerasyon TPUs sa pagbansay sa mga nyural networks. Wala ni mopakitabang sa mga libro sa opening ni sa kalatalad sa chess ending. Gipadagan ang binansaybansay nga algoritmo sa usa lang ka kompyuter nga may upat ka TPUs.[2][3]

Relasyon sa Zero AlphaGo[usba | usba ang wikitext]

Ang AlphaZero (AZ) mas kinatibuk-anong bersyon sa AlphaGo Zero (AGZ) nga algoritmo, ug makahimo sa pagdula sa shogi ug chess ingon man sa Go. Ang kalainan sa AZ ug AGZ naglakip sa:

  • Dunay gipang-hardkud nga baod ang AZ sa pagset sa mga hyperparameter sa pag-utinkay.
  • Padayon nga gina update ang nyural network.
  • Simetrik ang Go (dili sama sa Chess);  gipahaom ang AGZ  aron pagpahimulos niini apan wala ang AZ.
  • Puydeng tablahon ang Chess (dili sama Go); busa apil sa gipuydeng punterya sa AZ ang tabla nga duwa.

AlphaZero batok sa Stockfish ug sa elmo[usba | usba ang wikitext]

Miutinkay lang ang AlphaZero og 80,000 ka posisyon matag segundo sa chess ug 40,000 sa shogi, tandi sa 70 ka milyon alang sa Stockfish ug sa 35 milyon sa elmo. Gibawi ni sa AlphaZero ang ubos nga gidaghanon sa mga ebalwasyon pinaagi sa paggamit sa iyang mga lawom nga sa nyural network sa pinili nga pagtutok sa mga mas maypurohang baryasiyon.

Resulta[usba | usba ang wikitext]

Chess[usba | usba ang wikitext]

Sa dula sa AlphaZero sa chess batok sa Stockfish (2016 TCEC world champion),  parehong tagsa ka minuto ray ihinuktok sa matag duso sa duha ka program. Gihatagan ang Stockfish og 64 ka thread ug 1 GB kadak-ang hash, kahimtang nga gitan-aw sa DeepMind optimal alang sa Stockfish. (Apan, gisupak ni Tord Romstad sa Stockfish igo-igo lang.) Sa 100 ka dula gikan sa normal nga sugod sa posisyon, ka-25 midaog ang AlphaZero isip puti, ka-3 isip itom, ug natabla ang nabilin nga 72.[4] Sa serye sa napulog duha ka 100-dula nga tigi batok sa Stockfish nga nanukad sa 12 ka labing popular tawhanon nga opening, ka-290 midaog ang AlphaZero dili 290, ka-886 natablahan ug ka-24 napilde.

Ang mga pakisayran[usba | usba ang wikitext]

Gikan sa gawas nga tinubdan[usba | usba ang wikitext]