Ang mga laro ba ng poker ay hindi mahuhulaan?

Sasabihin ng OKBET sa iyo na habang ang poker ay naging mas sikat, gayon din ang pagdaraya. Naisip mo na ba na may isang taong makakapag-ayos ng isang laban sa tennis o lumikha ng software upang “masama” sa isang online casino? Si Michael Bowling, isang computer scientist sa Unibersidad ng Alberta, ay nagpapanatili ng isang maayos na opisina, hindi tulad ng marami sa kanyang mga kasamahan, na ang mga slot ay umaapaw sa teknolohikal na detritus.

Ang tanging kalat ni Prof. Bowling ay ang siksik, hindi masusukat na mga formula at mga graph na naka-scrawl na may mga technicolor marker sa whiteboard na kasing laki ng dingding. Kailangan niya ang detalyadong matematika dahil sinusubukan niyang magkaroon ng kahulugan sa isang napakakomplikadong mundo: ang laro ng poker. “Kahit na ang pinakamaliit na variant ng poker ay may isang bilyong bilyong puntos ng desisyon,” sabi niya sa akin. Ang Computer Poker Research Group sa unibersidad ay nabuo noong 1996, kasunod ng mga tugma ng chess ni Garry Kasparov sa Deep Blue ng IBM noong taong iyon. Ang grupo ay hindi interesado sa pagsakop sa laro per se.

Nakikita nila ito bilang isang lugar ng pagsubok para sa paggawa ng mabuting agham. Ang pagiging kumplikado ng matematika ng Poker ay karibal sa chess—o lumampas dito, depende sa variant—at ang poker ay nagdaragdag ng randomness at nakatagong impormasyon, na inilalapit ito sa “tunay na mundo” na labis na gustong maimpluwensyahan ng mga mananaliksik ng AI. Ang mga mananaliksik sa grupo ng poker ay hindi interesado sa pagsakop sa laro per se. Nakikita nila ito bilang isang lugar ng pagsubok para sa paggawa ng mabuting agham.

Ang kanilang trabaho ay hindi lamang isang akademikong ehersisyo, gayunpaman; binago nito kung paano lumapit ang mga propesyonal sa poker sa laro. Sa paghahanap ng mga paraan upang pahusayin ang kanilang mga posibilidad, sinimulan ng mga pros ang pangangaso sa talento ni Prof. Bowling. “Palagi akong nakikipag-ugnayan sa mga poker pro na nagtatanong kung may maitutulong ako sa kanila. Sasabihin ko na bawat isa sa nangungunang 10 pro sa mundo ay nagbabayad sa isang poker programmer para gumawa ng isang bagay,” sabi niya.

“Ang mga pros ay nakuha ng hangin sa kung ano ang ginagawa namin,” Richard Gibson, isang dating mag-aaral ng doktor ng Prof. Bowling, sinabi sa akin. Ang disertasyon ni Prof. Gibson ay pinamagatang “Regret Minimization in Games and the Development of Champion Multiplayer Computer Poker-Playing Agents.” Ang panghihinayang ay isang pormal na konsepto ng matematika pagdating sa paggawa ng mga desisyon sa isang hindi tiyak na kapaligiran—ito ang pagkakaiba sa pagitan ng pinakamainam na desisyon at isang aktwal na desisyon. Ang pagbabawas ng panghihinayang ay isang mahalagang sangkap sa maraming modernong poker-playing algorithm. “

Mukhang malaki ang halaga nito sa kanila,” sabi ni Prof. Gibson. “Medyo magandang pera ang binabayaran nila sa akin.” Ang mga programmer ay inuupahan upang suriin ang data ng laro ng isang manlalaro, maghanap ng “mga pagtagas” o mga pagkakamali sa kanilang paglalaro, at magsagawa ng mga pagsusuri sa teorya ng laro, na kinakalkula kung anong mga paglalaro ang pinakamainam sa alinman sa hindi mabilang na mga sitwasyon na maaaring harapin ng isang manlalaro ng poker. Kahit na ang isang off-the-shelf na poker program ay maaaring medyo mahal—ang pro na bersyon ng isang sikat na programa ay $475. Ngunit sulit ito dahil sa kung gaano nito kapansin-pansing mababago ang laro ng isang manlalaro.

Ang susi ay gawing mas hindi mahulaan ang iyong paglalaro at sa gayon ay hindi gaanong mapagsamantala. Sa laro ng mga bata ng bato, papel, gunting, ang paglalaro ng bawat galaw nang random na may isang-ikatlong pagkakataon ay ginagawang imposible para sa iyong kalaban na hulaan ang iyong pattern at matalo ka.

Sa poker, ito ay maaaring magawa gamit ang mga hanay ng kamay at magkahalong diskarte. Kung alam ng ibang mga manlalaro, halimbawa, na kapag mayroon akong “maliit na blind”—ang obligadong taya na ginawa sa simula ng kamay ng manlalaro na nakaupo sa kaliwa ng dealer—ako ay magtataas lamang ng Php100 kapag mayroon akong isang pares ng ace, iyon ay isang katotohanang maaaring pagsamantalahan. Sa halip, ipinapayo ng mga programa, dapat kong i-bundle ang aking mga kamay sa mga hanay, na magtataas ng Php100 kapag mayroon akong hindi lang mga ace kundi pati na rin, halimbawa, mga hari at reyna.

Bukod dito, hindi ko dapat palaging gawin ang parehong bagay sa parehong hanay ng mga kamay-dapat kong paghaluin ang aking diskarte at randomize. Siguro dalawang-katlo ng oras na mayroon akong isang pares ng mga alas na itinataas ko, at isang ikatlong bahagi ng oras na tumawag ako, na tumutugma sa huling taya na ginawa. Ang ilang mga manlalaro ng poker ay kilala na gumamit ng wristwatch bilang isang randomization device. Halimbawa, upang magpasya kung tataas o tatawag, tingnan mo lang ang pangalawang kamay: sa unang dalawang-katlo ng minutong itataas mo, sa huling ikatlong tatawagan mo.

Ang mga manlalaro ng poker ngayon ay tinatawag itong istilo ng paglalaro na “GTO”—game-theory na pinakamainam. Ang mga practitioner nito ay malayang mag-cocoon sa kanilang sarili sa ilalim ng mga hoodies at malalaking headphone dahil kung tatanggapin mo nang buo ang mga paniniwalang ito, maaari mong lahat ngunit huwag pansinin ang iba pang mga manlalaro sa iyong mesa. Ang kanilang mga tiyak na pagkakakilanlan at quirks ay hindi materyal. Ang mahalaga ay sa huli ay magkakamali sila, at ikaw ay kikita. At iyon ang dahilan kung bakit kinukuha ng mga manlalaro ng GTO ang mga programmer, upang i-tweak ang mga saklaw at porsyentong ito, upang mahanap at alisin ang bawat mapagsamantalang hiwa ng kanilang mga laro.

Noong tag-araw ng 2019, naupo ako kasama ang aking laptop sa isang maaraw na hapon upang maglaro ng walang limitasyong Hold ‘Em laban sa DeepStack, isang programa na tinulungan ni Prof. Bowling na bumuo. Ang computer at ako ay nagsimula sa bawat isa sa 20,000 chips, at ang mga blind, ang mga mandatoryong taya na nagsisimula sa bawat kamay, ay nagsimula sa 50 at 100 chips at tumaas bawat 10 kamay. Sa tuwing ang isang manlalaro ay nanalo ng lahat ng mga chips, siya (o ito) ay nagtala ng isang puntos at ang proseso ay nagsimulang muli.

Sa paglipas ng ilang araw, nagpakita ang DeepStack ng kakaibang istilo ng paglalaro. Ito ay mabangis na agresibo sa yugto ng “pre-flop”, kapag ang tanging mga card na makikita ng isang manlalaro ay ang dalawa sa kanyang sariling pribadong kamay. Ito ay tumaas at muling nagtaas ng maaga sa halos anumang bagay at kung minsan ay inilunsad nang maaga at napakalaking all-in na taya; halos hindi na ito nakatiklop sa maliit na bulag. Ngunit pagkatapos ng kabiguan, ito ay huminahon nang husto, na para bang kumuha ng digital na Xanax, at nilalaro ang tila sa akin ay parang passive na laro.

Ginawa ko ang aking makakaya upang samantalahin ang nakita ko bilang mga tendensya ng programa, ngunit ito ay isang makina na partikular na idinisenyo at sinanay na hindi mapagsamantalahan-upang sumunod sa mga mathematical maxim na matatagpuan sa teorya ng laro at mga elemental na geometries ng laro. Sa aking sorpresa, nakuha ko ang ilang mga panalo. Itinigil ko ang laban nang magkaroon ako ng lead na 15 hanggang 14 na laro.

Tulad ng ginawa ni Kasparov pagkatapos maglaro ng Deep Blue sa unang pagkakataon, tumitig ako sa kisame ng mahabang panahon pagkatapos ng laban, nakahinga ako ng maluwag na natalo ko ang makina. Ang pakiramdam ay hindi tumagal. Di-nagtagal pagkatapos ng aming laban, nagpadala sa akin ng email si Prof. Bowling, na nagde-debrief sa aking pagganap laban sa kanyang nilikha sa pamamagitan ng pagsusuri kung aling mga bahagi ng aking tagumpay ang nagmula sa kasanayan at kung aling mga bahagi ang lumitaw mula sa makapal na fog ng randomness na likas sa walang limitasyong poker. Sumulat siya, “Dapat mong asahan na manalo ng 42% (margin of error na 5%) ng iyong mga laban laban sa DeepStack. Habang nanalo ka ng 15 at natalo ng 14, ang iyong paglalaro (pagkatapos alisin ang swerte) ay nagpapahiwatig na dapat ay nanalo ka ng 12 laban at natalo ng 17.”