Come funziona Libratus, l'Intelligenza Artificiale che sa bluffare a poker

È arrivata una qualche distopia cyberpunk e non ce ne siamo resi conto? Libratus è un’intelligenza artificiale che ha imparato addirittura a bluffare e batte i player professionisti umani. È la fine del poker per come lo conosciamo?

Libratus è un’intelligenza artificiale che è stata programmata per vincere a poker, imparando volta per volta ad adattarsi al gioco degli avversari per diventare sempre più forte. È stato messo in atto un esperimento della durata di ben 20 giorni, dove il computer ha sfidato 4 giocatori professionisti, battendoli inesorabilmente uno dopo l’altro.

La sfida macchine VS umani immaginata dalle sorelle Wachowski, sta diventando realta? È possibile che dopo aver battuto giocatori di dama, scacchi e, di recente, sono vicini a battere i giocatori umani anche nel complicatissimo gioco orientale Go, ora siano talmente capaci di apprendere, che riescano davvero a superare il cervello umano anche in giochi come il poker, ove sono importanti anche le dinamiche psicologiche e la creatività nell’inganno?

Table of Contents

La sfida Brain VS Artificial intelligence

Corre l’anno 2017, quando Noam Brown e Tuomas Sandholm, due scienziati del Carnagie Mellon, fanno partecipare la loro creazione (o creatura?) Libratus a una sfida storica per il mondo per poker. Parliamo della sfida-esperimento che è stata chiamata in modo non tanto fantasioso: Brains vs Artificial Intelligence. La sfida consisteva in una serie di partite di poker che vedeva schierati da una parte una squadra composto da quattro poker player professionisti per la fazione dei “cervelli umani”, e dall’altra Libratus, il bot “erede” di Claudico, a portare la bandiera dei “cervelli di silicio”.

La sfida prevedeva ben venti giorni di gioco tra l’intelligenza artificiale e i quattro poker player professionisti. Vennero disputate circa 120.000 mani. La cosa più incredibile di tutte però è stato il clamoroso esito, del tutto inaspettato. Libratus ha infatti vinto più di un milione e mezzo di dollari, naturalmente virtuali, lasciando in mutande, uno dopo l’altro, tutti gli avversari umani che l’hanno sfidata in incontri di poker testa a “testa”.

Le regole sono semplici: Libratus sfida in heads-up ciascuno dei quattro giocatori della squadra umana, per un totale di 120.000 mani. Se al termine delle mani in questione il poker bot avrà un saldo negativo, i quattro potranno dividersi un premio di ben 200.000 dollari. Altrimenti resteranno a mani vuote.

Tra i quattro sfidanti, Dong Kim è risultato il migliore (o il meno peggio), lasciando sul tavolo “solo” 85.649 dollari. Per i suoi compagni di squadra però c’è stato un vero e proprio bagno di sangue. Daniel McAulay è stato alleggerito di ben 277.657 dollari, Jimmy Chou ha perso la bellezza di 552.857 dollari e Jason Les ha chiuso in passivo di addirittura 880.087 dollari. Un risultato che non possiamo definire in altro modo che una disfatta totale per la squadra dei cervelli umani.

Le differenze tra il gioco della dama, degli scacchi e del poker: informazioni complete vs informazioni incomplete

I giochi che prima di questo esperimento balzavano agli onori della cronaca per aver visto disputare sfide umani VS macchina, erano differenti dal poker, e non di poco. I giochi come la dama, gli scacchi e Go, i più famosi usati come terreno di battaglia per misurare la bravura di una macchina, sono giochi a informazioni complete. Questo significa che tutte le informazioni relative al gioco, i pezzi in campo e la loro posizione, le possibili mosse proprie e dell’avversario, sono sempre ed in ogni momento accessibili a tute le parti in gioco.

Nel poker no. Il poker viene definito appunto gioco a informazioni incomplete o parziali. Questo fa sì che non basta “semplicemente” far passare in rassegna milioni o miliardi di partite in pochi secondi, trovando la strategia ottimale, come quando le informazioni sono completamente disponibili. Nel poker servono capacità diverse. Serve tener conto di moltissime variabili potenzialmente sconosciute e la creatività e la capacità di interpretare comportamenti umani e relazionali ricoprono un ruolo fondamentale nel gioco. Una sfida tutt’altro che semplice per gli scienziati che si sono lanciati nell’impresa.

Noam Brown e Tuomas Sandholm, sviluppatori di Libratus, esultano dopo la vittoria della sfida Brains VS Artificial Intelligence — Noam Brown e Tuomas Sandholm, sviluppatori di Libratus, esultano dopo la vittoria della sfida “Brains VS Artificial Intelligence”

Come “pensa” Libratus, l’Intelligenza Artificiale del poker

Libratus basa il suo operato sulla base di una versione aggiornata e potenziata di algoritmi di “counterfactual regrets minimization”, chiamati spesso con l’acronimo CGR. (Per i nerd o gli appassionati che leggono, si può trovare una breve introduzione all’argomento qui. Detta in modo iper-semplificato, si tratta di algoritmi che consentono di valutare le varie mosse alternative possibili ad ogni singolo momento del gioco, calcolarne poi i risultati attesi prendendo poi una decisione, il cui esito sarà a sua volta valutato in modo positivo o negativo e messo a confronto con la strategia applicata dal sistema fino a quel momento specifico.

La reale forza di questi algoritmo risiede principalmente in due fondamentali caratteristiche. In primis nel riuscire a valutare contemporaneamente strategie diverse, come già avveniva per i sistemi di Intelligenza Artificiale utilizzati per i giochi come gli scacchi. La seconda, più importante innovazione, sta proprio nel poter apprendere e migliorare non solo da eventuali errori commessi, ma anche delle mosse che si sarebbero rivelate corrette, ma non eseguite. Lo schema alla base che muove questi algoritmi è quindi quello di imparare a minimizzare il numero dei “regrets”, i rimpianti appunto.

C’è da dire che la tecnologia attuale ha però dei limiti. Per i più potenti computer attuali, il numero di possibili mosse diverse nei vari momenti di gioco del Poker Texas Hold’em, è un numero elevatissimo. Parliamo di 10¹⁶⁰ diverse possibili combinazioni. Parliamo quindi di un numero composto da un 1 seguito da 160 zeri. Secondo le stime attuali si tratta di una quantità maggiore del numero di atomi presenti nell’intero universo.

La grande innovazione degli algoritmi di Libratus

Abbiamo parlato del numero di situazioni possibili e visto come si tratti naturalmente di quantità neanche lontanamente gestibili da un cervello umano, ma neanche dal più potente calcolatore immaginabile con la tecnologia attuale. Fare calcoli tenendo conto di tutte le diverse possibilità renderebbe quindi impossibile una normale partita Umani VS AI come quelle che abbiamo visto ad esempio per gli scacchi, ove il numero di combinazioni, secondo le variabili cui tener conto, oscilla tra “appena” le 10^46,7 e le 10¹²⁰ possibilità.

Per questo motivo il nuovo algoritmo CBR non si limita a ragionare su una versione “limitata” del gioco come avveniva per i precedenti algoritmi, i quali proprio per questo motivo questo risultavano non ottimali, ma va in autonomia ed eliminare interi “rami” giudicati non adeguati o ottimali ai fini preposti. In questo modo può concentrare tutta la potenza di calcolo solo sulle strade giudicate via via più promettenti per la partita in corso.

Come Libratus ha imparato a bluffare?

Una delle novità più impressionanti è la capacità di Libratus di adattarsi alle strategie degli avversari. Libratus, grazie ai suoi innovativi algoritmi, è in grado di adattarsi di continuo alle mosse attuate da ogni avversario diverso. Ma la cosa che ha sorpreso anche i suoi stessi creatori, Libratus ha imparato a bluffare.

Questa è stata forse la notizia che più di tutte ha sconvolto il pubblico di non addetti ai lavori. Vediamo però di ridimensionare un po’ le cose e riportarle più vicine a ciò che realmente è successo. Il bluff nel poker di base è un inganno. Si tratta quindi di attuare, tramite diverse tecniche di mistificazione e falsi segnali, delle mosse che vanno a dare all’avversario una percezione di forza, quando si ha una mano debole, e di debolezza, quando invece si nasconde una mano forte o il nuts. Vista in quest’ottica, viene naturale pensare che un’abilità di questo genere sia una prerogativa prettamente umana, preclusa a qualsiasi macchina o intelligenza artificiale.

Per Libratus però il fatto che sia in grado di attuare delle mosse che noi consideriamo a tutti gli effetti un bluff, non significa che riesca a progettarli nello stesso modo in cui un essere umani può fare. Il fare delle puntate particolari e incoerenti con le proprie carte, è nell’ottica dell’AI una delle tanti possibili mosse da poter utilizzare in un contesto di gioco a informazioni parziali.

Il meccanismo dietro i bluff di Libratus

Il Poker Texas Hold’em è un gioco basato in sostanza sulle probabilità di combinazione tra le proprie carte, quelle già sul board e quelle che potrebbero venire servite in futuro, sulla base delle carte rimanenti nel mazzo. Calcolare queste probabilità non è così semplice per chiunque, ma i poker player più allenati riescono a farlo in modo rapido e talvolta con grande precisione: non è quindi sorprendente che un computer con una eccezionale capacità di calcolo riesca a farlo con un’adeguata potenza di calcolo.

Bluffare però è una componente che esula dal semplice calcolo matematico. Si tratta di mosse che possono essere in grado di far sballare il conteggio di quelle probabilità. Libratus ha quindi imparato queste strategie dai suoi avversari, esattamente come tutte le altre, vedendo queste strategie come vincenti nelle mani giocate.

Come apprende Libratus

Libratus è stato inizialmente addestrato, oltre che chiaramente con le regole di base del gioco, venendo messo a giocare trilioni di partite a Texas Hold’em. Inizialmente giocando a caso, ma imparando mano dopo mano dai propri errori e dalle proprie vittorie. In questo modo ha creato diverse strategie vincenti, che perfeziona ad ogni mano giocata. Ha quindi imparato in questo modo anche ad abbinare ogni strategia alla situazione specifica nella quale risulta più vincente. Tutto oltre al fatto, non da poco, di tenere conto anche del comportamento del proprio avversario. Diverso ogni volta.

Oltre alla già incredibile capacità di Libratus di apprendere continuamente nuove strategie durante ogni partita, si metteva anche “a studiare” di notte. Quando a fine giornata i suoi avversari umani erano costretti, per ovvi motivi, ad alcune priorità biologiche come mangiare e dormire, Libratus continuava a lavorare per il proprio miglioramento.

Dopo ogni giornata, la macchina che ospita Libratus veniva collegata a un supercomputer chiamato Bridges, nella sede di Pittsburgh, grazie alla cui potenza di calcolo aggiuntiva andava a ripercorrere la giornata di gioco appena passata. In questi momenti venivano fatte ripassare e giocare nuovamente tutte le mani, così da valutare ogni possibile mosse alternativa. Il giorno dopo quindi poteva contare su delle strategie di gioco ancora migliore delle precedenti.

Le macchine stanno quindi per superarci?

È vero che la sfida di Libratus ha segnato l’ennesimo punto a favore nelle macchine contro il cervello umano. Ma di nuovo, stringendo all’osso, alla base del successo c’è sempre una migliore potenza di calcolo sulla quale poter contare. Gli algoritmi delle Intelligenze Artificiali inoltre sono diventati realmente più sofisticati in modo fino a pochi anni fa impensabili. Sono oggi in grado di fare previsioni estremamente complesse e, soprattutto, di apprendere ed adattarsi in modo flessibile in base a ciò che accade.

Per arrivare a questi risultati però, alle macchine servono ancora lunghissimi periodi di apprendimento. Non parliamo soltanto del tempo fisico impiegato, Libratus ha sviluppato, ad esempio, le proprie abilità in un totale di 15 milioni di “processor-hours”, ore-processore, ma anche nella quantità di esempi necessari per imparare. Parliamo di esempi che crescono in modo esponenziale, considerando la capacità dei sistemi di apprendere anche attraverso tutte le possibili alternative, pure se puramente ipotetiche e mai avvenute nella realtà.

Se qualcuno stesse sentendo ancora quella strana sensazione di disagio o pressione dovutta al fatto che le macchine iniziano a superarci in diversi campi, c’è comunque una notizia che dovrebbe farci tirare un sospiro di sollievo. Gli esseri umani ancora conservano delle peculiarità ad oggi inarrivabili a qualsiasi Intelligenza Artificiale o macchina. Parliamo della grandissima potenza di astrazione e categorizzazione della nostra mente. Attività possibili per noi anche a partire da un ristrettissimo numero di esempi.

Anche lo stesso Toumas Sandholm, uno degli ideatori di Libratus, trovandosi a dare un’opinione in merito alla sfida tra pro player di poker umani e Claudicus, il sistema di intelligenza artificiale precedente a Libratus, ha dichiarato di essere rimasto a bocca aperta di fronte alla capacità di adattamento dei giocatori umani, in grado a suo dire di “imparare in modo estremamente rapido da un limitato numero di mani”.

Questa è proprio una delle caratteristiche che rende gli uomini estremamente versatili ed adattivi e ancora non è concessa alle macchine. Se Libratus è in grado di giocare in modo pazzesco a Poker Texas Hold’em e di sfruttare queste sue doti anche per alcune altri impieghi (già si vocifera di di negoziazione, scelte strategiche e attività simili), i suoi avversari umani, seppur miseramente sconfitti, riescono a compiere in modo naturale ogni altro tipo di attività semplice o complessa, fisica ed intellettiva.

Il cervello umano è il frutto di quasi 3 milioni di anni di evoluzione. La sterminata varietà di processi, dai più semplici ai più articolati e particolari, che siamo in grado di compiere in modo rapido e con pochissimi esempi o informazioni, sono solo alcune delle caratteristiche uniche intrinseche nella natura della mente umana. La questione è ancora aperta.

Che differenza c’è tra il cervello e l’Intelligenza Artificiale?

Ciò che separa le capacità dello sviluppo cognitivo della nostra mente e le potenzialità di un Intelligenza Artificiale, è solo questione di tempo? Sarà davvero questione di attendere nuovi sviluppi ed evoluzione tecnologica o c’è dell’altro a renderci inarrivabili per una macchina?

C’è di buono che pare mancare davvero parecchio a che la cosa rischi di sfuggirci di mano. Si spera che nel frattempo si riesca a preparare delle misure ad hoc. Ad oggi non possiamo ancora sapere con certezza se ciò che manca sia solo una maggiore potenza di calcolo.

Non ci resta quindi che aspettare. La ricerca in quasi tutti i campi si interroga sulla questione. Il rapporto uomo-macchina è destinato a cambiare rivoluzionando il nostro mondo? Sarà un cambiamento in bene o in male. Saremo in grado o meno, come umanità, di gestire delle macchine esponenzialmente più abili di noi in certi task specifici. Sono tutte questioni che non ci è ancora dato sapere. Ai posteri la sentenza.