Intelligence artificielle
Avec Alpha Go Zero, une nouvelle étape est franchie...

Alpha Go avait fait sensation l'an dernier en battant le champion du monde de go, un jeu extraordinairement complexe. Il est tombé sur plus fort que lui: il vient d'être écrasé par une nouvelle version de ce programme, capable d'apprendre par lui-même, «en s'affranchissant de la connaissance humaine».

Alpha Go Zero, ce nouveau programme «plus puissant», victorieux sur le score sans appel de 100 à 0, «est sans doute le plus fort joueur de go de l'histoire», estiment Demis Hassabis et David Silver, deux de ses concepteurs, selon une étude publiée ce 18 octobre dans la revue Nature.

 

Apprendre seul

 

Au jeu de go, le nombre de combinaisons possibles est astronomique, plus grand que le nombre d'atomes dans l'univers. Les programmes informatiques, bien que très forts en calcul, ne peuvent donc pas passer en revue toutes les possibilités pour choisir la bonne mais doivent imiter les concepts stratégiques de l'homme.

Pour battre en 2016 Lee Se-Dol, grand maître sud-coréen du jeu de go (par quatre parties à une), Alpha Go avait été nourri des milliers de parties jouées par des professionnels et des amateurs, lui permettant ainsi «d'apprendre», pendant plusieurs mois, à copier le raisonnement humain par l'apprentissage profond (deep learning en anglais).

Alpha Go Zero, également développé par le britannique Deep Mind, une filiale de Google spécialisée dans l'intelligence artificielle, est pour sa part capable «d'apprendre tout seul à jouer au go», précise l'étude.

Pour s'entraîner, Alpha Go Zero joue contre lui-même, «en partant de 0» sans autre connaissance sur le go que les règles du jeu.

Contrairement à Alpha Go, il n'a donc pas eu besoin de se confronter à des humains pour devenir imbattable. «Après trois jours d'entraînement (presque 5 millions de parties, ndlr) en autodidacte, il a battu la version de 2016 d'AlphaGo», expliquent Demis Hassabis et David Silver sur un blog.

 

Toujours besoin des humains

 

Et alors qu'Alpha Go nécessitait plusieurs machines, son successeur fonctionne avec une seule. «Ce n'est pas le premier logiciel qui apprend par lui-même, la nouveauté c'est que AlphaGo Zero soit si bon», souligne le futurologue Anders Sandberg, de l'Université d'Oxford.

La victoire d'Alpha Go sur Lee Se-Dol l'an dernier avait fait sensation: c'était la première fois qu'un logiciel écrasait un joueur chevronné lors d'un match entier.

Cette victoire avait été saluée comme une percée technologique pour les ordinateurs, désormais capables non seulement de conduire des voitures mais aussi d'aider l'humanité à résoudre quelques-uns des problèmes scientifiques, techniques ou médicaux les plus ardus. Déjà en 1997, le champion du monde d'échecs Garry Kasparov avait été vaincu par l'ordinateur Deep Blue d'IBM.

Mais le défi pour la machine semblait bien plus relevé au jeu de go, dans lequel deux adversaires tentent d'occuper le plus d'espace sur un plateau quadrillé en plaçant alternativement des pierres noires et blanches.

Avec Alpha Go Zero, une nouvelle étape est franchie, dans la mesure où le logiciel, pour apprendre, n'est «plus contraint par les limites de la connaissance humaine», selon les concepteurs de Deep Mind.

Dans certains domaines, les connaissances peuvent être difficiles à réunir voire inexistantes. Il est alors difficile de «nourrir» les logiciels d'exemples et de données pour leur permettre de s'entraîner. L'auto-apprentissage permet de sauter cette étape parfois difficile à mettre en place.

Mais si elle peut se passer avec succès de l'expérience humaine pour se perfectionner, la machine dépend néanmoins toujours de l'intelligence des hommes: "Les brillantes idées qui ont permis d'améliorer le programme ont été générées par l'homme", précise Anders Sandberg. «AlphaGo ne se programme pas tout seul !».

 

Lire aussi : Qui dresse les algorithmes?

Suivez dans Mon Stratégies les thématiques associées.

Vous pouvez sélectionner un tag en cliquant sur le drapeau.