Testing framework for multi armed bandits

A Python testing framework for multi armed bandits with implementations of several policies. Instead of the argmax function, they are using choice from the library random to get the required fair selection for the case that several arms have the same score.

Here, the link to pymaBandits on mloss.org: http://mloss.org
My own demo script with MAXMEAN policy: bandit-scripts

Dieser Beitrag wurde unter Allgemein veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Die Kommentarfunktion ist geschlossen.