@InProceedings{Supelec594,
author = {Matthieu Geist and Olivier Pietquin},
title = {Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement},
year = {2010},
booktitle = {actes de la conférence francophone sur l'apprentissage automatique (CAP 2010)},
publisher = {PUG},
pages = {101-112},
month = {May},
address = {Clermont-Ferrand (France)},
url = {http://www.metz.supelec.fr//metz/personnel/pietquin/pdf/RIA10_Xcap_MGOP.pdf},
abstract = {Le dilemme entre exploration et exploitation est un problème important en apprentissage par renforcement (AR). Les approches associées les plus efficaces utilisent généralement une information d’incertitude des valeurs estimées pendant l’apprentissage. D’un autre côté, la prise en compte de grands espaces d’état est problématique en AR et l’approximation de la fonction de valeur est devenue un domaine de recherche important. Ces deux problèmes co-existent dans la plupart des applications. Cependant, peu d’approches permettent à la fois d’approcher la fonction de valeur et d’en déduire une information d’incertitude sur les estimations. Dans cet article, nous montrons comment une telle information d’incertitude se déduit naturellement d’un cadre de travail basé sur les différences temporelles et le filtrage de Kalman. Nous introduisons un schéma d’apprentissage actif pour un algorithme du second ordre du type itération de la valeur (nommément KTD-Q). Nous proposons également l’adaptation de quelques méthodes traitant du dilemme entre exploration et exploitation initialement conçues pour le cas tabulaire.}
}