@Workshop{Supelec703,
author = {Matthieu Geist and Bruno Scherrer},
title = {Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité},
year = {2011},
booktitle = {Sixièmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2011)},
pages = {22 pages},
month = {June},
address = {Rouen (France)},
url = {http://www.metz.supelec.fr/~geist_mat/pdfs/Supelec703.pdf},
abstract = {Dans le cadre des processus de décision Markoviens (MDPs), nous nous intéressons à l'apprentissage d'une \emph{approximation linéaire} de la fonction de valeur d'une politique fixe, lorsque les données sont constituées d'une unique trajectoire générée par une autre politique, c'est-à-dire que nous considérons le cas \emph{off-policy}. Nous présentons une manière systématique d'adapter l'ensemble des algorithmes de type moindres carrés proposés dans la littérature dans le cas \emph{on-policy} et n'utilisant pas nécessairement de traces d'éligibilité (LSTD~\citep{Boyan:2002}, LSPE)~\citep{Nedic:2003}, FPKF~\citep{Choi:2006} et BRM/GPTD~\citep{Engel:2005}/KTD~\citep{geist:jair}), de sorte à ce qu'ils puissent être appliqués dans le cas \emph{off-policy} avec des traces. Nous dérivons les formules pour une implémentation récursive de ces algorithmes, étudions leur convergence asymptotique et illustrons expérimentalement leur comportement. Si nous retrouvons les algorithmes off-policy LSTD($\lambda$)/LSPE($\lambda$) récemment proposés par \citet{Yu:2010}, les deux autres sont à notre connaissance nouveaux. }
}