@Article{Supelec927,
author = {Bruno Scherrer and Matthieu Geist},
title = {Recherche locale de politique dans un espace convexe},
journal = {Revue d'Intelligence Artificielle (RIA)},
year = {2015},
volume = {29},
number = {6},
pages = {685-704},
url = {https://hal.archives-ouvertes.fr/hal-01275247/document},
abstract = {En apprentissage par renforcement, la recherche locale de politique est une approche classique permettant de prendre en compte de grands espaces d'�tat. Formellement, elle consiste � chercher localement dans un espace de politiques param�tr�es la solution qui va maximiser la fonction de valeur associ�e, moyenn�e selon une loi pr�d�finie sur les �tats. La premi�re contribution de cet article montre que si l'espace de politiques est convexe, \emph{tout optimum local} (approch�) pr�sente une \emph{garantie globale de performance}. Malheureusement, supposer la convexit� de l'espace de recherche est une hypoth�se forte : elle n'est pas satisfaite par les repr�sentations usuelles des politiques et d�finir une param�trisation non triviale qui satisfasse cette propri�t� est difficile. Une solution naturelle pour palier ce probl�me est d'optimiser la fonction objectif associ�e gr�ce � une mont�e de gradient fonctionnel, la recherche �tant contrainte � l'enveloppe convexe de l'espace de politiques. Il s'av�re que l'algorithme r�sultant est une l�g�re g�n�ralisation du sch�ma d'it�ration conservative de la politique. Ainsi, notre seconde contribution consiste � souligner cette connexion originale entre recherche locale de politique et programmation dynamique approch�e.}
}