@Workshop{Supelec888,
author = {Bruno Scherrer and Matthieu Geist},
title = {Quand l'optimalité locale implique une garantie globale : recherche locale de politique dans un espace convexe et algorithme d'itération sur les politiques conservatif vu comme une montée de gradient },
year = {2014},
booktitle = {Journées Francophone de Plannification, Décision et Apprentissage (JFPDA)},
abstract = {En apprentissage par renforcement, une approche usuelle pour traiter les grands espaces d'état est la recherche directe dans l'espace des politiques. Formellement, elle consiste à  chercher localement (typiquement grâce à  une montée de gradient) dans un espace de politiques paramétrées la politique qui va maximiser l'espérance (selon une distribution prédéfinie) de la fonction de valeur associée. En général, le mieux que l'on puisse espérer d'une telle approche est l'obtention d'un maximum local du critère optimisé. Cet article commence par présenter un résultat surprenant : si l'espace de politiques est convexe, tout optimum local (approché) jouit d'une garantie de performance globale. Toutefois, cette hypothèse de convexité est forte : elle n'est pas satisfaite par les paramétrisations communément utilisées, et trouver une représentation qui satisfait cette propriété semble ardu. Une solution naturelle pour traiter ce problème consiste à adopter une approche de type \textit{boosting} (contrainte à la fermeture convexe d'un espace de politiques arbitraire). Il s'avère que l'algorithme résultant est une (légère) généralisation de la version conservative d'itération sur les politiques proposée par Kakade et Langford. Ainsi, notre seconde contribution est de mettre en lumière cette connexion originale entre recherche directe dans l'espace des politiques et programmation dynamique approchée.}
}