@InProceedings{Supelec773,
author = {Edouard Klein and Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {Classification structurée pour l’apprentissage par renforcement inverse},
year = {2012},
booktitle = {Actes de la Conférence Francophone sur l'Apprentissage Automatique (Cap 2012)},
pages = {1-16},
month = {May},
address = {Nancy, France},
url = {http://cap2012.loria.fr/pub/Papers/13.pdf},
abstract = {Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction d’utilité ; le problème consiste à deviner cette fonction (appelée récompense) à partir de traces du comportement de l’expert. Les algorithmes d’ARI existants nécessitent une ou plusieurs des conditions suivantes pour fonctionner : trajectoires complètes de la part de l’expert, un modèle génératif pour les estimations de type Monte-Carlo, la connaissance des probabilités de transition, la capacité de résoudre le problème direct (celui de l’apprentissage par ren- forcement) de manière répétée ou l’accès à la strategie complète de l’expert. Notre con- tribution consiste en un nouvel algorithme d’ARI levant l’ensemble de ces contraintes. En utilisant une méthode supervisée dans laquelle nous introduisons implicitement la structure du processus décisionnel de Markov (PDM) sous-jacent, nous créons un algorithme basé sur une descente de sous- gradient, possédant une faible complexité tant en échantillons que calculatoire et surtout ne nécessitant pas la résolution du problème direct. }
}