@Workshop{Supelec904,
author = {Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {Classification rťgularisťe par la rťcompense pour l'Apprentissage par Imitation},
year = {2013},
booktitle = {Journťes Francophones de Plannification, Dťcision et Apprentissage (JFPDA)},
month = {jul},
address = {Lille (FRANCE)},
abstract = {Cet article traite le problŤme d'Apprentissage par Dťmonstrations (AD) dans lequel un agent appel√© apprenti cherche √† apprendre √† partir des d√©monstrations d'un autre agent appel√© expert. Pour aborder ce probl√®me assez g√©n√©ral, il est commun d'adopter le paradigme des Processus D√©cisionnels de Markov (PDM) qui est appropri√© pour les probl√®mes de prises de d√©cisions s√©quentielles. Dans la litt√©rature, il y a principalement deux fa√ßons de traiter ce probl√®me (en faisant appel aux PDM) qui sont l'Apprentissage par Imitation (AI) o√Ļ l'apprenti cherche directement √† imiter la politique de l'expert et l'Apprentissage par Renforcement Inverse (ARI) o√Ļ l'apprenti essaye d'apprendre une r√©compense qui pourrait expliquer la politique de l'expert. Ici, nous introduisons un paradigme in√©dit, appel√© cadre de travail des politiques d'ensembles ( set-policy framework ), pour lequel il y a un lien naturel entre les m√©thodes d'AI et d'ARI. Ce paradigme permet de d√©river des nouveaux algorithmes qui n√©cessitent uniquement la connaissance de couples √©tat- action experts et d'exemples de transitions du PDM. Des exp√©riences sont r√©alis√©s sur un probl√®me qui fait r√©f√©rence (un simulateur de trafic routier) et sur une t√Ęche plus g√©n√©rique (les Garnets) qui permet une comparaison plus g√©n√©rale des algorithmes. Mots-cl√©s : Apprentissage par Renforcement Inverse, Apprentissage par Imitation.}
}