@Article{Supelec809,
author = {Edouard Klein and Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {Classification structurée pour l'apprentissage par renforcement inverse},
journal = {Revue d'Intelligence Artificielle},
year = {2013},
volume = {27},
number = {2/2013},
pages = {155-170},
month = {Mai},
note = {pdf},
url = {http://ria.revuesonline.com/article.jsp\'earticleId=18374},
abstract = {Cette contribution traite le problème de l’Apprentissage par Renforcement Inverse (ARI), défini comme la recherche d’une fonction de récompense pour laquelle le comportement d’un expert (connu par le biais d’une démonstration) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l’expert comme la paramétrisation d’une fonction de score pour un classifieur multi-classe. Cette approche donne une fonction de récompense pour laquelle la politique de l’expert est (nous le démontrons) quasi-optimale. Contrairement à la plupart des algorithmes d’ARI existants, SCIRL n’a pas besoin de résoudre le problème direct de l’Apprentissage par Renforcement. De plus, en utilisant une heuristique il est utilisable uniquement avec des trajectoires échantillonnées par l’expert. Nous illustrons cela sur un simulateur de conduite.}
}