@InProceedings{Supelec758,
author = {Lucie Daubigney and Matthieu Geist and Olivier Pietquin},
title = {Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO},
year = {2012},
booktitle = {Actes du 18ème congrès francophone sur la Reconnaissance de Formes et l'Intelligence Artificielle (RFIA 2012)},
month = {January},
address = {Lyon (France)},
url = {http://hal.archives-ouvertes.fr/docs/00/65/64/96/PDF/rfia2012_submission_40.pdf},
abstract = {L’apprentissage par renforcement (AR) fait maintenant partie de l’´etat de l’art dans le domaine de l’optimisation de syst`eme de dialogues vocaux. La plupart des m´ethodes appliqu´ees aux syst`emes de dialogue bas´ees sur l’AR, comme par exemple celles qui utilisent des processus gaussiens, requi`erent de tester des changements plus ou moins al´eatoires dans la politique. Cette mani`ere de proc´eder est appel´ee apprentissage « onpolicy ». N´eanmoins, celle-ci peut induire des comportements de la part du syst`eme incoh´erents aux yeux de l’utilisateur. Les algorithmes devraient id´ealement trouver la politique optimale d’apr`es l’observation d’interactions g´en´er´ees par une politique sous-optimale mais proposant un comportement coh´erent `a l’utilisateur : c’est l’apprentissage « off-policy ». Dans cette contribution, un algorithme efficace sur les ´echantillons permettant l’apprentissage off-policy et en ligne la politique optimale est propos´e. Cet algorithme combin´e `a une repr´esentation compacte, non-lin´eaire de la fonction de valeur (un perceptron multicouche) permet de g´erer des syst`emes `a grande ´echelle.}
}