@Workshop{Supelec701,
author = {Lucie Daubigney and Matthieu Geist and Olivier Pietquin},
title = {Gestion de l’incertitude pour l’optimisation en ligne d’un gestionnaire de dialogues parlés à grande échelle basé sur les POMDP},
year = {2011},
booktitle = {Sixièmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2011)},
pages = {7 pages},
month = {June},
address = {Rouen (France)},
url = {http://www.metz.supelec.fr//metz/personnel/pietquin/pdf/JFPDA_2011_LDMGOP.pdf},
abstract = { L’utilisation de l’apprentissage par renforcement (AR) fait maintenant partie de l’état de l’art dans le domaine de l’optimisation de gestionnaires de dialogues parlés. Cependant avec cette méthode, entraîner un gestionnaire de dialogues requiert la génération de nombreuses données. C’est pourquoi beaucoup d’attention a été portée à la simulation d’utilisateurs ces dix dernières années. L’optimisation est donc faite avant de confronter le système à des utilisateurs réels et l’apprentissage est soit stoppé ou soit très lent durant l’utilisation pratique. Pendant ce temps-là, la recherche en AR a développé des algorithmes efficaces en termes d’échantillons. Par exemple les processus gaussiens pour l’AR ont récemment été appliqués aux gestionnaires de dialogues. Pour augmenter la vitesse l’apprentissage, l’incertitude sur les estimations calculées durant l’apprentissage est utilisée pour diriger l’exploration. Une comparaison entre différents schémas d’exploration montre que des améliorations significatives peuvent être apportées et qu’une optimisation en ligne rapide et sûre est possible, même sur une tâche complexe.}
}