Six (and a half) intuitions for KL divergence
La divergence entre deux distributions mesure l'excès d'« étonnement » attendu lorsque l'on utilise un modèle erroné plutôt que la vraie loi des données. Elle quantifie aussi l'espérance des preuves (log‑vraisemblances) fournies par les observations en faveur d'un modèle alternatif lorsque l'hypothèse nulle est vraie. Minimiser cette divergence revient, asymptotiquement, à maximiser la vraisemblance empirique, ce qui lie l'estimation du maximum de vraisemblance à l'optimisation de cette quantité. En codage source elle représente le surcoût moyen en bits quand on compresse selon un modèle incorrect, et dans des jeux de pari elle correspond au gain logarithmique attendu que procure la connaissance de la vraie distribution. La même quantité se voit aussi comme une divergence de Bregman issue de l'entropie négative, ce qui reflète qu'elle mesure combien Q diffère de P dans le monde où P est vrai et explique pourquoi elle n'est pas symétrique.