Forward propagation of errors through time
Cet essai examine s'il est nécessaire d'exiger une rétropropagation des signaux d'erreur dans le temps lors de l'apprentissage des RNN. Il propose une méthode appelée propagation des erreurs en avant (FPTT) qui utilise une passe d'échauffement pour estimer les conditions initiales et inverse les Jacobiennes pour reconstruire les gradients. Les expériences sur une version simplifiée du MNIST séquentiel montrent que l'algorithme peut apprendre des tâches non triviales, mais souffre d'une instabilité numérique grave lorsque le réseau oublie l'information. Cependant, l'inversion des Jacobiennes introduit une instabilité numérique majeure dans les régimes d'oubli, rendant l'approche imprévisible et difficile à étendre. Pour ces raisons, les auteurs concluent qu'ils ne poursuivront pas cette voie, bien qu'ils partagent des réflexions utiles sur les limites de BPTT et les perspectives pour des architectures ou types de calcul alternatifs.