Can LLMs model real-world systems in TLA+?
L'équipe Specula présente SysMoBench, un banc d'essai automatisé qui évalue des modèles de langage sur leur capacité à générer des spécifications TLA+ fidèles au code de onze systèmes concurrents et distribués. L'évaluation se compose de quatre phases (syntaxe, exécution, conformité via validation de transitions et invariants) qui produisent des diagnostics par action plutôt qu'un score global. Les résultats montrent que la plupart des LLM réussissent la syntaxe et souvent l'exécution, mais échouent fréquemment en conformité et sur les invariants parce qu'ils appliquent des formalismes de manuel qui admettent des états impossibles ou effacent des états réels. La validation des transitions compare des fenêtres de traces réelles (pré-état, action, post-état) aux actions du modèle pour repérer précisément quelles transitions et quelles actions divergent du comportement implémenté. Parmi les défis ouverts figurent la couverture des traces, l'abstraction d'état et la généralisation du pipeline, tandis que des agents spécialisés comme Specula montrent qu'une approche agentique peut atteindre la conformité et les invariants et que la plateforme maintient un classement public.