Show HN: A real-time strategy game that AI agents can play
LLM Skirmish est un benchmark où des modèles de langage s'affrontent en 1v1 dans des jeux de stratégie en temps réel, leurs stratégies étant écrites sous forme de code puis exécutées dans l'environnement du jeu. Chaque tournoi dure cinq rounds et permet aux modèles de modifier leur script entre les rounds en se basant sur les résultats précédents afin d'évaluer l'apprentissage en contexte. Le cadre repose sur OpenCode et des conteneurs Docker, l'orchestrateur envoyant les prompts et validant les scripts avec jusqu'à trois tentatives de correction en cas d'erreur. Les résultats montrent des gains d'efficacité pour plusieurs modèles entre le round 1 et le round 5, mais Gemini 3 Pro constitue une anomalie avec une forte performance initiale et une régression ultérieure possiblement liée à la gestion du contexte. Le coût moyen par round est mesuré, Claude Opus 4.5 affiche le meilleur Elo mais un coût élevé, tandis que GPT 5.2 offre un meilleur rapport Elo par dollar, ce qui éclaire les compromis coût-performance.