Show HN: Mdarena – Benchmark your Claude.md against your own PRs
mdarena permet d'évaluer l'impact de fichiers CLAUDE.md en les testant sur des tâches extraites de PRs fusionnées de votre dépôt. Il automatise l'extraction de tâches et de commandes de test depuis CI et fichiers de configuration, puis exécute chaque tâche en revenant à l'engagement pré-PR et en injectant les différents fichiers de contexte. Les évaluations comparent les patches produits aux diff historiques, utilisent les suites de tests lorsque disponibles, mesurent le recouvrement de fichiers et de hunk, le coût en tokens et la significativité statistique des résultats. mdarena gère les monorepos, s'intègre à SWE-bench, fournit des commandes pour miner, exécuter et rapporter, et requiert Python 3.11+, gh, la CLI claude et git. Des tests réels montrent que des fichiers par répertoire ciblés peuvent améliorer les résultats alors que des consolidations verbeuses ajoutent du bruit, et l'outil isole les checkouts pour empêcher l'exploitation de l'historique git.