Fast regex search: indexing text for agent tools
Depuis grep (1973), les outils ont évolué vers des index syntaxiques et des LSP, mais les agents continuent d'utiliser des recherches par expressions régulières comme grep ou ripgrep pour fournir du contexte. ripgrep est nettement plus rapide que grep mais souffre d'un goulot d'étranglement majeur lorsqu'il doit parcourir l'intégralité d'immenses monorepos, ce qui dégrade les workflows agentiques. L'approche classique consiste à construire un index inversé de trigrammes pour limiter le sous-ensemble de fichiers à vérifier, ce qui accélère beaucoup les requêtes regex mais implique des compromis de taille d'index et de précision. Des solutions alternatives améliorent ce schéma, notamment les tableaux de suffixes, les postings enrichis par des masques probabilistes de type Bloom pour simuler des quadgrammes, et les sparse n-grams déterministes pondérés par fréquence pour réduire le nombre de consultations d'index. Pour minimiser la latence et préserver la confidentialité, l'indexation et l'interrogation sont effectuées côté client avec un format compact mmapable et des mises à jour basées sur l'état Git, ce qui augmente sensiblement l'efficacité des Agents sur de grands dépôts.