Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks
Forge fournit une couche de fiabilité pour les modèles LLM auto-hébergés en combinant des garde-fous (parsing de secours, relances, enforcement d'étapes) et une gestion de contexte adaptée à la VRAM. Avec la configuration recommandée (Ministral-3 8B Instruct Q8 sur llama-server) Forge atteint 86,5% sur un banc d'essai de 26 scénarios et 76% sur le palier le plus difficile. L'outil peut être utilisé comme WorkflowRunner (boucles d'agent structurées et SlotWorker pour l'accès prioritaire au GPU), comme middleware de garde-fous intégrable, ou comme proxy OpenAI-compatible appliquant les garde-fous de façon transparente. Il prend en charge Ollama, llama-server (llama.cpp), Llamafile et Anthropic, exige Python 3.12+ et propose des guides d'installation, d'évaluation et de configuration des backends. Le projet inclut un serveur proxy qui injecte un outil synthétique respond pour maintenir les petits modèles en mode appel d'outil, un harnais d'évaluation de 26 scénarios, une documentation complète et une licence MIT.