Evaluating Multilingual, Context-Aware Guardrails: A Humanitarian LLM Use Case
Cette étude technique évalue les garde-fous multilingues et le contexte dans les déploiements d'IA humanitaires, en comparant des réponses en anglais et en farsi sous des politiques identiques. Elle réunit les projets Mozilla Roya Pakzad et Daniel Nissani et exploite le cadre any-guardrail pour tester FlowJudge, Glider et AnyLLM sur 60 scénarios, dont 30 en anglais et 30 en farsi traduits. Les résultats indiquent que FlowJudge est légèrement plus permissif que les évaluations humaines et que Glider applique les politiques de manière plus stricte, avec des écarts plus marqués en farsi qu'en anglais. Quant à AnyLLM (GPT-5-nano), les jugements binaires et le raisonnement peuvent être incohérents, et des cas d'erreurs rédactionnelles ou d'hallucinations apparaissent, notamment en farsi. Les auteurs appellent à renforcer les garde-fous avec des capacités de recherche, des exemples spécifiques par langue et des évaluations multilingues et contextuelles pour améliorer la sécurité dans les déploiements humanitaires.