GLM-OCR – A multimodal OCR model for complex document understanding
GLM-OCR est un modèle OCR multimodal destiné à la compréhension de documents complexes, fondé sur l’architecture GLM-V et équipé de la perte Multi-Token Prediction et d’un apprentissage par renforcement stable pour améliorer l’entraînement et la généralisation. Le système intègre un encodeur visuel CogViT pré-entraîné sur de vastes ensembles image-texte, un connecteur cross-modal léger avec réduction efficace des tokens et un décodeur GLM-0.5B, soutenu par une pipeline en deux étapes combinant détection de mise en page et reconnaissance parallèle. Ses performances de pointe atteignent un score OmniDocBench de 94,62 et démontrent une robustesse dans la reconnaissance de formules, de tableaux et d’extraction d’informations. Il est optimisé pour des scénarios réels avec une bonne résistance sur des mises en page complexes et codes, offrant une inférence efficace grâce à 0,9 milliard de paramètres et un déploiement possible via vLLM, SGLang ou Ollama pour réduire la latence et les coûts. Le projet est entièrement open-source et propose un SDK complet, des guides d’utilisation, et des options de déploiement variées (MaaS cloud ou déploiement local) avec des formats de sortie JSON et Markdown.