Adaptive PDFs
Le PDF est un format visuel qui enregistre des instructions de dessin et, bien que la spécification prévoie le PDF balisé, la plupart des fichiers rencontrés ne contiennent pas cette structure sémantique. La spécification PDF inclut depuis la version 1.4 une propriété (ActualText) permettant d'associer du texte de remplacement au contenu marqué, texte que les renderers ignorent mais que les extracteurs retournent s'ils la gèrent. En appliquant ce texte de remplacement au niveau du flux de contenu pour contenir du Markdown structuré, on obtient un même fichier qui s'affiche normalement pour les humains tout en produisant du Markdown hiérarchique propre pour les machines. Des essais avec PyMuPDF, Poppler, des outils en ligne et des LLMs ont montré que l'extraction restituait le Markdown embarqué, que le nombre de tokens reste proche mais que la densité d'information par token augmente, et que le surcoût de taille est généralement en pourcentage à un chiffre. Le code est disponible sur GitHub et l'auteur propose de poursuivre le développement, notamment via une extension Google Docs pour faciliter la création de ces PDF adaptatifs.