Generating Hierarchical JSON Representations of Scientific Sentences Using LLMs
Cet article étudie si des représentations structurées peuvent conserver le sens des phrases scientifiques. Pour cela, un petit modèle de langage est affiné avec une nouvelle fonction de perte structurelle afin de générer des structures JSON hiérarchiques à partir de phrases extraites d'articles scientifiques. Ces JSON servent ensuite à un modèle génératif chargé de reconstruire le texte original. Les auteurs comparent phrases originales et reconstruites au moyen de mesures de similarité sémantique et lexicale. Les résultats montrent que des formats hiérarchiques peuvent préserver efficacement l'information des textes scientifiques.