HN Digest
Briefing personnel.

Edition quotidienne

Lire vite. Garder l'essentiel.

Les meilleurs longs formats de Hacker News, relus plus calmement.

3507 articles Page 321/351 Sans filtre

07:05

SkillsBench: Benchmarking how well agent skills work across diverse tasks

Les Skills sont des packages structurés de connaissances procédurales qui améliorent les performances des agents LLM lors de l'inférence. SkillsBench présente un benchmark comprenant 86 tâches réparties sur 11 domaines, associant des Skills sélectionnés et des vérificateurs déterministes. Chaque tâche est évaluée selon trois conditions : sans Skill, avec des Skills sélectionnés et avec des Skills auto-générés par le modèle. Sur 7 configurations de modèles et 7 308 trajectoires, les Skills sélectionnés augmentent le taux de réussite moyen de 16,2 points de pourcentage, avec des gains variables selon le domaine et 16 des 84 tâches présentent des deltas négatifs. Les Skills auto-générés n'apportent aucun bénéfice en moyenne, et des Skills ciblés à 2–3 modules surpassent une documentation exhaustive, les petits modèles équipés de Skills pouvant égaler les grands modèles sans eux.

07:05

Show HN: Wildex – Pokémon Go for real wildlife

L’application permet d’identifier instantanément plantes et animaux grâce à la caméra et d’ajouter ces observations à une collection personnelle. Elle attribue une rareté à chaque espèce et fournit des informations descriptives pour faciliter l’apprentissage. L’application montre les espèces présentes autour de l’utilisateur et permet de suivre où et quand elles ont été trouvées sur une carte personnelle. Des fonctionnalités sociales et compétitives permettent de grimper les classements, d’accomplir des quêtes et de partager des découvertes avec des amis. Le descriptif précise que l’application est gratuite, indique les exigences de compatibilité avec iOS et détaille les données utilisées pour le suivi et la confidentialité.

07:04

Running NanoClaw in a Docker Shell Sandbox

Des sandboxes sécurisées permettent d’exécuter des agents de codage comme Claude Code avec une isolation microVM pour plus de sûreté. Docker propose des images durcies gratuites, utilisables et partageables sans surprises de licence pour renforcer les environnements conteneurisés. Il est possible d’optimiser les fenêtres de contexte des grands modèles locaux grâce au packing de contexte avec Docker Model Runner et Agentic Compose. Les discussions abordent le passage d’images durcies gratuites en pratique, incluant le modèle, l’isolation de la chaîne d’approvisionnement, VEX et l’automatisation des politiques pour réduire le bruit CVE et assurer la conformité. L’initiative VEX associant Wiz et Docker Hardened Images montre comment standardiser l’information sur les vulnérabilités pour mieux prioriser les CVEs et accélérer les triages.

07:04

Ghidra by NSA

Ghidra est un cadre d'ingénierie inverse logicielle développé et entretenu par la NSA. Il comprend une suite d'outils d'analyse permettant d'étudier du code compilé sur Windows, macOS et Linux, notamment le désassemblage, la décompilation, la génération de graphes et le scripting. Il prend en charge de nombreux ensembles d'instructions et formats exécutables et peut être utilisé en mode interactif ou automatisé, avec la possibilité de développer des extensions et scripts en Java ou Python. Des avertissements de sécurité signalent des vulnérabilités connues dans certaines versions et il est recommandé de consulter les avis de sécurité. Le texte présente aussi les procédures d’installation et de construction, notamment l’installation du JDK, la récupération des dépendances et l’utilisation d’Eclipse ou de Visual Studio Code pour le développement et les contributions.

07:04

Testing Postgres race conditions with synchronization barriers

Les conditions de course surviennent lorsque des opérations concurrentes lisent une valeur obsolète et écrivent ensuite, et les tests séquentiels ne les dénouent pas sans barrière. Une barrière est un point de synchronisation qui attend un nombre défini de tâches et les libère en même temps, imposant l’interleaving exact nécessaire pour reproduire la condition. En testant la logique de crédit sans barrière, deux crédits simultanés peuvent produire 150 au lieu de 200; l’ajout de transactions ne résout pas le problème et FOR UPDATE peut entraîner un deadlock selon le placement de la barrière. Pour tester sans impacter la production, on peut injecter la barrière via un hook optionnel présent uniquement dans les tests, afin que le code de production reste inchangé. L’usage des tests avec barrière exige une base PostgreSQL réelle et permet de valider que la barrière révèle les régressions; si le test passe dans les deux sens, il peut être considéré comme vanité et être retiré.

07:04

State of Show HN: 2025

L’auteur a téléchargé tous les Show HN depuis le lancement du site et les a analysés avec un modèle hiérarchique de sujets pour déceler des tendances macroéconomiques, des signes de fraude dans les votes et des changements de comportement au fil des posts. La figure est un treemap des posts, classés par année puis par groupe thématique, montrant que 2025 est nettement plus volumineuse et plus claire en couleur. En 2025, les sujets les plus performants sont DIY Hardware IoT Projects, Open Source Projects, Error Handling and Debugging, Programming Language Interpreters et Life Narratives, et la performance moyenne est plus basse que dans les années précédentes. Deux hypothèses clés expliquent cette baisse: d’une part le marché du travail logiciel et le contrecoup du télétravail, et d’autre part l’IA qui génère davantage de contenus, plus superficiels et plus nombreux. L’auteur remarque que, malgré l’essor des sujets liés à l’IA, la plupart des contenus ne dépassent pas les attentes, les projets DIY Hardware conservent une audience fidèle, et il évoque des signes potentiels de réseaux de vote coordonnés autour des posts IA.

07:03

Instagram boss says 16 hours of daily use is 'problematic' not addiction

Le patron d'Instagram, Adam Mosseri, a défendu la plateforme devant un tribunal californien, affirmant que même une utilisation jugée excessive ne constitue pas une addiction. Le procès, qui devrait durer environ six semaines, sert de test pour évaluer la responsabilité des entreprises technologiques face aux effets sur les jeunes. Les avocats de Meta soutiennent que le préjudice de la plaignante, K.G.M., résulte davantage d'autres éléments de sa vie que d'Instagram. Une enquête interne de Meta a montré que 60% des 269 000 utilisateurs interrogés avaient vu ou subi du harcèlement au cours de la semaine précédente et que K.G.M. avait effectué plus de 300 signalements. Mosseri a évoqué la controverse entourant les filtres d'image et une discussion interne de 2019 sur leurs effets potentiels, reconnaissant que les filtres allant au-delà de l'imitation du maquillage avaient été interdits ou modifiés.

07:03

Hear the "Amati King Cello", the Oldest Known Cello in Existence

La famille Amati est présentée comme précurseur du violon moderne, et Antonio Stradivari y fut apprenti. Parmi les créations d’Amati figure le célèbre King, un cello décoré pour la cour de Charles IX et peint dans le style de la porcelaine de Limoges. Cet instrument est le plus ancien violoncelle connu et l’un des rares instruments d’Amati encore en existence, bien que la terminologie cello soit inexacte pour décrire ses formes anciennes. Après la Révolution française, le basso tomba en disgrâce et le King fut drastiquement réduit en taille par une série de transformations qui ont ouvert la voie à des violoncelles plus petits. Des analyses par scanner CT et les témoignages de musiciens comme Joshua Koestenbaum confirment un son doux et une jouabilité agréable dans sa forme actuelle, malgré les altérations.

07:03

Building for an audience of one: starting and finishing side projects with AI

Le problème est que la vue Gallery du sélecteur de tâches sur Plasma est lente sous X11, et FastTab est un commutateur personnalisé en Zig utilisant OpenGL, conçu comme un daemon pour répondre instantanément. L’article explique comment l'IA a permis de créer rapidement un prototype fonctionnel sans expérience préalable en Zig ou X11, puis de l'améliorer via une spécification détaillée et des jalons. Le processus débute par une conversation avec l'IA pour explorer le problème, obtenir des options et aboutir à une planification et une spécification claires. Pour limiter les risques sur le système, l'auteur utilise des conteneurs et les pratiques Git, comme le staging et le git diff, afin de tester et de revenir facilement en arrière. En fin de compte, l'IA est vue comme un outil puissant pour des projets personnels, permettant de livrer rapidement des prototypes, tout en reconnaissant que les projets sensibles nécessitent encore une expertise humaine.