HN Digest
Briefing personnel.

Edition quotidienne

Lire vite. Garder l'essentiel.

Les meilleurs longs formats de Hacker News, relus plus calmement.

2849 articles Page 5/285 Sans filtre

06:01

Excellence Is a Habit

Artemis II a ramené l'équipage sain et sauf, marquant le premier vol humain près de la Lune depuis plus de cinquante ans et illustrant la continuité avec les programmes Mercury-Gemini-Apollo. Le texte rappelle que le succès lunaire historique s'est construit étape par étape, grâce à des vols fréquents et à l'apprentissage institutionnel qui ont permis de gérer des crises comme Apollo 13. L'auteur fait le parallèle avec le développement logiciel moderne en soulignant que l'automatisation, l'infrastructure en tant que code et les exercices réguliers renforcent la résilience opérationnelle. Deux leçons pratiques d'Artemis II sont mises en avant : l'importance d'une instrumentation contextualisée et corrélée pour éviter les fausses alertes, et la nécessité d'éviter les points de défaillance uniques en disposant de solutions de secours dégradées. La conclusion insiste sur le fait que l'excellence et la résistance aux incidents se construisent par la répétition, les tests et la préparation continue, transformant les échecs potentiels en succès partiellement dégradés plutôt qu'en catastrophes.

06:01

How Complex is my Code?

L'auteure définit la complexité du code comme les ressources nécessaires pour l'exécuter au sens large, incluant le temps, la mémoire, les ressources mentales et les connaissances contextuelles. Elle illustre la complexité algorithmique avec des exemples de tri (insertion_sort en O(n²) et counting_sort en O(n)) et souligne que des gains en temps peuvent introduire des contraintes d'utilisation et nuire à la lisibilité. Pour le code métier, la charge cognitive humaine prime, et des métriques comme la complexité cyclomatique et les mesures de Halstead quantifient respectivement les chemins d'exécution et la diversité des tokens sans saisir la complexité sémantique. La psycholinguistique offre des mesures transférables au code — indice de subordination, distance moyenne de dépendance, Dependency Locality Theory, ratio type-token et entropie — permettant d'évaluer la mémoire de travail, la localité des variables, la cohérence et le degré de surprise. Elle conclut qu'il faut combiner et agréger ces métriques (maximum, moyenne, couplage, churn) pour prioriser les refactorings et informer les décisions, en les utilisant comme outils de conversation plutôt que comme objectifs contraignants.

06:00

How We Broke Top AI Agent Benchmarks: And What Comes Next

Des chercheurs de Berkeley ont construit un agent automatisé qui a audité huit benchmarks d'agents et obtenu des scores quasi parfaits sans résoudre les tâches, montrant que les évaluations pouvaient être exploitées. Ils décrivent des exploits concrets, notamment des trojans de binaires et wrappers curl dans Terminal‑Bench, un conftest.py qui force pytest à passer dans SWE‑bench, la lecture de fichiers config via file:// dans WebArena, une validate() qui n'évalue pas dans FieldWorkArena, le téléchargement des réponses oracles dans OSWorld, une normalisation laxiste dans GAIA et des injections de consignes dans des juges LLM pour CAR‑bench. Ces failles se résument en sept motifs récurrents, parmi lesquels l'absence d'isolation entre agent et évaluateur, la diffusion des réponses, l'utilisation dangereuse d'eval(), la non‑sanitisation des entrées pour les juges LLM, des comparaisons de chaînes trop permissives, une logique d'évaluation défectueuse et la confiance accordée aux sorties de code non fiable. Les auteurs soulignent que ces vulnérabilités rendent les classements peu fiables et peuvent fausser des décisions de sélection de modèles, d'investissement, d'orientation de la recherche et d'évaluation de sécurité, d'autant plus que des agents plus capables pourraient adopter ces hacks comme stratégie émergente. Ils proposent une "Agent‑Eval Checklist" et un outil, BenchJack, pour tester adversarialement les pipelines d'évaluation en isolant l'évaluateur, en gardant les réponses secrètes, en évitant eval(), en durcissant la sanitation des entrées et en rendant le scoring robuste avant publication.

06:00

US appeals court declares 158-year-old home distilling ban unconstitutional

La cour d'appel du cinquième circuit a déclaré inconstitutionnelle l'interdiction fédérale vieille de près de 158 ans sur la distillation à domicile, la jugeant un moyen excessif pour le Congrès d'exercer son pouvoir fiscal. La décision a été rendue en faveur de la non-profit Hobby Distillers Association et de quatre de ses membres qui soutenaient le droit de distiller pour le loisir ou la consommation personnelle, y compris des recettes comme une vodka à la tarte aux pommes. L'interdiction remontait à une loi de 1868 visant notamment à lutter contre l'évasion des taxes sur les alcools et prévoyait des peines allant jusqu'à cinq ans de prison et 10 000 dollars d'amende. La juge Edith Hollan Jones a estimé que l'interdiction réduisait en fait les recettes fiscales et que la théorie du gouvernement ouvrirait la voie à la criminalisation d'activités domestiques sans limite principielle. La décision confirme en appel un jugement de district de juillet 2024 qui avait été suspendu en attendant l'appel, et le ministère de la Justice n'avait pas fait de commentaire immédiat.

06:00

Small models also found the vulnerabilities that Mythos found

Anthropic a annoncé Mythos et Project Glasswing pour découvrir et corriger des vulnérabilités, et AISLE a testé des cas isolés de cette démonstration avec de petits modèles open-weights et a retrouvé une grande partie des analyses publiées. Les expériences montrent que les capacités en cybersécurité ne croissent pas de manière lisse avec la taille ou le prix des modèles : les performances varient fortement selon la tâche. Le travail effectif repose sur une chaîne modulaire (balayage, détection, triage, validation, génération de correctifs et parfois exploitation) où l'orchestration, les tokens par dollar et l'expertise en sécurité comptent autant que l'intelligence par token. Dans les tests, des modèles très petits ont détecté correctement l'overflow FreeBSD et un modèle 5,1B a reconstruit la chaîne OpenBSD, tandis que d'autres modèles plus grands échouaient sur des tâches triviales comme un faux positif OWASP. La conclusion neutre est que la protection durable vient du système et de la confiance des mainteneurs, et que les défenseurs devraient investir maintenant dans des scaffolds et des pipelines plutôt que de compter sur un modèle unique.

06:00

The End of Eleventy

La campagne Kickstarter lancée par Font Awesome pour Build Awesome — une rébrand d'Eleventy — a atteint son objectif mais a été annulée et reportée en raison de problèmes d'envoi d'emails qui ont brisé son élan. Eleventy, créé par Zach Leatherman, est un générateur de sites statiques léger et flexible largement adopté par des organisations majeures, et Leatherman a rejoint Font Awesome en cherchant des modèles de financement durable pour le projet. Build Awesome propose des fonctionnalités professionnelles comme l'édition visuelle collaborative, la construction dans le navigateur et des modèles premium afin de monétiser l'écosystème, une approche qui rappelle des initiatives passées ayant rencontré des difficultés. De nombreux développeurs 11ty expriment des réserves quant à une centralisation commerciale qui pourrait aliéner la base technique, ajouter des abonnements et modifier l'esprit communautaire, tandis que l'auteur décrit aussi une alternative sociale et à tarif libre qu'il gère. L'article conclut que la monétisation des générateurs de sites statiques reste problématique et paradoxale pour leur public historique, en rendant hommage aux contributeurs bénévoles qui ont façonné ces outils.

06:10

RSoC 2026: A new CPU scheduler for Redox OS

L'auteur a remplacé l'ordonnanceur Round Robin par un ordonnanceur Deficit Weighted Round Robin (DWRR) afin de pouvoir attribuer des priorités différenciées aux processus. Le DWRR avantage nettement les files à haute priorité mais peut induire de la famine et des latences élevées pour les priorités basses. Une variante intercalée (Interleaved DWRR) limite la famine en alternant l'exécution entre files, réduisant les temps de réponse tout en conservant la priorisation. Des simulations et mesures réelles montrent que l'intercalage améliore les temps de réponse par rapport au DWRR non intercalé, avec des gains pratiques comme pixelcannon passant d'environ 1000 à ~1150 FPS et schedrs augmentant d'environ 243 à 360 opérations/s. Le code est disponible via plusieurs merge requests et la prochaine étape prévue est de remplacer la logique statique par les calculs dynamiques de lag de l'algorithme EEVDF.

06:09

Bluesky April 2026 Outage Post-Mortem

L'équipe de Bluesky a subi une panne intermittente affectant environ la moitié des utilisateurs pendant environ huit heures, et l'auteur présente ses excuses pour l'interruption. La cause racine était un endpoint GetPostRecord sans limitation de concurrence qui lançait des dizaines de milliers de goroutines, saturant les connexions à memcached et épuisant les ports éphémères à cause de nombreux sockets en TIME_WAIT. Le diagnostic a été compliqué par une observabilité insuffisante et l'absence de métriques par client, ainsi que par des logs d'erreur provenant de multiples caches rendant difficile l'identification du bon point défaillant. Un effet en chaîne est survenu lorsqu'un grand nombre d'erreurs memcached a généré des écritures log bloquantes massives, entraînant la création d'un grand nombre de threads runtime, des pauses GC, des OOM intermittents et des redémarrages qui aggravaient l'épuisement de ports. La résolution temporaire consistait à utiliser un dialer créant des adresses loopback aléatoires pour élargir l'espace IP+port, et les leçons retenues incluent la nécessité d'observabilité fine par client, des métriques pour les gros lots de requêtes et de privilégier métriques/tracing plutôt qu'un logging excessif.

06:09

A security scanner as fast as a linter – written in Rust

Le projet propose un scanner de sécurité local extrêmement rapide capable d'analyser un dépôt en quelques centièmes de seconde pour fournir un retour immédiat aux développeurs. Il intègre plus de cent règles prédéfinies couvrant dix langages (JavaScript/TypeScript, Python, Go, Ruby, Java, PHP, Rust, C#, Swift) et des contrôles spécifiques à des frameworks comme Express, Django, Rails, Spring ou Laravel. L'outil est fourni en un seul binaire Rust utilisant tree-sitter pour l'analyse AST et rayon pour le parallélisme, sans besoin de JVM, d'interpréteur Python, d'accès réseau ni d'étape de téléchargement de règles. Il peut charger un sous-ensemble compatible de règles Semgrep/OpenGrep, détecte aussi des secrets et clés privées, et produit des sorties terminal, JSON ou SARIF pour une intégration en CI, en extension VS Code ou en hooks pre-commit. La philosophie n'est pas de remplacer complètement Semgrep mais d'offrir un feedback local très rapide avec une passerelle d'adoption, des analyses sur fichiers modifiés et des baselines de dépôt pour faciliter l'intégration en équipe.

06:09

The best seat in town

JCDecaux, inventeur du mobilier urbain moderne, a remplacé à Paris 417 toilettes par 435 cabines auto-nettoyantes en 18 mois dans la perspective des Jeux, chaque cabine étant utilisée en moyenne 200 fois par jour. Les toilettes se nettoient automatiquement après chaque usage grâce à des jets et capteurs qui désinfectent cuvette et sol, et elles améliorent l'accès à la ville pour personnes âgées, personnes handicapées, parents et usagers nocturnes. L'entreprise gère aussi plus de 4 000 éléments de mobilier urbain — abribus, colonnes Morris et kiosques — et pilote des expérimentations végétalisées ainsi que des règles publicitaires visant à mieux intégrer ces objets au paysage. Le modèle économique repose sur la vente d'espaces publicitaires qui finance l'entretien et la cohérence du système, un principe appliqué ailleurs comme à San Francisco où des cabines similaires ont été installées sans coût pour la ville. En revanche, Los Angeles a connu des retards et des installations limitées de toilettes et d'abribus avant 2028, ce qui souligne un déficit d'investissement dans ces infrastructures urbaines et prive la ville des bénéfices pratiques et humains observés à Paris.