Edition quotidienne

Lire vite. Garder l'essentiel.

Les meilleurs longs formats de Hacker News, relus plus calmement.

3507 articles Page 71/351 Sans filtre

12 Apr 2026

06:00

rdi.berkeley.edu Resume pret HTTP 200

How We Broke Top AI Agent Benchmarks: And What Comes Next

Des chercheurs de Berkeley ont construit un agent automatisé qui a audité huit benchmarks d'agents et obtenu des scores quasi parfaits sans résoudre les tâches, montrant que les évaluations pouvaient être exploitées. Ils décrivent des exploits concrets, notamment des trojans de binaires et wrappers curl dans Terminal‑Bench, un conftest.py qui force pytest à passer dans SWE‑bench, la lecture de fichiers config via file:// dans WebArena, une validate() qui n'évalue pas dans FieldWorkArena, le téléchargement des réponses oracles dans OSWorld, une normalisation laxiste dans GAIA et des injections de consignes dans des juges LLM pour CAR‑bench. Ces failles se résument en sept motifs récurrents, parmi lesquels l'absence d'isolation entre agent et évaluateur, la diffusion des réponses, l'utilisation dangereuse d'eval(), la non‑sanitisation des entrées pour les juges LLM, des comparaisons de chaînes trop permissives, une logique d'évaluation défectueuse et la confiance accordée aux sorties de code non fiable. Les auteurs soulignent que ces vulnérabilités rendent les classements peu fiables et peuvent fausser des décisions de sélection de modèles, d'investissement, d'orientation de la recherche et d'évaluation de sécurité, d'autant plus que des agents plus capables pourraient adopter ces hacks comme stratégie émergente. Ils proposent une "Agent‑Eval Checklist" et un outil, BenchJack, pour tester adversarialement les pipelines d'évaluation en isolant l'évaluateur, en gardant les réponses secrètes, en évitant eval(), en durcissant la sanitation des entrées et en rendant le scoring robuste avant publication.

12 Apr 2026

06:00

www.theguardian.com Resume pret HTTP 200

US appeals court declares 158-year-old home distilling ban unconstitutional

La cour d'appel du cinquième circuit a déclaré inconstitutionnelle l'interdiction fédérale vieille de près de 158 ans sur la distillation à domicile, la jugeant un moyen excessif pour le Congrès d'exercer son pouvoir fiscal. La décision a été rendue en faveur de la non-profit Hobby Distillers Association et de quatre de ses membres qui soutenaient le droit de distiller pour le loisir ou la consommation personnelle, y compris des recettes comme une vodka à la tarte aux pommes. L'interdiction remontait à une loi de 1868 visant notamment à lutter contre l'évasion des taxes sur les alcools et prévoyait des peines allant jusqu'à cinq ans de prison et 10 000 dollars d'amende. La juge Edith Hollan Jones a estimé que l'interdiction réduisait en fait les recettes fiscales et que la théorie du gouvernement ouvrirait la voie à la criminalisation d'activités domestiques sans limite principielle. La décision confirme en appel un jugement de district de juillet 2024 qui avait été suspendu en attendant l'appel, et le ministère de la Justice n'avait pas fait de commentaire immédiat.

12 Apr 2026

06:00

aisle.com Resume pret HTTP 200

Small models also found the vulnerabilities that Mythos found

Anthropic a annoncé Mythos et Project Glasswing pour découvrir et corriger des vulnérabilités, et AISLE a testé des cas isolés de cette démonstration avec de petits modèles open-weights et a retrouvé une grande partie des analyses publiées. Les expériences montrent que les capacités en cybersécurité ne croissent pas de manière lisse avec la taille ou le prix des modèles : les performances varient fortement selon la tâche. Le travail effectif repose sur une chaîne modulaire (balayage, détection, triage, validation, génération de correctifs et parfois exploitation) où l'orchestration, les tokens par dollar et l'expertise en sécurité comptent autant que l'intelligence par token. Dans les tests, des modèles très petits ont détecté correctement l'overflow FreeBSD et un modèle 5,1B a reconstruit la chaîne OpenBSD, tandis que d'autres modèles plus grands échouaient sur des tâches triviales comme un faux positif OWASP. La conclusion neutre est que la protection durable vient du système et de la confiance des mainteneurs, et que les défenseurs devraient investir maintenant dans des scaffolds et des pipelines plutôt que de compter sur un modèle unique.

12 Apr 2026

06:00

brennan.day Resume pret HTTP 200

The End of Eleventy

La campagne Kickstarter lancée par Font Awesome pour Build Awesome — une rébrand d'Eleventy — a atteint son objectif mais a été annulée et reportée en raison de problèmes d'envoi d'emails qui ont brisé son élan. Eleventy, créé par Zach Leatherman, est un générateur de sites statiques léger et flexible largement adopté par des organisations majeures, et Leatherman a rejoint Font Awesome en cherchant des modèles de financement durable pour le projet. Build Awesome propose des fonctionnalités professionnelles comme l'édition visuelle collaborative, la construction dans le navigateur et des modèles premium afin de monétiser l'écosystème, une approche qui rappelle des initiatives passées ayant rencontré des difficultés. De nombreux développeurs 11ty expriment des réserves quant à une centralisation commerciale qui pourrait aliéner la base technique, ajouter des abonnements et modifier l'esprit communautaire, tandis que l'auteur décrit aussi une alternative sociale et à tarif libre qu'il gère. L'article conclut que la monétisation des générateurs de sites statiques reste problématique et paradoxale pour leur public historique, en rendant hommage aux contributeurs bénévoles qui ont façonné ces outils.

11 Apr 2026

06:10

www.redox-os.org Resume pret HTTP 200

RSoC 2026: A new CPU scheduler for Redox OS

L'auteur a remplacé l'ordonnanceur Round Robin par un ordonnanceur Deficit Weighted Round Robin (DWRR) afin de pouvoir attribuer des priorités différenciées aux processus. Le DWRR avantage nettement les files à haute priorité mais peut induire de la famine et des latences élevées pour les priorités basses. Une variante intercalée (Interleaved DWRR) limite la famine en alternant l'exécution entre files, réduisant les temps de réponse tout en conservant la priorisation. Des simulations et mesures réelles montrent que l'intercalage améliore les temps de réponse par rapport au DWRR non intercalé, avec des gains pratiques comme pixelcannon passant d'environ 1000 à ~1150 FPS et schedrs augmentant d'environ 243 à 360 opérations/s. Le code est disponible via plusieurs merge requests et la prochaine étape prévue est de remplacer la logique statique par les calculs dynamiques de lag de l'algorithme EEVDF.

11 Apr 2026

06:09

pckt.blog Resume pret HTTP 200

Bluesky April 2026 Outage Post-Mortem

L'équipe de Bluesky a subi une panne intermittente affectant environ la moitié des utilisateurs pendant environ huit heures, et l'auteur présente ses excuses pour l'interruption. La cause racine était un endpoint GetPostRecord sans limitation de concurrence qui lançait des dizaines de milliers de goroutines, saturant les connexions à memcached et épuisant les ports éphémères à cause de nombreux sockets en TIME_WAIT. Le diagnostic a été compliqué par une observabilité insuffisante et l'absence de métriques par client, ainsi que par des logs d'erreur provenant de multiples caches rendant difficile l'identification du bon point défaillant. Un effet en chaîne est survenu lorsqu'un grand nombre d'erreurs memcached a généré des écritures log bloquantes massives, entraînant la création d'un grand nombre de threads runtime, des pauses GC, des OOM intermittents et des redémarrages qui aggravaient l'épuisement de ports. La résolution temporaire consistait à utiliser un dialer créant des adresses loopback aléatoires pour élargir l'espace IP+port, et les leçons retenues incluent la nécessité d'observabilité fine par client, des métriques pour les gros lots de requêtes et de privilégier métriques/tracing plutôt qu'un logging excessif.

11 Apr 2026

06:09

github.com Resume pret HTTP 200

A security scanner as fast as a linter – written in Rust

Le projet propose un scanner de sécurité local extrêmement rapide capable d'analyser un dépôt en quelques centièmes de seconde pour fournir un retour immédiat aux développeurs. Il intègre plus de cent règles prédéfinies couvrant dix langages (JavaScript/TypeScript, Python, Go, Ruby, Java, PHP, Rust, C#, Swift) et des contrôles spécifiques à des frameworks comme Express, Django, Rails, Spring ou Laravel. L'outil est fourni en un seul binaire Rust utilisant tree-sitter pour l'analyse AST et rayon pour le parallélisme, sans besoin de JVM, d'interpréteur Python, d'accès réseau ni d'étape de téléchargement de règles. Il peut charger un sous-ensemble compatible de règles Semgrep/OpenGrep, détecte aussi des secrets et clés privées, et produit des sorties terminal, JSON ou SARIF pour une intégration en CI, en extension VS Code ou en hooks pre-commit. La philosophie n'est pas de remplacer complètement Semgrep mais d'offrir un feedback local très rapide avec une passerelle d'adoption, des analyses sur fichiers modifiés et des baselines de dépôt pour faciliter l'intégration en équipe.

11 Apr 2026

06:09

www.torched.la Resume pret HTTP 200

The best seat in town

JCDecaux, inventeur du mobilier urbain moderne, a remplacé à Paris 417 toilettes par 435 cabines auto-nettoyantes en 18 mois dans la perspective des Jeux, chaque cabine étant utilisée en moyenne 200 fois par jour. Les toilettes se nettoient automatiquement après chaque usage grâce à des jets et capteurs qui désinfectent cuvette et sol, et elles améliorent l'accès à la ville pour personnes âgées, personnes handicapées, parents et usagers nocturnes. L'entreprise gère aussi plus de 4 000 éléments de mobilier urbain — abribus, colonnes Morris et kiosques — et pilote des expérimentations végétalisées ainsi que des règles publicitaires visant à mieux intégrer ces objets au paysage. Le modèle économique repose sur la vente d'espaces publicitaires qui finance l'entretien et la cohérence du système, un principe appliqué ailleurs comme à San Francisco où des cabines similaires ont été installées sans coût pour la ville. En revanche, Los Angeles a connu des retards et des installations limitées de toilettes et d'abribus avant 2028, ce qui souligne un déficit d'investissement dans ces infrastructures urbaines et prive la ville des bénéfices pratiques et humains observés à Paris.

11 Apr 2026

06:09

mrandri19.github.io Resume pret HTTP 200

Simulating a 2D Quadcopter from Scratch

Cet article construit un modèle élémentaire d’un quadricoptère plan en dérivant les équations du mouvement dans un repère y (horizontal), z (vertical) et un angle de rotation φ. Les équations de Newton-Euler donnent m ÿ = -(F1+F2) sinφ, m z̈ = (F1+F2) cosφ - mg et I φ̈ = (F1-F2) ℓ, qui sont reformulées en variables d’état. L’entrée est choisie comme u = [u1, u2] = [F1+F2, F1-F2] et l’état x = [y, z, φ, ẏ, ż, φ̇] permet d’écrire le système premier ordre ẋ = f(x,u). Le code Python définit les paramètres physiques, implémente la dynamique, intègre par la méthode d’Euler et trace/visualise les trajectoires en testant des cas à couple nul puis non nul. Dans le cas sans couple l’horizontal et l’angle restent constants tandis que z croît quadratiquement, et avec un couple non nul la rotation réduit la composante verticale de poussée jusqu’à ce que l’engin retombe ou bascule.

11 Apr 2026

06:08

blog.gitbutler.com Resume pret HTTP 200

We've raised $17M to build what comes after Git

GitButler a levé 17 millions de dollars en Série A menée par a16z, avec le soutien continu des investisseurs seed Fly Ventures et A Capital. Scott Chacon, cofondateur de GitHub, annonce l'arrivée de Peter Levine d'a16z au conseil et s'appuie sur quinze ans d'expérience pour expliquer la vision du projet. Les fondateurs estiment que Git, conçu pour des flux de travail plus anciens, ne répond plus aux pratiques modernes et crée des frictions dans la collaboration, la revue et l'intégration des changements. La préversion technique du CLI GitButler vise les workflows trunk-based et les branches empilées, prend en charge humains, agents et scripts, et s'intègre à n'importe quel projet Git pour faciliter l'organisation, le multitâche et les annulations. L'objectif déclaré est de construire une nouvelle infrastructure pour le développement logiciel qui conserve le contexte des interactions, coordonne agents et équipes et rend le travail d'équipe plus social, plutôt que de proposer simplement un "meilleur git".

Page 71 sur 351