HN Digest
Briefing personnel.

Edition quotidienne

Lire vite. Garder l'essentiel.

Les meilleurs longs formats de Hacker News, relus plus calmement.

6148 articles Page 122/615 Sans filtre

06:10

DeepSWE: A contamination-free benchmark for long-horizon coding agents

DeepSWE est un benchmark de longue horizon pour l'ingénierie logicielle composé de tâches originales conçues sans contamination par des commits publics et couvrant 91 dépôts dans cinq langages. Chaque tâche fournit un prompt court orienté comportement, un vérificateur écrit à la main qui juge le comportement observable et une solution de référence utilisée uniquement pour la revue. Les auteurs montrent que DeepSWE sépare plus nettement les agents de pointe que SWE-Bench Pro et mesure aussi l'efficacité en tokens, temps d'exécution et coût par essai. L'analyse qualitative identifie des comportements distincts selon les familles de modèles, notamment des oublis de branches chez certaines versions de Claude, une lecture littérale des prompts par GPT et une propension des modèles plus forts à écrire et exécuter leurs propres tests. Les limites incluent l'usage d'un seul harness standardisé, un corpus limité aux dépôts publics ≥500 étoiles et l'absence de certains types de tâches et langages, et les auteurs proposent d'étendre le corpus, les verificateurs et les harnesses.

06:10

Power bills more than 250 per cent higher near data centres

Les centres de données ont entraîné une hausse moyenne des factures d’électricité d’environ 267–300 % dans les quartiers voisins, créant des tensions politiques et des opportunités d’investissement liées à l’augmentation de l’offre électrique. Morgan Stanley anticipe que le renforcement des capacités électriques bénéficiera notamment au nucléaire et aux producteurs d’uranium, aux renouvelables et aux fournisseurs d’hydrogène, tout en laissant une place au gaz naturel pour des mises en service rapides; les hyperscalers finançant des projets via des contrats d’achat d’énergie à long terme sécurisent leurs coûts. Selon Moody’s, les dépenses liées aux centres de données pourraient atteindre 700 milliards de dollars US en 2026, soutenant la demande malgré le scepticisme autour de l’investissement en IA. Les introductions en bourse massives attendues d’Anthropic et d’OpenAI représentent un risque de marché si la demande n’est pas frénétique, d’autant que les participations croisées augmentent les « other income » de grandes plateformes comme Alphabet et Amazon, amplifiant la volatilité potentielle. Le texte aborde aussi les divisions politiques américaines, la fuite des talents canadiens vers la Silicon Valley, des ressources sur les meilleurs ETF et des pistes d’impact de l’IA sur la restauration et la recherche médicale sans adopter de position politique.

06:09

TSDuck: Open-source toolkit for MPEG-TS analysis and manipulation

Cet outil libre et open source est employé pour les tests, la surveillance, l'intégration et le débogage de systèmes de télévision numérique et de streaming, y compris l'acquisition et la transmodulation pour DVB, ATSC, ISDB, ASI et l'IP multicast. Il permet d'analyser les flux de transport et la signalisation PSI/SI, les débits et les horodatages, d'effectuer des transformations, extractions ou injections à la volée, et de manipuler tables et descripteurs en XML, JSON ou binaire selon les spécifications MPEG, DVB, ISDB, ATSC et SCTE. Parmi ses fonctions figurent la modification et l'extraction de services, l'analyse et l'injection d'informations SCTE‑35, l'extraction/injection de MPE, la génération et l'injection d'EPG/EIT conformément à ETSI TS 101 211, ainsi que la surveillance des propriétés audio/vidéo, des crypto‑périodes et des métriques envoyables vers InfluxDB/Grafana. Développé en C++ avec une architecture modulaire de lignes de commande et de plugins, il fournit aussi une large bibliothèque accessible via bindings C++, Java et Python et privilégie des utilitaires élémentaires combinables plutôt qu'une interface graphique sophistiquée. Le projet est distribué sous licence BSD 2 clauses, portable sur Windows, Linux, macOS et BSD avec paquets précompilés et gestionnaires (Homebrew, Winget, Ports), le support matériel variant selon les systèmes d'exploitation, et les problèmes se signalent via le suivi des issues.

06:09

Did the Pope use AI to write about the dangers of AI?

Une analyse publiée sur LessWrong par Linch Zhang affirme que certaines parties de l'encyclique du pape Léon XIV pourraient avoir été rédigées par une IA, avec des paragraphes évalués entre 40 % et 100 % par l'outil Pangram. D'autres vérifications ont estimé que 62 % du premier chapitre ou environ 46 % d'un échantillon de 2 000 mots étaient signalés comme générés par une IA, tandis que certains passages ont été classés comme essentiellement 0 % IA. Le texte présente des traits associés à l'écriture par IA, comme un usage accru du mot « genuinely » lié au modèle Claude d'Anthropic, et l'encyclique a été présentée en compagnie de Christopher Olah, cofondateur d'Anthropic. Les détecteurs d'IA ne sont pas infaillibles et les résultats peuvent varier selon l'outil, mais Pangram, généralement respecté, affirme un taux de faux positifs d'environ 1 sur 10 000. Il s'agit de la première encyclique du pape Léon XIV et de la première à traiter de l'intelligence artificielle, et le Vatican n'a pas répondu immédiatement aux demandes de commentaire.

06:09

Netherlands blocks US takeover of vital digital supplier

L'entreprise de conseil liée à Tony Blair renforce son focus sur l'intelligence artificielle et réorganise ses activités en Europe, avec des conséquences pour son bureau récemment ouvert à Bruxelles. La présidente de la Commission européenne indique qu'une interdiction des réseaux sociaux pour les mineurs pourrait être adoptée cet été en s'inspirant de l'Australie pour fixer un âge minimum. OpenAI a proposé aux autorités européennes un accès à un nouveau modèle d'IA capable de piratage, après des tentatives antérieures d'accès par les agences cyber et IA qui ont échoué et suscité des inquiétudes. Ces développements reflètent une accélération des enjeux liés à l'IA dans les sphères privée et publique en Europe. Les annonces ont été publiées en mai, avec des communications échelonnées autour des 11, 12 et 22 mai, signalant une actualité dense sur le sujet.

06:08

Opaque Types in Python

L'article explique un motif de conception en Python pour exposer un type opaque afin de minimiser la surface publique d'une structure de configuration évolutive. L'auteur propose d'utiliser typing.NewType pour déclarer un alias public qui enveloppe une classe privée définissant l'état réel, ce qui empêche les utilisateurs d'accéder directement au constructeur ou aux attributs. Il illustre la technique avec un exemple ShippingOptions où une dataclass privée _RealShipOpts contient des attributs internes et des fonctions publiques comme shipFast renvoient le NewType. Cette approche permet à la bibliothèque de faire évoluer la représentation interne et d'ajouter des options détaillées sans casser l'API publique des clients. Au runtime le NewType est équivalent à son type sous-jacent pour le code interne, ce qui conserve les performances et la flexibilité tout en restreignant l'interface exposée aux consommateurs.

06:08

The Ballad of TIGIT

Après le succès de Keytruda, le récepteur TIGIT a été identifié comme une cible prometteuse d'immunothérapie et plusieurs laboratoires ont lancé des programmes cliniques ambitieux. Roche et d'autres entreprises ont montré des signaux précoces, notamment un essai de phase 2 sur tiragolumab, ce qui a conduit à d'importants programmes parallèles (SKYSCRAPER) impliquant des milliers de patients et des dépenses de plusieurs milliards. Les essais randomisés de phase 3 ont majoritairement échoué, certains montrant des pertes de survie ou des événements indésirables supérieurs au contrôle, entraînant l'arrêt ou l'abandon des programmes de Roche, Merck, BeiGene, GSK et d'autres. La distinction mécanistique entre anticorps Fc-actifs et Fc-inertes a été testée, mais le candidat Fc-silent domvanalimab a aussi échoué en phase 3, sapant l'argument d'une simple optimisation structurale. Des analyses ont qualifié le phénomène de herding, estimant près de 49 000 patients et plus de 3 milliards de dollars engagés, et la conclusion est que TIGIT illustre la difficulté imprévisible de traduire une forte plausibilité biologique en bénéfices cliniques.

06:08

Are we self-sovereign PKI yet?

Les applications de messagerie chiffrent de bout en bout mais la plupart des utilisateurs ne vérifient pas les clés des contacts, ce qui rend la sécurité dépendante de la bonne foi de la plateforme. Le problème plus large est de lier des noms humains à des clés sur plusieurs services, et l'infrastructure PKI et les systèmes de nommage actuels restent custodiaux et vulnérables aux compromissions DNS, BGP ou CA. Spaces propose une couche d'identité non custodiale où les noms sont stockés dans un Merkle trie ancré sur Bitcoin et résolus hors chaîne par des preuves de Merkle, avec une application Veritas pour calculer un identifiant de confiance de 32 octets. Le projet vise ensuite un certificat zk succinct permettant une vérification locale rapide sans synchronisation, créant une « autorité » sans clé privée, mais cela implique de faire confiance à la sécurité du PoW de Bitcoin et au logiciel vérifié. Les défis restants incluent la rotation et la perte de clés, le coût et la lenteur d'émission des noms, l'adoption par les clients et la partie sociale distincte consistant à prouver l'identité humaine derrière une clé stable.