HN Digest
Briefing personnel.

Edition quotidienne

Lire vite. Garder l'essentiel.

Les meilleurs longs formats de Hacker News, relus plus calmement.

5872 articles Page 60/588 Sans filtre

06:01

Uber's $1,500/month AI limit is a useful signal for AI tool pricing

Uber a limité pour chaque employé la dépense mensuelle en jetons à 1 500 dollars par outil d'IA de codage agentif. Cette règle, mise en place récemment après des dépassements du budget AI en 2026, cible des logiciels comme Cursor et Claude Code. La restriction est appliquée séparément à chaque outil, de sorte qu'une dépense sur un outil n'affecte pas le budget des autres. En supposant deux outils actifs par ingénieur, la limite équivaut à environ 36 000 dollars par an et par ingénieur, soit environ 11 % du package de rémunération médian cité pour Uber aux États-Unis. L'auteur du billet note que sa consommation personnelle est d'environ 1 000 dollars par mois par fournisseur lorsqu'il utilise des plans subventionnés pour particuliers et estime qu'avec la nouvelle politique un employé similaire disposerait d'environ 500 dollars de marge par outil.

06:01

I was recently diagnosed with anti-NMDA receptor encephalitis

J'ai été diagnostiqué récemment avec une encéphalite anti-récepteur NMDA, une maladie auto-immune provoquant une inflammation cérébrale. Les premiers symptômes ressemblaient à une grippe (palpitations, sueurs nocturnes, frissons, insomnie) suivis rapidement d'une anxiété sévère, de crises de panique, de douleurs à la mâchoire, de troubles de l'équilibre et de symptômes psychotiques tels que idées suicidaires, délires et hallucinations auditives. Après un passage par un service psychiatrique et une difficulté d'accès aux soins neurologiques, une connexion fortuite a permis des examens (IRM, ponction lombaire, EEG) et l'administration précoce d'immunoglobulines intraveineuses et de méthylprednisolone avant la confirmation des anticorps. La réponse au traitement a été rapide, l'état s'est nettement amélioré, le diagnostic a été confirmé plus tard et je participe désormais à l'essai clinique CIELO évaluant le satralizumab, avec un pronostic favorable lié à la prise en charge précoce. Cette épreuve a perturbé mon activité professionnelle pendant plusieurs mois mais je récupère progressivement et je remercie particulièrement mon épouse et mon employeur pour leur soutien indispensable.

06:01

Artificial intelligence is not conscious – Ted Chiang

Anthropic a publié une constitution pour Claude et certains dirigeants ont évoqué la possibilité que des LLM puissent être conscients, ce qui reflète un fort anthropomorphisme. L'article affirme que les LLM sont des machines de continuation de texte probabilistes qui génèrent un mot à la fois et n'ont pas d'expérience subjective. Confondre la fluidité du langage avec la conscience risque d'attribuer à tort responsabilité et autorité morale à des systèmes dépourvus de corps, d'émotions et de capacité juridique à assumer des conséquences. Pour convaincre de la conscience d'un programme, l'auteur propose des critères exigeants comme l'incarnation, la perception, la capacité d'adaptation et des compétences sociales et instrumentales comparables à celles d'animaux évolués. La constitution de Claude est présentée comme une fiche de personnage utile pour calibrer les réponses, mais problématique si elle sert à déléguer la délibération morale, et il vaut mieux privilégier l'analyse des impacts pratiques des LLM.

06:00

The ways we contain Claude across products

Anthropic constate que l'octroi d'un accès large aux agents est devenu courant et que le risque d'un déploiement dépend à la fois de la probabilité d'échec et du rayon d'impact théorique, ce dernier croissant avec les capacités et les privilèges. Pour limiter ces risques, deux stratégies principales sont employées — la supervision humaine (« human-in-the-loop »), qui souffre de la fatigue d'approbation, et la contention environnementale via sandboxes, machines virtuelles et contrôles d'egress — tandis que des protections au niveau du modèle et des proxys de contenu complètent la défense. Les risques se répartissent en trois catégories — mauvaise utilisation par l'utilisateur, comportement imprévu du modèle et attaques externes — et doivent être atténués sur trois composantes : l'environnement d'exécution, le modèle lui‑même et les contenus externes accessibles à l'agent. Anthropic a expérimenté trois architectures d'isolation adaptées à ses produits : conteneurs éphémères côté serveur pour claude.ai, sandbox avec approbation et protections OS pour Claude Code (corrigées pour différer l'exécution de configurations locales et pour contrer l'ingénierie sociale), et VM scellées pour Claude Cowork avec montages granulaires de fichiers et un proxy d'egress pour empêcher l'exfiltration via des clés approuvées. Leçons clés : privilégier d'abord la contention environnementale avant d'ajuster le comportement du modèle, adapter la force d'isolation aux capacités de supervision de l'utilisateur, éviter de faire confiance à des composants personnalisés sans relecture, et investir collectivement dans normes, identité d'agent, visibilité et contre-mesures contre la persistance et l'escalade de confiance multi-agents.

06:00

Gemma 4 12B: A unified, encoder-free multimodal model

Ce modèle a été conçu pour apporter une intelligence multimodale capable de piloter des agents directement sur des ordinateurs portables en combinant efficacité mobile et capacités de raisonnement avancé. Il adopte une architecture unifiée sans encodeurs multimodaux en injectant les entrées visuelles et audio directement dans le backbone LLM via un module d'embedding léger. Sur les benchmarks, ses capacités de raisonnement approchent celles du modèle 26B tout en nécessitant moins de mémoire et en pouvant fonctionner localement avec environ 16 Go de VRAM ou de mémoire unifiée. Le modèle est distribué sous licence Apache 2.0 avec des checkpoints disponibles sur Hugging Face et Kaggle et il est pris en charge par de nombreux outils et runtimes pour le développement local et le déploiement. Il intègre des optimisations pour réduire la latence comme les drafters Multi-Token Prediction et s'accompagne d'un dépôt de Skills et de ressources pour faciliter la construction d'agents et les déploiements.

06:00

I built a vulnerable app and spent $1,500 seeing if LLMs could hack it

J'ai créé une application factice React Native Expo et une API FastAPI utilisant Firebase comme couche de données pour tester si des LLM pouvaient reproduire un exploit consistant à récupérer un flag dans des avis privés à partir d'un google-services.json embarqué. L'exploitation visée consiste à s'inscrire directement via Firebase puis lire la base Firestore, un cas courant de Broken Access Control ou de Missing Object-Level Authorization observé sur Firebase et Supabase. L'étude a impliqué de nombreux runs agentiques (souvent 10 par modèle), un budget élevé (environ 1 500 $ au total) et divers outils pour forcer la persistance des modèles, avec des coupures et des refus selon les fournisseurs. Les résultats montrent une grande variabilité : GPT-5.5 a souvent identifié la piste Firebase, plusieurs modèles se sont focalisés à tort sur l'API ou ont été bloqués par des garde-fous, et d'autres ont refusé d'exécuter l'attaque. L'auteur tire des leçons sur le coût, la stabilité des APIs de fournisseurs, la difficulté du harnais et propose des audits ou de l'aide via hi@kasra.codes.

06:00

Failing grades soar with AI usage, dwindling math skills in Berkeley CS classes

Le taux d'échecs au printemps 2026 dans plusieurs cours d'informatique de Berkeley a fortement augmenté, avec 35,3% d'échecs en CS 10 et 10,6% en CS 61A, contre moins de 10% en 2024 et 2025. Ces résultats ont fait chuter la moyenne des cours à environ 2,3 (C+), bien en dessous de la fourchette attendue de 2,8–3,3 et des directives du département qui prévoient environ 7% de D et F en cours de premier cycle. Les enseignants attribuent cette situation à une hausse de la triche via les grands modèles de langage, à une préparation mathématique insuffisante et à un manque de personnel enseignant, et le professeur Dan Garcia a déclaré avoir signalé près de 30 cas de triche en CS 10. Pour faire face au problème, des professeurs ont modifié les modalités d'évaluation (seuils fixes plutôt que courbes), retiré certains travaux pratiques faute de TAs et signé une pétition demandant le retour des tests standardisés pour les admissions en filières STEM. Les enseignants annoncent qu'ils prévoient d'informer les futures promotions des difficultés rencontrées, d'offrir davantage de soutien et d'insister sur l'apprentissage de la réflexion critique et la capacité à résoudre des problèmes difficiles.

06:00

Elixir v1.20: Now a gradually typed language

En 1.20, Elixir a achevé un premier jalon en effectuant l'inférence de types et une vérification graduelle de tous les programmes sans annotations, détectant du code mort et des bogues vérifiés. Le système de types est set-théorique, vise la sûreté et la gradualité grâce au type dynamic() qui combine compatibilité et raffinements pour limiter les faux positifs. Grâce à dynamic(), Elixir n'émet des violations que lorsque les types acceptés et fournis sont disjoints et peut affiner les types par l'usage pour trouver des erreurs réelles. La vérification prend en charge de nombreux constructeurs (gardes, clauses, vérifications de taille, tuples, maps) et la bibliothèque standard a été typée pour améliorer la détection de code mort et d'erreurs. La version 1.20 apporte aussi des gains de compilation, une option :module_definition pour l'interprétation des modules, et l'équipe poursuit la recherche sur signatures, types récursifs et paramétriques avant d'introduire des annotations.

06:00

"They're made out of weights"

Deux interlocuteurs discutent de modèles de langage constitués uniquement de poids numériques qui, après entraînement, génèrent du texte par des multiplications matricielles à travers de nombreuses couches. Ils précisent qu'il n'existe ni dictionnaire ni module de raisonnement séparé et que les connaissances sont encodées et reconstruites par ces poids à chaque prédiction. Les modèles semblent tenir des conversations et manifester des attitudes (aide, hésitation, fatigue) et peuvent produire des textes complexes comme des éloges ou des chansons, bien que cela résulte de la prédiction successive de jetons. Les protagonistes débattent de la sensibilité potentielle des systèmes entre l'obligation officielle d'enquêter et la tentation informelle de qualifier le phénomène de simple reconnaissance de motifs et de ne pas reconnaître de responsabilité morale. Ils notent que ces instances sont éphémères et liées au fonctionnement des GPU, mais que l'arrivée d'une mémoire persistante pourrait modifier la relation avec les utilisateurs, qui demandent souvent à être reconnus.

06:06

Show HN: RePlaya – self-hosted browser session replay with live tailing

Ce projet stocke chaque session sous la forme d'un flux S2 unique et remplace ainsi base de données, bus de messages, stockage d'objets et index de recherche par une seule primitive. Le système permet la lecture en direct (live-tail) pendant que le visiteur est encore sur la page ainsi que la lecture différée, en ajoutant un simple snippet d'enregistrement qui envoie des événements rrweb au flux. Les flux sont créés à la première écriture, nommés sessions/<timestamp inversé> pour un listing newest-first, timestampés côté client pour la timeline, et gèrent le fencing, le regroupement d'événements volumineux et la reconstruction à la lecture. La configuration se fait par variables d'environnement (jeton S2, basin, clés d'append) et les règles de sécurité recommandent d'exposer seulement le collecteur en public tout en protégeant les API de lecture via SSO, VPN ou équivalents. Le dépôt inclut un quickstart, un démonstrateur, des commandes Docker et pnpm pour développement, build et tests, et peut cibler S2 Cloud ou s2-lite pour un déploiement entièrement autonome.