Companies rein in AI usage as costs strain budgets
Resume indisponible pour cet article.
Edition quotidienne
Les meilleurs longs formats de Hacker News, relus plus calmement.
20 Jun 2026
06:06
Resume indisponible pour cet article.
20 Jun 2026
06:05
Le projet airgap exécute des programmes dans des namespaces Linux et monte les répertoires via un système de fichiers FUSE pour intercepter les accès aux fichiers. Il masque automatiquement les secrets contenus dans des fichiers comme .env, ~/.ssh et ~/.npmrc et demande une confirmation avant d'autoriser l'accès à d'autres fichiers sensibles. Cette approche vise à empêcher que des agents d'IA ou des paquets npm malveillants n'exfiltrent des clés et tokens depuis le disque, comme l'ont montré des campagnes de maliciel telles que Shai-Hulud. Lorsqu'un gestionnaire de paquets est exécuté sous airgap, les hooks d'installation s'exécutent mais chaque lecture de fichier inattendue déclenche une invite permettant de bloquer l'accès sans interrompre l'installation. La solution fonctionne actuellement sous Linux, propose des règles particulières pour certains programmes (agents IA et npm) et est présentée comme une couche de défense imparfaite nécessitant des contributions et des audits.
20 Jun 2026
06:05
L'analyse de données pour agents est particulièrement difficile en raison de questions ambiguës, de données hors distribution et d'erreurs silencieuses qui rendent la validation quasiment impossible. Hex a développé le Shoebox, une infrastructure d'évaluation évolutive qui permet des expérimentations en binômes candidate/baseline, s'exécute localement tout en se connectant à une baseline distante partagée et expose des compétences pour des boucles d'autorecherche. Les jeux d'évaluation sont volontairement modestes et artisanaux, accompagnés de rubriques configurables (déterministes, jugées par LLM ou hybrides) et de rubriques d'objectif d'hypothèse pour des comparaisons pair-à-pair ciblées. Pour tester des agents sur des entrepôts réalistes, l'équipe a créé Shorelane Commerce, une entreprise factice avec des données volumineuses et volontairement désordonnées reproduisant des migrations, acquisitions et multiples identifiants clients. L'entretien de cette pile — intégration profonde au produit, calibration des juges LLM, scripts de synchronisation d'environnement et maintenance générale — est coûteux mais considéré comme justifié par la flexibilité et la qualité des évaluations obtenues.
20 Jun 2026
06:05
Une évaluation Thinkbench a fait exécuter aux modèles la même boucle autonome de codage sur 72 tâches (60 notées en grille cachée et 12 observées), avec trois essais par tâche et un correcteur caché ajouté après l'arrêt. Sur les 60 tâches notées, GLM 5.2 a obtenu un profil de correction supérieur (92 % de full-pass, score moyen 0,976) tandis que MiniMax M3 a atteint 84 % de full-pass et un score moyen de 0,961. MiniMax était néanmoins beaucoup moins coûteux et plus rapide pour les runs notés (coût $6,67 et latence moyenne 45 s contre $18,47 et 80 s pour GLM), ce qui peut orienter le choix selon budget et latence. La séparation s'est surtout produite sur les builds greenfield où GLM était plus constant sur la structure des paquets et la livraison complète, tandis que dans les tâches ambiguës MiniMax tendait à ajouter davantage d'outillage et d'architecture production et GLM restait plus parcimonieux. L'auteur conseille GLM pour les constructions from-scratch et MiniMax comme option économique pour le travail sur code existant, tout en recommandant qu'un coordinateur ou juge de niveau supérieur supervise, vérifie et délègue le travail.
20 Jun 2026
06:05
Le Bureau de gestion et du budget propose de transformer ses orientations en une réglementation contraignante applicable à toutes les agences fédérales, centralisant les règles de subvention sur une date d'entrée en vigueur unique. La proposition exige qu'un responsable politique réalise une revue pré-émission de chaque subvention discrétionnaire, relègue l'évaluation par les pairs au rang de simple conseil et impose des critères politiques incluant l'exigence que les projets « démontrent l'avancement des priorités présidentielles » et évitent des sujets qualifiés d'« anti-américains ». Les subventions pourraient être conditionnées à une notion non définie de « Gold Standard Science », les agences pourront mettre fin à des financements en cours pour incohérence avec des priorités sans constat de faute, et les nouveaux programmes doivent être conçus pour s'aligner explicitement sur l'agenda de l'administration. Le texte interdit l'utilisation de fonds fédéraux pour des politiques DEI, pour ce qu'il qualifie de « gender ideology » ou pour l'aide à la transition des personnes de moins de 19 ans, rend non remboursables par défaut les abonnements aux revues et les frais de publication sauf approbation expresse, et exige une approbation préalable pour la participation à des conférences et pour certaines communications publiques. La règle restreint largement la collaboration internationale en bloquant le financement lié à pays ou entités désignés comme « couverts », impose l'utilisation du système E-Verify pour les employés des projets subventionnés et ouvre une période de commentaires publics jusqu'au 13 juillet 2026.
20 Jun 2026
06:05
Le gouvernement britannique a annoncé une interdiction de l'utilisation des réseaux sociaux pour les moins de 16 ans, prévue au printemps 2027. Les autorités présentent cette mesure comme une réponse aux risques en ligne pour les jeunes, tandis que des critiques estiment qu'elle repose sur des fondements erronés et évoquent des effets négatifs potentiels. La mise en œuvre nécessitera des dispositifs de vérification de l'âge pour tous les utilisateurs sur des plateformes comme Snapchat, TikTok, YouTube, Instagram, Facebook et X, sans méthode fiable et respectueuse de la vie privée à l'échelle. Des opposants soulignent que la mesure pourrait priver les jeunes d'accès à des contenus éducatifs, d'événements locaux et de liens avec des amis ou la famille éloignée, tout en restreignant l'accès à des communautés en ligne légitimes. L'historique des propositions de vérification d'âge au Royaume-Uni, depuis le Digital Economy Act jusqu'à l'Online Safety Act et les amendements récents du Children’s Wellbeing and Schools Bill, montre que le gouvernement revient régulièrement à cette approche malgré l'absence de solution technique robuste.
20 Jun 2026
06:05
Resume indisponible pour cet article.
20 Jun 2026
06:05
Il s'agit d'un serveur de données personnel mono‑utilisateur pour l'AT Protocol fonctionnant sur Cloudflare Workers, utilisant Durable Objects et R2 pour le stockage. Il permet l'indépendance face aux changements de plateforme, renforce la résilience du réseau, assure la souveraineté des données et facilite la portabilité des comptes. L'architecture associe un Worker sans état pour le routage et l'authentification, un Durable Object avec SQLite pour le dépôt et R2 pour le stockage des blobs. Le logiciel est en bêta expérimentale : les fonctionnalités de base sont opérationnelles mais des changements incompatibles et des limites restent possibles, donc il est conseillé de sauvegarder les données avant une migration. La configuration requiert un compte Cloudflare avec R2 activé et un domaine contrôlé, et la clé de signature doit impérativement être sauvegardée car elle n'est pas récupérable via Cloudflare.
20 Jun 2026
06:04
Récents modèles d'IA publics, comme Claude Fable 5, ont démontré la capacité à découvrir et enchaîner des zero-day, et des jailbreaks ont montré qu'il est difficile d'empêcher l'accès des attaquants à ces capacités. Aikido Code Audit comble l'écart entre les outils SAST et les pentests en raisonnant sur le code statique pour détecter des vulnérabilités multi‑étapes et dépendantes d'intention avant leur mise en production. L'outil suit les références entre fichiers et modules, identifie des chaînes d'exploitation logiques (par exemple IDORs, ReDoS ou routes administrateur non testées), fournit la cause racine et des preuves dans le code ainsi qu'une correction automatique générant une PR. Comme il analyse le code source, il peut couvrir des contextes non accessibles aux tests en direct — applications mobiles, contrats intelligents et bases legacy — et, selon les tests internes, couvre environ 70–80% des issues d'un pentest à un coût approximativement dix fois moindre avec une médiane d'environ 25 problèmes détectés par codebase. Pour lancer un audit il suffit depuis le tableau Aikido de sélectionner des dépôts, approvisionner des crédits et démarrer l'analyse, qui peut s'initialiser en quelques minutes et rendre des résultats en aussi peu que cinq minutes.
20 Jun 2026
06:04
Les grands laboratoires d'IA remettent en question la course aux paramètres massifs et à l'augmentation continue des données d'entraînement. Claude Fable 5 a été restreint par le gouvernement américain trois jours après sa sortie en raison d'un jailbreak jugé trop risqué, marquant la première interdiction américaine d'une IA pour des raisons de sécurité nationale. Les plus grands modèles obtiennent souvent les meilleurs scores de benchmark, mais des modèles plus petits ou open-weight comme GLM-5.2 s'en rapprochent suffisamment pour indiquer un plateau de l'intelligence mesurée. Des évaluations montrent des taux d'hallucination très variables et parfois très élevés (par exemple DeepSeek V4 Pro 94%, GLM-5.2 28%, Opus 4.8 36%, Fable 5 48%, GPT-5.5 86%), révélant une difficulté à calibrer l'incertitude et à dire « je ne sais pas ». L'industrie doit repenser la formation et la sélection des modèles en tenant compte du trilemme entre capacité brute, calibration de l'incertitude/taux d'hallucination et efficience computationnelle plutôt que de favoriser uniquement la taille.