HN Digest
Briefing personnel.

Edition quotidienne

Lire vite. Garder l'essentiel.

Les meilleurs longs formats de Hacker News, relus plus calmement.

6424 articles Page 177/643 Sans filtre

06:05

LoRA and Weight Decay (2023)

LoRA adapte des modèles en ajoutant de petites matrices d'adaptation en basse rangée plutôt que d'ajuster toutes les milliards de poids, ce qui réduit fortement le nombre de paramètres à entraîner et permet de partager le modèle de base entre plusieurs tâches. Lorsque l'on applique la décroissance des poids (weight decay) à LoRA, cette régularisation pousse les matrices d'adaptation A et B vers zéro, ce qui équivaut à régulariser la solution vers le modèle gelé initial (W → W_init) plutôt que vers zéro comme en ajustement complet. En conséquence, l'optimisation implicite de LoRA est différente de celle du fine-tuning complet et cette différence subsiste même en augmentant le rang des adaptateurs, ce qui peut être utile avec peu de données mais limitant quand on dispose de beaucoup de données. On peut corriger ce comportement en régularisant directement la matrice adaptée complète (W_init + A B), ce qui donne des termes de mise à jour concrets pour A et B et peut être implémenté en modifiant la logique de weight decay dans des bibliothèques comme Optax tout en restant compatible avec AdamW. Les praticiens doivent donc être conscients de cette différence d'objectif implicite, choisir la régularisation adaptée au cas d'usage et valider empiriquement l'impact de la stratégie choisie.

06:05

Deep – CLI/REPL for generating and iterating on codebases using DeepSeek

Cet outil CLI et REPL utilise l'API de DeepSeek pour générer, évaluer et améliorer automatiquement des projets complets à partir d'une description en langage naturel. L'installation se fait via pip (deepseek-builder), scripts d'install pour Linux/macOS et PowerShell pour Windows, et l'installateur crée un environnement virtuel et configure la clé API. Les principales commandes permettent de construire, interroger, mettre à jour, corriger, afficher le contexte, servir une interface web, diagnostiquer l'environnement et gérer la configuration et le débogage. Chaque build suit cinq phases — planification, génération, écriture, évaluation et apprentissage — avec option de correction automatique, règles personnalisées (.deeprules) et skills pour adapter les réponses en conversation. Le CLI fournit un mode debug détaillé qui journalise les appels API, prompts, fichiers écrits et évaluations, propose un serveur HTTPS PWA pour mobile (requérant trustme) et nécessite Python 3.9+ et une clé API.

06:04

Declining America

L'auteur a reçu une invitation d'une organisation respectée à un rassemblement de cadres au format unconference principalement axé sur l'intelligence artificielle. Il décline l'invitation parce que l'événement a lieu aux États-Unis et, par principe, il se sent mal à l'idée de visiter un pays dont le dirigeant a menacé à plusieurs reprises la souveraineté canadienne et montré du mépris pour la nation. Il évoque aussi un risque pratique lié aux contrôles frontaliers américains, notamment la possible exigence de divulguer ses publications sur les réseaux sociaux, ce qui pourrait avoir des conséquences graves pour sa situation familiale. Il affirme qu'il considère toujours l'organisation comme amie, qu'il a des opinions fortes sur les sujets à discuter et qu'il regrette sincèrement de devoir décliner. Le texte précise enfin que les opinions sont personnelles, qu'une divulgation de ses intérêts professionnels figure sur sa page d'auteur et qu'il est présent sur Mastodon.

06:04

Formal Verification Gates for AI Coding Loops

Les failles d'accès multi-locataire restent courantes malgré le consensus sur la règle de ne pas lire les données d'un autre locataire. Les « portes comportementales » comme les prompts et les checklists échouent parce qu'elles reposent sur la mémoire du modèle et des réviseurs et ne garantissent pas l'application systématique de l'invariant. Les portes structurelles — compilateurs, vérificateurs de types et tests automatisés — fournissent des refus concrets qui créent une backpressure déterministe et déplacent la responsabilité de l'invariant hors de l'espace d'instruction du modèle. La méthode Shen-Backpressure écrit des spécifications en Shen que shengen abaisse en types-guard dans le langage cible, obligeant la construction d'une chaîne de preuves (witnesses) pour l'accès et faisant échouer la compilation en cas de contournement. L'auteur note les coûts et limites (spécification erronée, dérive, possibilités d'échappatoire selon le langage) et argue que ces portes structurelles fournissent des signaux vérifiables plus utiles qu'une simple augmentation de la capacité des modèles pour garantir les invariants en production.

06:04

Recreate famous water profiles using supermarket bottled water

Le site propose des recettes simples pour recréer des profils d'eau célèbres à partir d'eaux embouteillées vendues en supermarché. Le procédé est présenté en trois étapes : choisir un profil, acheter les bouteilles indiquées, puis les mélanger selon un ratio fourni. Les profils disponibles couvrent le café, le thé, la boulangerie, la brasserie, l'aquarium et l'horticulture. Les instructions précisent généralement seulement deux bouteilles à acheter et ne demandent pas de connaissances en chimie. Les données sont sous licence CC BY 4.0 et certains liens sont affiliés, ce qui peut générer une commission sans coût supplémentaire pour l'acheteur.

06:04

PopuLoRA: Co-Evolving LLM Populations for Reasoning Self- Play

Les auteurs présentent un cadre de self-play asymétrique fondé sur des populations pour l'entraînement postérieur de grands modèles de langue avec des récompenses vérifiables. Des populations co-évolutives d'enseignants et d'étudiants sont implémentées comme adaptateurs LoRA sur un modèle de base figé, où les enseignants génèrent des tâches vérifiables et les étudiants tentent de les résoudre sous l'évaluation d'un vérificateur Python. La fonction de récompense des enseignants favorise les tâches valides que le student apparié échoue partiellement à résoudre, empêchant l'effondrement du curriculum observé en self-play mono-agent et poussant la difficulté et la diversité des tâches. Des opérateurs d'évolution agissant directement sur les tenseurs LoRA (mutations et croisements) remplacent périodiquement les membres faibles pour préserver la capacité et la diversité, et les appariements sont priorisés par un système TrueSkill pour concentrer l'entraînement sur des confrontations équilibrées. Après entraînement, l'ensemble de la population surpasse un baseline mono-agent apparié en coût de calcul sur plusieurs benchmarks de code et présente des gains suggestifs sur des tâches mathématiques, ce qui indique un curriculum plus difficile et plus diversifié.