HN Digest
Briefing personnel.

Edition quotidienne

Lire vite. Garder l'essentiel.

Les meilleurs longs formats de Hacker News, relus plus calmement.

5824 articles Page 37/583 Sans filtre

06:01

Algorithmic Monocultures in Hiring

Les auteurs étudient 3,4 millions de candidats et 4 millions de candidatures évaluées par un même fournisseur pour 156 employeurs afin d'examiner les effets d'une monoculture algorithmique. Une analyse position par position révèle des impacts défavorables significatifs pour les candidats noirs et asiatiques conformément aux critères de la loi américaine Title VII, qui étaient masqués dans les agrégats. Les décisions centralisées génèrent des rejets systémiques homogènes — le taux observé de rejets pour des candidats postulant à plusieurs postes dépasse significativement le taux attendu sous indépendance statistique. Des simulations montrent que, dans ce contexte de dépendance centralisée, un candidat doit soumettre beaucoup plus de candidatures pour atteindre une probabilité élevée d'être recommandé par au moins un modèle qu'en cas d'indépendance des décisions. Les auteurs recommandent une surveillance et une régulation renforcées, notamment la mesure de l'impact par poste, la surveillance des dépendances fournisseurs et l'ouverture d'accès aux données pour la recherche indépendante.

06:01

Tiny hackable CUDA language model implementation

Le projet implémente un modèle séquentiel autorégressif basé sur une architecture transformer qui prédit l'octet suivant à partir du contexte précédent. Chaque octet est converti en embedding puis traité par plusieurs couches transformer comportant une attention causale et des réseaux feed-forward avec activation swish et connexions résiduelles. L'attention calcule requêtes, clés et valeurs, applique un encodage positionnel rotatif aux requêtes et clés, utilise un masque causal et projette le résultat en retour. Les états finaux sont projetés en logits sur les 256 valeurs d'octet, convertis par softmax et entraînés par minimisation de l'entropie croisée, l'optimisation se faisant avec AdamW qui découple la régularisation par poids. L'implémentation s'appuie sur BLAS pour les opérations matricielles et le dépôt fournit des instructions Make pour préparer les données, entraîner le modèle et effectuer des inférences avec des exemples de sorties.

06:00

Building from zero after addiction, prison, and a felony

L'auteur raconte une adolescence marquée par la consommation d'amphétamines, des violences scolaires, le trafic de stupéfiants et deux ans passés dans un centre de détention pour mineurs. Après une brève période de liberté, il sombre de nouveau dans la drogue, devient adulte condamné pour délit, perd son logement et connaît la pauvreté et l'instabilité. Une opportunité d'emploi en informatique trouvée via un article de presse lui permet d'apprendre le développement web, puis il s'investit dans l'open source et finit par intégrer Hasura après des contributions et plusieurs expériences en startups. Après un "bottom" personnel il obtient la sobriété, essuie de nombreux refus d'embauche liés à son casier mais parvient finalement à décrocher un poste qui lui permet de reconstruire sa vie professionnelle. Il conclut que la réhabilitation est possible avec de la chance, du soutien et des employeurs prêts à donner des opportunités, et il invite à évaluer les personnes sur ce qu'elles peuvent accomplir à l'avenir.

06:00

The Smallest Brain You Can Build: A Perceptron in Python

Un perceptron est l'unité la plus simple d'un réseau neuronal qui prend une entrée et donne une sortie binaire selon la règle (w·x + b) > 0. On peut le comprendre comme une décision humaine : les facteurs sont des entrées, les poids mesurent leur importance et le biais représente le seuil de décision. Il apprend en ajustant poids et biais quand il se trompe selon weight += learning_rate * error * value et bias += learning_rate * error, en répétant ces corrections sur plusieurs epochs. La frontière de décision se situe où w·x + b = 0 (x = -bias/weight), ce qui montre pourquoi le biais est nécessaire pour déplacer la frontière hors de zéro, comme dans l'exemple de la note de passage à 50/100. En pratique, on normalise les données pour stabiliser et accélérer l'apprentissage, et empiler des perceptrons permet de construire des réseaux neuronaux capables d'apprendre des frontières plus complexes, ce qui est démontré par un petit programme Python.

06:00

Dopamine Fracking

L'auteur définit le concept de « dopamine fracking » comme le fait d'investir des ressources massives pour extraire des pics de dopamine au détriment de la durabilité des pratiques et des cultures. C'est une métaphore de l'industrialisation culturelle qui, à l'instar de la fracturation pétrolière, procure des gains immédiats mais dégrade la santé à long terme des activités et des communautés. L'exemple de la fraise illustre comment l'extraction d'une seule essence sensorielle remplace une expérience complexe, conduit à l'uniformisation et peut faire disparaître les variantes authentiques. Sur Internet, cette logique incite à optimiser contenus et interactions pour des hits de dopamine immédiats, au prix de la nuance, de la créativité et des liens authentiques. L'auteur décrit des mesures personnelles pour s'en distancier (supprimer des flux, désinstaller des applications, poser des limites) et considère que la prise de conscience est un premier pas sans apporter de solution complète.

06:00

1k Data Breaches Later, the Disclosure Lag Is Worse

L'auteur a chargé le millième incident de fuite de données dans Have I Been Pwned et s'interroge sur la nécessité du service malgré l'existence de réglementations comme le RGPD et le CCPA. Il pointe une tendance à l'allongement des délais de divulgation des fuites, illustrée par plusieurs attaques récentes où les entreprises ont informé les victimes des semaines après avoir su de l'incident. Des exemples cités incluent des campagnes d'extorsion menées par des groupes comme ShinyHunters contre des entreprises telles que Carnival et Zara, dont les données se sont largement propagées avant toute notification publique. L'auteur identifie plusieurs causes possibles du retard, notamment la volonté des entreprises d'évaluer l'étendue des données, la crainte des actions collectives et une posture axée sur la protection juridique plutôt que sur la protection des clients. Il conclut que les cadres juridiques actuels comportent des exceptions permettant une non-divulgation et que, face à des objectifs organisationnels souvent alignés sur la protection des actionnaires, un service comme Have I Been Pwned reste nécessaire.

06:00

APC–2 – A professional record cutter for producing original playback discs

Ce graveur professionnel permet de produire en temps réel des disques de lecture originaux avec une qualité sonore élevée et est disponible exclusivement via SUPERSENSE en quantité limitée ; contactez pour obtenir un exemplaire. Il intègre un entraînement direct sur axe en tungstène poli, contrôle de vitesse variable et une horloge de référence précise assurant un wow et flutter <0,01 % WRMS (1,5 ppm). Le système offre un moteur de pitch et contrôle de pitch variable, une automatisation pilotable depuis un DAW permettant des grooves verrouillés et autres découpes spécialisées, ainsi qu'une tête de coupe stéréo avec retour et mécanisme de levage automatisé. Il comprend un système de vide pour maintien et extraction des copeaux, chauffage à température contrôlée, amplificateur intégré avec rétroaction et encodeur RIAA, ainsi qu'un monitoring RIAA avec sortie casque/ligne et un bras sur mesure. La machine propose un contrôle à distance par Ethernet ou Wi‑Fi, alimentation IEC 230/120 V, châssis en aluminium peint et granite en finition noire, et mesure 1300 x 600 x 400 mm pour un poids d'environ 140 kg.

06:09

Static Devirtualization of Themida

L'article décrit une méthode de dévirtualisation fondée sur une évaluation symbolique guidée qui limite la dépendance à des motifs VM spécifiques. La procédure élève le code en IR SSA (exemples : BLARE2, alternatives possibles Triton ou Remill), maintient RSP concret et applique en convergence des passes telles que promotion de constantes, modélisation mémoire, folding, combinaison d'instructions et élimination de stores morts pour concrétiser les adresses de handlers. Quelques adaptations sont nécessaires pour Themida, notamment pour les VJCC où la condition met à jour un flag de branchement avant que le VIP ne soit avancé, ce qui impose de suivre la divergence du VIP via ce flag plutôt que de se fier à une unique charge. Avant la sortie on effectue une analyse des dépendances mortes, on réécrit les accès en formules RSP-relatives et on abaisse l'IR en code natif en évitant les spills qui introduiraient des frames supplémentaires et perturberaient la réinsertion. La méthode permet d'obtenir du code réinsérable et exécutable proche de l'original, tandis que les protections peuvent tenter de contrer l'évaluation symbolique par des expressions opaques (MBA) ou des techniques plus avancées comme celles de CodeDefender.

06:09

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

Les auteurs établissent une correspondance mathématique reliant les arbres de décision hiérarchiques et les processus de diffusion dans des régimes limites appropriés. Cette unification révèle un principe d'optimisation commun, nommé Global Trajectory Score Matching (GTSM), pour lequel le gradient boosting est asymptotiquement optimal dans une version idéalisée. Sur le plan pratique, les auteurs présentent TreeFlow, une méthode de génération pour données tabulaires qui atteint une qualité de génération compétitive avec une fidélité supérieure et un gain de temps de calcul d'un facteur deux. Ils introduisent aussi DSMTree, une méthode de distillation qui transfère la logique décisionnelle hiérarchique vers des réseaux neuronaux. DSMTree reproduit les performances de l'enseignant à moins de 2 % d'écart sur de nombreux benchmarks.