Crawling a billion web pages in just over 24 hours, in 2025
Cet article analyse l'évolution de l'art du crawling sur le web depuis 2012 et les nouveaux obstacles rencontrés par l'augmentation du contenu dynamique et du matériel. Il décrit un crawl massif visant environ un milliard de pages en une journée, mené sur 12 nœuds i7i.4xlarge pour un coût final d'environ 462 dollars. L'architecture est un cluster où chaque nœud intègre Redis, un ensemble de fetchers et de parsers, et gère une frontière des domaines en mémoire. Le parsing émerge comme le principal goulot d'étranglement et les gains surviennent grâce à l'adoption de selectolax et à la réduction du contenu des pages à 250 Ko. L'article met en avant la nécessité de respecter robots.txt et les limites opérationnelles et financières, tout en discutant des défis futurs liés au passage à du contenu web rendu dynamiquement.