Tag : crawl

Common Crawl, un index de plus de 5 milliards de pages internet

Common Crawl est un projet non profit très intéressant qui a pour vocation de créer un index des sites présents sur Internet. Cet outil basé sur un crawler puissant catalogue Internet dans son ensemble, ce dernier permet aux développeurs de faire des tests et de créer des services basés sur son index.

Common Crawl est une alternative à l’index de Google, ainsi les entrepreneurs peuvent utiliser l’index gratuit pour construire des nouveaux moteurs de recherche par exemple, le tout de manière indépendante à Google et çà c’est un sacré avantage. Les développeurs peuvent utiliser le service Amazon cloud computing pour manipuler les informations. Les comptes Amazon cloud computing sont commercialisés à partir de 25$ donc très abordable pour une jeune société.

Plus d’information sur le site de Common Crawl.