StormCrawler

StormCrawler est un SDK open source pour la construction de robots d'exploration Web distribués avec Apache Storm.Le projet est sous licence Apache v2 et consiste en une collection de ressources et de composants réutilisables, écrits principalement en Java.Le but de StormCrawler est d'aider à construire des robots d'exploration Web qui sont: évolutifs, résilients, à faible latence, faciles à étendre polis mais efficaces StormCrawler est une bibliothèque et une collection de ressources que les développeurs peuvent exploiter pour créer leurs propres robots d'exploration.La bonne nouvelle est que cela peut être assez simple.Souvent, tout ce que vous aurez à faire sera de déclarer Storm-crawler en tant que dépendance Maven, d'écrire votre propre classe de topologie (astuce: vous pouvez étendre ConfigurableTopology), de réutiliser les composants fournis par le projet et peut-être d'en écrire quelques-uns personnaliséspour votre propre sauce secrète.Un peu d'ajustement à la configuration et c'est parti! ... Outre les composants de base, nous fournissons des ressources externes que vous pouvez réutiliser dans votre projet, comme par exemple notre bec et boulons pour ElasticSearch ou un ParserBolt qui utilise Apache Tikapour analyser différents formats de document.StormCrawler est parfaitement adapté aux cas d'utilisation où l'URL à extraire et à analyser se présente sous forme de flux, mais constitue également une solution appropriée pour les analyses récursives à grande échelle, en particulier lorsqu'une faible latence est requise.Le projet est utilisé dans la production par plusieurs sociétés et est activement développé et maintenu.

Site Internet:

http://stormcrawler.net

Les catégories

Alternatives à StormCrawler pour toutes les plateformes avec n'importe quelle licence

StormCrawler

Site Internet:

Les catégories

Alternatives à StormCrawler pour toutes les plateformes avec n'importe quelle licence

Heritrix

Mixnode

Apache Nutch

Scrapy

ACHE Crawler

ProxyCrawl