Apache Nutch est un projet de logiciel de crawler open source hautement extensible et évolutif.Nutch est entièrement codé dans le langage de programmation Java, mais les données sont écrites dans des formats indépendants du langage.Il a une architecture hautement modulaire, permettant aux développeurs de créer des plug-ins pour l'analyse de type média, la récupération de données, l'interrogation et le clustering.Le récupérateur ("robot" ou "robot d'exploration Web") a été écrit à partir de zéro spécialement pour ce projet.