Heritrix


Heritrix screenshotHeritrix est le robot d’indexation de l’Internet Archive qui a été spécialement conçu pour l’archivage web. Il est libre et a été écrit en langage Java. Son interface principale est accessible depuis un navigateur Web, et il y a un outils en invite de commande qui peut aussi être optionnelment utilisé pour la collecte.

Les caractéristiques d’Heritrix a été développé conjointement par l’Internet Archive et les Bibliothèques Nationales Nordiques en 2003. La première sortie officielle a été en Janvier 2004, et il a depuis été continuellement amélioré par les membres de l’Internet Archive et les tiers intéressé.

Projets utilisant Heritrix

Un nombre importants d’organisation et de bibliothèques nationales utilisent Heritrix, parmi lesquels :

Fichier Arc

Heritrix stocke les ressources du web dans un fichier Arc. Le format de fichier Arc est utilisé par l’Internet Archive depuis 1996 pour stocker les archives du web. Heritrix peut également être configurer pour stocker des fichiers dans un format de répertoire similaire au robot d’indexation Wget qui utilise l’URL du nom du répertoire et les noms de fichiers pour chaque ressource.

Un fichier Arc stocke de multiples ressources archivé dans un seul dossier dans l’intention de gérer un grand nombre de petits fichiers. Le fichier consiste en une séquence d’enregistrement d’URL comprenant un en-tête contenant une métadonnée expliquant comment la ressource a été demandée, suivi de l’en-tête HTTP, et de la réponse. Un fichier Arc s’étend de 100 à 600 Mo.

Outils en ligne de commande

Heritrix est fourni avec plusieurs outils en ligne de commande :

  • htmlextractor – montre le lien que Heritrix doit extraire pour un URL donné
  • hoppath.pl – recrée le chemin des liens pour une URL spécifié depuis une indexation complétée
  • manifest_bundle.pl – met en paquets toutes les ressources référencé par le fichier manifeste du robot dans un fichier tar incompressé ou compressé
  • cmdline-jmxclient – permet le contrôle en ligne de commande d’Heritrix
  • arcreader – extrait du contenu d’un fichier Arc (voir au dessus)

Voir aussi

Références

Liens externes

Texte disponible sous GNU Free Documentation License.

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :