La charge de travail est trop lourde pour Bjoern Henke, le responsable du projet, et cela
vient s'ajouter à des problèmes personnels qu'il
rencontre actuellement.
Robot d'indexation partagé qui rassemblera des
données statistiques relatives à la structure
d'internet.
Le but est de construire une "carthographie" de "la
toile".
Toute les informations collectées par Spider
seront rendues publiques.
Ce projet est différent des autres projet Boinc puisque
durant la première phase du projet, votre processeur ne sera
pas utilisé. Le projet utilise juste un peu de votre bande
passante internet.
Les inscriptions ne sont pas ouvertes, pour pouvoir participer il faut
se pré-enregistrer
DepSpid est toujours en cours de développement, de
même que PerlBOINC (PerlBOINC est une tentative de mettre en
place un système de serveur BOINC dans le langage de
programmation Perl). L'application DepSpid ne
fonctionne actuellement que sous Windows. Il pourrait y avoir une
application linux mais ce n'est pas encore sûr.
DepSpid est une sorte de
robot d' indexation et de recherche d'information sur la toile
(semblable à celui utilisé par les moteurs de
recherche), mais avec une recherche partargé grâce
à Boinc.
Le projet a 2 buts principaux :
Construire une base de données sur les
dépendances entre les sites internet individuels et les
sites internet groupés.
Rassembler des données statistiques sur la
structure d'internet.
Toute les informations collectées par Spider seront rendues
publiques.
Sur quel base le projet s'appuye pour distribuer
les points
Les points sont attribués de la façon suivante :
Pour le temps processeur utilisé (qui devrait être
faible pour la plupart des tâches), DepSpid accordera les
points selon la méthode classique. Pour éviter la
fraude, il y aura une valeur maximale pré-définie
pour chaque unité qui sera basée sur le nombre de
tâches qui la compose.
Pour l'utilisation du réseau (plus ou moins intensive),
DepSpid accorde actuellement 1 point pour 10Mo
transférés. Ceci inclut le trafic pour les
en-têtes HTTP car la plupart des requêtes de
DepSpid sont des requêtes HEAD et se compose donc uniquement
des en-têtes HTTP. Le trafic entrant est
évalué de la même manière
que le trafic sortant. La fraude est ici inutile car chaque
unité est construite sur un taux d'utilisation du
réseau maximum, et personne ne pourra obtenir plus de point
que ce qui est indiqué par la limite.
Un des buts de l'alpha test a été de
déterminer si le système d'attribution des points
fonctionnait correctement ou si il avait besoin d'ajustements.
1ère phase
Pendant cette phase qui n'utilise pas votre processeur,
l'araignée de DepSpid balayera un ensemble de pages internet
et stockera les résultats dans une base de
données provisoire qui sera traité plus tard
durant la phase 2.
Une unité DepSpid se décompose en plusieurs
tâches. Le nombre exact de tâches par
unité peut varier mais sera compris entre 10 et 50. Une
tâche est normalement un domaine, sous domaine ou l'annuaire
d'un domaine. Durant la première phase, les cycles de
l'araignée de DepSpid limiteront la charge des serveurs
qu'ils visiteront.
Chaque tâche commencera par télécharger
la page principale du domaine/sous domaine et le fichier robots.txt lui
correspondant (si disponible). La page
téléchargée sera alors
balayée pour trouver des liens. Chacun de ces liens sera
validé par une requête HTTP HEAD. La
dépendance entre la page et ses liens sera
stockée dans une base de données provisoire.
L'araignée suivra chaque lien qui appartient au domaine de
départ. Des liens qui pointent en dehors du domaine de
départ seront marqués en tant que liens externes
et ne seront pas traités par cette tâche
Une tâche se terminera quand il n'y aura plus aucun lien
à visiter ou quand une des limites
prédéfinies sera atteinte. Les limites sont le
niveau (profondeur), le nombre de liens visités et la
quantité d'octets transférés.
La phase une n'utilise pas votre processeur mais emploiera plus ou
moins de votre bande passante. Si vous êtes
déconnecté d'internet la phase réseau
sera suspendue jusqu'à ce que vous vous reconnectiez
à internet. Normalement, la phase une prendra seulement
quelques secondes ou minutes pour chaque unité mais peut
durer plusieurs heures ou jours selon la vitesse de votre raccordement
Internet et les temps de réponse du serveur
visité.
2ème phase
Pour cette phase il n'y aura pas besoin d'être
connecté à internet mais le projet aura besoin
d'un peu de votre puissance de calcul. Comme BOINC ne peux pas commuter
d'une phase de non utilisation du processeur à une phase de
calcul, cette phase sera considéré comme non
utilisatrice de la puissance de calcul. Ceci signifie qu'il
fonctionnera de manière permanente et non de
façon périodique comme les projets Boinc
classiques peuvent le faire. Cependant, DepSpid respectera vos options
de partage du temps de calcul. Il calculera la relation entre le temps
d'utilisation processeur et le temps d'exécution pour savoir
lorsque le projet devra être mis en pause pour respecter vos
options de partage du temps de calcul
Note : Le respect de vos préférences fonctionnera
seulement de cette façon avec BOINC 5.5.6 et les versions
supérieures. Des manager Boinc plus anciens pourront
participer mais emploieront une part fixe de ressources qui pourra
être éloigné de vos
préférences
La phase 2 utilisera les données collectées lors
de la phase 1 et calculera les dépendances entre toutes les
pages. Un exemple sur la façon dont celà
fonctionnera sera bientôt posté sur le forum
Une fois que toutes les dépendances auront
été calculées, les
dépendances aux liens externes qui rencontrent un seuil
prédéfini seront rapportées au serveur
du projet et fusionnées dans sa base de données
principale.
Cet article a été publié le 09-02-2007 15:34. Vous pouvez suivre les commentaires suscités par cet article grâce au fil RSS 2.0. Vous pouvez laisser un commentaire.
Dernière mise à jour 26-10-2008 13:36
Vos commentaires (0)
Seul les utilisateurs enregistrés peuvent commenter un article.