the economist
The Economist

Voici encore un article très complet sur Boinc et le calcul partagé publié dans la presse anglo-saxonne. Cette fois-ci l'article est tiré de l'édition numérique du magazine The Economist (le magazine papier est tiré à plus d'un million d'exemplaire). L'article cite une bonne dizaine de projets, en s'attardant plus particulièrement sur Seti@home, Folding@home, PrimeGrid, GalaxyZoo, Stardust et Herbaria@Home.
A la fin de l'article, vous trouverez une information inédite sur un nouveau projet qui sera soutenu par la grille humanitaire Africa@home.

6 décembre 2007
The Economist, version informatique

Informatique : Une nouvelle vague de projets scientifiques déferle sur internet, ils utilisent les ordinateurs et les méninges des bénévoles de manière novatrice.

Folding@home
écran de veille Folding


Retour sur l'année 1999, le summum de la geek-attitude était alors d'installer un nouvel écran de veille appelé SETI@home. Ce logiciel utilisait les capacités de calcul non utilisées des PC ordinaires, le but étant de passer au crible les données d'un radio-téléscope afin de découvrir un signe de vie d'une intelligence extraterrestre. La mauvaise nouvelle est que jusqu'à présent, pas la moindre conversation furtive entre petits Hommes Verts n'a pu être entendue. La bonne nouvelle est que SETI@home marche toujours fort avec plus de 3 millions de contributeurs, et a été rejoint par une armada de projets de calcul volontaire en augmentation rapide et soutenant des causes scientifiques estimables.

Le choix est déconcertant. Votre PC peut contribuer à concevoir un vaccin contre le SIDA, modéliser le climat futur de notre planète, rechercher de nouveaux nombres premiers où simuler le comportement d'un agent propulseur à l'intérieur des micro-dispositifs des satellites, pour ne citer que quelques exemples. Ce boom du calcul volontaire est en partie le résultat d'une plateforme au code source ouvert, appelée BOINC (Berkeley Open Infrastructure for Network Computing), qui permet la gestion de tels projets. C'est en 2002 que David Anderson, directeur du projet SETI@home, a lancé cette plateforme. Aujourd'hui, plus de 40 projets sont en fonctionnement, dont 15 dans le seul domaine des sciences de la vie. IBM, qui gère une inititative philantropique (World Community Grid) suivie par 800 000 volontaires, transfert actuellement tout les projets humanitaires qu'il soutient vers BOINC. Ceci concerne les projets Help Conquer Cancer (Aider à vaincre le Cancer), Discovering Dengue Drugs (Découvrir un médicament contre la dengue) et AfricanClimate@home (ClimatAfricain@home) utilisant cet ordinateur géant pour le compte de groupes de recherche universitaire qui ont besoin d'énormement de puissance de calcul dans leur recherche .

Mais le nombre de projets n'est pas le sujet. BOINC rend plus facile l'accès à la puissance du calcul distribué pour quiconque a une idée de recherche.  Il y a 2 ans, Rytis Slatkevicius lança un projet du nom de PrimeGrid qui avait alors pour but de construire la plus grande base de données de nombres premiers au monde. Il a alors réussi à battre plusieurs records : au mois d'Août dernier, par exemple, a été découvert sur ce projet le plus grand spécimen connu d'un type particulier de nombres premiers appelés nombres premiers de Woodall. Dans sa Lituanie natale, Mr Slatkevicius est un étudiant en commerce le jour, mais la nuit il gère les serveurs de son projet et vivote juste assez pour couvrir ses dépenses grâce à Google Ads, la vente de mugs et de T-shirts et aux dons de ses adeptes.

Un autre progrès qui participe au développement de l'informatique répartie tient dans l'utilisation d'autres systèmes que les PC, et en particulier des consoles de jeu et aux puissants processeurs qu'elles renferment (voir cet article). Ceci a été demontré d'une manière très spectaculaire par un projet appelé Folding@home, sous l'impulsion de Vijay Pande et de son équipe de l'université de Stanford. Folding se donne pour but de simuler le repliement des protéines (une cause de maladies telles que Alzheimer). En septembre, la capacité de calcul combinée du projet a dépassé le petaflop (1015 ou mille millions de millions d'opérations mathématiques par seconde), une barrière que tous les concepteurs de super-calculateurs rêvaient de franchir depuis plusieurs années. Avec tout juste plus de 40 000 Playstation 3, Folding@home est entré dans le livre des records comme le réseau de calcul distribué le plus puissant au monde.

En liaison avec une rapide augmentation du nombre et de la diversité des recherches pour lesquelles les projets contribuent, on assiste à une amélioration sensible du logiciel qui relie les volontaires entre eux au sein de groupes. Ils peuvent partager des informations et leur opinion au sujet de la recherche menée par les projets qu'ils soutiennent, et peut-être se faire des amis dans le même temps. Matt Blumberg, expert BOINC installé à New-York, a réalisé un portail très simple d'emploi appelé GridRepublic, pour encourager davantage de non initiés à se sentir concernés. BOINC possède également un service d'assistance assuré par des volontaires, des utilisateurs expérimentés peuvent ainsi conseiller les nouveaux venus via Skype, un service gratuit de téléphone par internet.

En plus de la collaboration, il existe également une forte dose de compétition entre les volontaires. Tout comme des joueurs de jeu en ligne, ils peuvent s'affronter individuellement et/ou dans une équipe afin d'accumuler la plus grande puissance de calcul sur un projet donné. Quelques courageux remplissent leur garage de PC juste pour être momentanément l'utilisateur de la semaine. Et une nouvelle génération de projets ont repris le concept du calcul volontaire à un autre niveau d'interaction entre les utilisateurs, en permettant aux volontaires d'être partie prenante de l'analyse des données, c'est à dire d'apporter une partie de leur capacité cognitive non utilisée.

Prenez, par exemple, le projet Galaxy Zoo, les volontaires aident les astronomes à classifier les galaxies selon leur forme à partir d'images prisent par le Sloan Digital Sky Survey, une collaboration internationale qui carthographie une large portion de l'univers visible avec des détails numériques sans précédent. Grâce aux capacités extrêmement détaillées de reconnaissance des modèles par le cerveau humain, les amateurs avec juste un peu d'entraînement peuvent distinguer différents types de galaxies beaucoup plus efficacement que ce que les ordinateurs sont capables de faire. Le projet lancé en Juillet sans fanfare, mais avec des nouvelles qui se sont rapidement répandues sur internet, regroupa rapidement plus de 100 000 volontaires qui arrivèrent à classifier plus d'un million de galaxies en quelques mois (un travail qui aurait pris des années à un astronome seul et au pris d'un effort incroyablement fastidieux). Les galaxies sont traditionellement classées en 2 catégories, les spirales et les elleptiques, mais la façon dont l'une des deux catégorie se transforme en l'autre reste encore sujet à controverse. De meilleures statistiques pourraient aider à lever le voile sur la nature de l'évolution des galaxies.

Les chercheurs de Galaxy Zoo, une collaboration entre les groupes de recherche de l'Université d'Oxford et de Portsmouth en Grande-Bretagne, sont déjà en train d'écrire la première publication étayée par la classification des galaxies menée jusqu'ici. Ils ont également demandé du temps d'observation sur de grands téléscopes pour suivre quelques-unes des découvertes les plus inhabituelles réalisées par les volontaires. Des projets sont à l'étude pour une seconde phase exigeant une analyse et des images plus détaillées en provenance d'une autre banque d'image.

Science citoyenne et loi de Moore

Bien sûr, les réseaux d’amateurs qui participent au travail des chercheurs n’ont rien de nouveau. Les ornithologues se basent sur les observations de non-professionnels pour suivre les changements des comportements migratoires, les astronomes tirent profit depuis longtemps des passionés qui scrutent le ciel à la recherche de comètes, et les archéologues bénéficient des trouvailles des fouilleurs bénévoles. Mais le potentiel que représente cette science citoyenne s’accroît rapidement par l’effet de la loi de Moore - le doublement de la puissance des ordinateurs tous les 18 mois environ – et de l’augmentation équivalente de la bande passante utilisable par les internautes ordinaires. N’importe qui, sans autre outil qu’un PC et une connexion Internet haut débit, peut maintenant participer à des projets scientifiques complexes depuis le confort de sa salle à manger. 

Le plus facile reste le recrutement du public. La plupart des projets de calcul partagé peuvent attirer plusieurs dizaines de milliers de personne sans faire de publicité simplement grâce au bouche-à-oreille. Le problème, c’est d’arriver à occuper tous ces volontaires enthousiastes. Le projet « Galaxy Zoo » a d’abord été submergé par la réponse du public et a dû renforcer ses serveurs et son réseau informatique pour faire face à l’afflux de demandes pour ses images, avec des pics de 70.000 [téléchargements] à l’heure. Chris Lintott, de l’université d’Oxford, chercheur responsable du projet, a déclaré qu’il était ravi de la réaction du public. « Les gens se sont plaints de devenir « accro » à notre site car on ne sait jamais ce que l’image suivante va nous révéler », dit-il. 

Se pose ensuite la question de la validité scientifique du travail effectué par les bénévoles. La plupart des projets, qu’ils se basent sur des cerveaux ou des processeurs, font confiance, pour valider un résultat, aux vérifications indépendantes effectuées par différents volontaires. Dans le cas du « Galaxy Zoo », par exemple, chaque image a été examinée par 30 bénévoles, qui se sont révélés tout aussi précis qu’un astronome professionnel. Les chercheurs assistent même souvent à une inversion des rôles, lorsque certains volontaires aux compétences techniques affûtées arrivent à repérer des bugs dans leurs programmes informatiques et les aident à les corriger.

 
SETI@home, Climateprediction.net, Galaxy Zoo
Le projet SETI à la recherche des extra-terrestres avec SETI@Home; simuler le climat avec climateprediction.net; trier les galaxies avec Galaxy Zoo

Malgré tout, la plus grosse barrière reste de faire accepter aux autres chercheurs l’idée que le calcul partagé n’est pas qu'un simple tour de passe-passe publicitaire, mais bien une ressource énorme, encore largement inexploitée. Quand Andrew Westphal, de l’université de Californie à Berkeley, a commencé à parler à ses collègues d’utiliser le calcul partagé pour détecter les traces potentielles laissées par de microscopiques grains de poussière interstellaire dans les cavités de l'aérogel poreux, il a d’abord rencontré un scepticisme considérable. Et pourtant, tel était le problème auquel il était confronté depuis le retour sur Terre en 2006 d’une capsule de la sonde américaine « Stardust ».

Depuis son début en août 2006, le projet Sardust@Home a recruté quelques 24.000 bénévoles pour observer, par « microscope virtuel » interposé, les images de l'aérogel. En moins d’un an ils ont réalisé plus de 40 million d’observations et trouvé 50 particules de poussière potentielles que les chercheurs prévoient maintenant d’extraire. Quand le Dr Westphal présenta ses résultats lors d’une conférence au mois de mars dernier, le degré avec lequel les observations concordaient, même sur les traces les plus fines, chacune ayant été repérée par des centaines de volontaires indépendants, emporta l’adhésion des sceptiques.

Les projets de recherche de poussière cosmique ou de classification des galaxies plaisent aux jeunes cybernautes, mais qu’en est-il d’autres tâches plus terre-à-terre ? Heureusement, le nombre d’internautes est tellement grand qu’il s’en trouvera sûrement quelques uns, quelque part, qui se prendront d’intérêt pour tel ou tel projet. Mobiliser suffisamment de bénévoles pour documenter des spécimens végétaux sortis d’archives poussiéreuses du XIXème siècle, par exemple, pourrait sembler une gageure et pourtant c’est exactement ce que Herbaria@Home est en train de réaliser.

Le projet a été lancé l’année dernière par Tom Humphrey du Musée de Manchester et déjà, quelques 12.000 spécimens extraits d’herbiers ont été décrits par les volontaires. Cela consiste généralement à télécharger une image du spécimen, à déchiffrer les divers commentaires manuscrits d’experts qui s’y rapportent et à saisir de manière organisée ces informations sur un site internet. Le projet a commencé par des spécimens en provenance de l’herbier de l’école de Shrewsbury, mais un ambitieux plan de développement consistera à se tourner également vers les collections d’universités et de musées nationaux et étrangers. Bien que cela puisse ne pas paraître techniquement très avancé, le projet se base sur des images numériques à très haute résolution et sur la possibilité, pour un internaute lambda, de les télécharger et les afficher convenablement, ce qui n’aurait pas été possible il y a seulement quelques années.  

Bossa nova

Afin de faciliter l’accès à des projets de ce genre, le Dr Anderson a récemment lancé une nouvelle plate-forme « libre » appelée BOSSA (Berkeley Open System for Skill Aggregation ou Système Ouvert de Berkeley pour l'Agrégation des Compétences), qui vise à réaliser pour la « réflexion partagée » ce que BOINC a fait pour le calcul partagé. L’un des premiers clients du Dr Anderson est Peter Amoako-Yirenkyi, de l’université des sciences et technologies de Kwame Nkrumah à Kumasi au Ghana, qui travaille avec d’autres chercheurs africains et un groupe de recherche appelé UNOSAT qui retraite des données numériques satellitaires pour diverses agences onusiennes.  

Ce projet, qui fait partie de l’initiative Africa@Home sous la coordination de l’université de Genève, recrutera des volontaires afin d’extraire des informations cartographiques utiles, telles que la position des routes, des villages, des champs, etc., à partir de photos satellite de régions africaines dont les cartes sont complètement obsolètes, voire inexistantes. Cela devrait beaucoup aider les autorités régionales en charge de l'aménagement du territoire, les travailleurs humanitaires et les chercheurs qui décrivent les effets des changements climatiques. Le Dr Amoako-Yirenkyi est enthousiasmé par les débouchés d’un tel projet pour les chercheurs africains. « Nous pourrons nous passer des centres de calcul et nous brancher directement sur un ordinateur global », dit-il. Plutôt que de s’inquiéter du fossé numérique, les chercheurs des pays en développement ont tout à bénéficier de l’effet multiplicateur qui en découle.