Performance record pour la recherche d’images dans les très grandes bases de données
L'analyse d'image et la reconnaissance des formes est un outil
émergent dans le domaine médical. Deux
projets Boinc ont été lancé sur la
base de cette technologie qui nécessite
énormément de puissance de calcul :
Help Defeat
Cancer (World Community Grid) dont le but est de
construire une base de donnée des tissus et tumeurs
cancéreuses. Cette base de
donnée sera consultable par tous les
médecins à travers le monde, les tissus
cancéreux des patients pourront alors
être analysés, archivés et
partagés automatiquement, pour fournir un diagnostic
informatique extrêmement précis. A terme, cet
outil devrait offrir une aide au diagnostic, afin de renforcer
où infirmer les conclusions des cancérologues.
L'objectivité, la reproductibilité et la
précision de la technique informatique permettra de venir
contrebalancer la subjectivité inérante au
diagnostic du médecin. Les calculs du projet se sont
achevés le 3 Avril 2007, les derniers
développements ont été
exposés dans un
message du Dr Foran le 12 Juin dernier.
Le projet Lutte
contre le Cancer (World Community Grid) de
l'Université de Toronto. Le but de ce projet
lancé le 6 novembre dernier est d'amener à une
meilleure compréhension des principes sous-jacents
à la cristallographie des
protéines. Pour se faire, c'est plus de 86 millions
clichés de cristaux de protéine qui
seront traités. Chaque image sera
analysée par le programme de reconnaissance de forme
"CrystalVision",
qui déterminera le résultat des
analyses de cristallisation (cristal,
microcristal, séparation de phases, effet de peau,
précipité ou pas de
changement). Cette base de donnée exige plus de 25
To d’espace de stockage (l’équivalent de
9 000 DVD).
La reconnaissance des formes sera très certainement la
prochaine grande innovation des moteurs de recherche au cours des
prochaines décennies. Aujourd'hui, il est possible de faire
des recherches en partant d'un mot, d'une suite de mot ou d'une
expression. Dans le cas de la recherche d'images, les moteurs de
recherche utilisent un moyen détourné en faisant
des recherches sur le texte situé à
proximité d'une image. La technique est imparfaite puisque
la personne qui publie une photo ne décrit jamais en
totalité tous ce qu'il s'y trouve, et assez souvent l'auteur
de la photographie ignore le nom des objets, animaux,
végétaux, individus qui y apparaissent.
La grande révolution des prochaines décennies
offrira la possibilité de partir d'une image
donnée puis de trouver toutes les images similaires. Par
exemple, de partir d'une photo de fleur et de trouver toutes les photos
dans le monde ou le même type de fleurs
apparaîssent, y compris sur des photos de paysage ou
appaissent des milliers de fleurs et de végétaux
différents (à la condition que la
résolution
de la photographie soit suffisante). De partir de la photo d'une
personne, puis de trouver sur internet toutes les photos où
cette personne apparaît, puis ensuite des photos ou
apparaissent des sosies plus ou moins proches. La prochaine
étape à plus long terme sera
d'intégrer dans ces moteurs
de recherche nouvelle génération toutes les
images contenues dans
toutes les vidéos disponibles sur internet.
Après se posent les même problèmes
d'éthique qui se sont posés lors du lancement
d'internet et des moteurs de recherche de texte, avec la
possibilité de trouver énormement d'information
sur une personne à son insu. Pour les moteurs de recherche
de texte, il est possible de détourner le
problème en utilisant un pseudo au lieu de son nom et de son
prénom usuel, mais dans le cas de la reconnaissance des
formes d'une image, aucune parade n'existe, à part celle qui
consiste à se ballader constament avec une cagoule sur la
tête.
C'est dans ce contexte de recherche extrêmement
compétitive dans ce domaine, que le CEA et l'entreprise
française
Bull viennent d'annoncer une importante innovation. Le
moteur développé par l'organisme de recherche
public français permet d'effectuer une recherche
à la vitesse de 3,7 millions images par seconde, soit 5
fois plus rapidement que précédement. Un
aperçu des possibilités offertes par ce moteur
de recherche appelé Piria est disponible sur le site
du CEA. Un autre prototype du groupe de recherche (Automatic
Linguistic Indexing of Picture)
est disponible à l'adresse suivante : http://alipr.com/. ALIPR
est actuellement en phase d'apprentissage du monde, vous pouvez l'aider
en chargeant une image puis en la décrivant en anglais.
Le CEA et Bull annoncent
avoir atteint une performance record dans la
recherche d’images dans les très grandes bases de
données. Ainsi, le nouveau moteur permet
d’effectuer une recherche de 3,7 millions d’images
par seconde, ce qui est 5 fois plus rapide que
précédemment. Cette performance record a
été obtenue sur un supercalculateur
conçu et fourni par Bull, en utilisant le logiciel de
recherche multimédia spécialement
développé par le CEA LIST1 dans le cadre du
projet FAME22. Il ouvre la voie à un vaste champ applicatif
allant de la veille stratégique à la comparaison
d’images médicales, des « fouilles
» de données sur Internet au commerce
électronique ou à la gestion de contenu.
Une
technologie
révolutionnaire de recherche d’image aux
applications multiples… Aujourd’hui,
les moteurs sur Internet effectuent des recherches d’images
uniquement à partir de leur description textuelle (noms,
légende). En effectuant les recherches à partir
de l'analyse du contenu des images, le moteur de recherche Piria3
développé par le CEA, apporte une solution
beaucoup plus puissante, ouvrant la voie à un vaste champ
applicatif : de la veille stratégique à la
comparaison d’images médicales, des «
fouilles » de données sur Internet au commerce
électronique ou à la gestion de contenu. Le CEA
LIST, qui mène des recherches en ingénierie de la
connaissance multimédia multilingue, développe
depuis plusieurs années des techniques
d’extraction de connaissances pour améliorer la
pertinence des résultats. Le principe de la recherche
d’images par le contenu est de calculer, pour chaque image de
la base, une signature visuelle ou codée et de regrouper ces
signatures dans un index. La requête,
matérialisée par une image, donne lieu
à une réponse sous forme d’images
similaires. Ces techniques de recherche par le contenu, qui analysent
en premier lieu la valeur des pixels, sont intrinsèquement
très consommatrices en calcul.
…
aujourd’hui rendue possible par la maîtrise des
très grandes puissances de calcul Dans le
cadre du projet FAME2 auquel participe le CEA, les chercheurs ont pu
accéder à de puissants moyens de calcul haute
performance pour tester l’application de recherche
d’images Piria dans une base de données de grande
dimension. Le test a
nécessité l’adaptation du
code du moteur Piria à l’architecture
parallèle du supercalculateur
développé par Bull (88 coeurs de processeurs
Intel® Itanium® et 50 téra octets de
disque), permettant d’intégrer la base de 22
millions d’images d’un volume de 2,9
Téra octets. Cette action, pilotée par le
CEA/DAM4, a fait l’objet d’une collaboration
étroite entre les équipes du CEA LIST et de Bull.
Les résultats de ce développement ont
été présentés durant
l’été 2007 : les 22 millions
d’images ont été indexées en
moins d’une semaine de calcul, en exploitant 48 coeurs de
processeurs Intel® Itanium® du supercalculateur ; une
fois la base de données indexée,
l’utilisateur peut soumettre sa requête depuis son
navigateur et obtenir des réponses
quasi-instantanées.
Un
record de performance
mondial Le moteur
Piria permet d’effectuer en 6 secondes une recherche parmi 22
millions d’images, au lieu de 15 secondes pour une recherche
d’image parmi 11 millions avec le système Cortina,
système de recherche d’images par le contenu
accessible par Internet et développé par
l’Université de Californie de Santa Barbara
(UCSB). Cette épreuve était l’un des
grands défis que le projet FAME2 se proposait de relever. Cette
réussite montre la puissance des technologies de
reconnaissance d’images développées au
CEA LIST sur de très grandes bases de données
comptant plusieurs téraoctets. Ces technologies sont
commercialisées par la société
NewPhenix5.
Cet article a été publié le 05-02-2008 23:41. Vous pouvez suivre les commentaires suscités par cet article grâce au fil RSS 2.0. Vous pouvez laisser un commentaire.
Dernière mise à jour 06-02-2008 17:12
Vos commentaires (0)
Seul les utilisateurs enregistrés peuvent commenter un article.