| Ecrit par TaxxorbaK,
le 14-08-2007 01:24
|
Pages vues : 2387  |
Favoris : Aucun |
Publié dans : Actualités, SIMAP |
Message du 13/08/07 traduit du site du projet SIMAP :
SIMAP a
commencé à
fournir mensuellement des similarités pour les
protéines à grande échelle et
des données caractéristiques pour le projet Gene3D.
Le projet Gene3D
a pour but de
caractériser la distribution des domaines structurels des
protéines dans la
nature et d’utiliser cette information pour accomplir des
recherches sur l’évolution
et la fonction des protéines. Les protéines des
cellules vivantes, codées par l’ADN,
constituent les entités fonctionnelles. Elles ont
à la fois la fonction de
catalyseur, d’où le soutien du
métabolisme cellulaire, et celle
d’unités
structurelles, fournissant structure et organisation aux cellules.
Pratiquement
toutes les protéines sont faites d’un domaine ou
plus. Ces domaines sont des
séquences secondaires semi-indépendantes qui
forment ce qu’on appelle les
pliures, dont on pense qu’il en existe seulement quelques
milliers avec 20 « superpliures »
dominant la majeure partie des structures de domaine.
La base de
données
jumelle de Gene3D,
CATH,
utilise une
suite d’outils logiciels combinée à une
analyse experte pour déterminer les
limites des pliures des données structurelles 3D –
comme celles produites par
la diffraction de rayons-X à travers un cristal –
et hiérarchiser les pliures
selon leurs caractéristiques structurelles et leur
probabilité d’associations
évolutives. Gene3D
prend ensuite les séquences (les protéines sont
composées de chaines d’acides
aminés) et les utilise pour construire des
modèles – connus sous le nom de
Hidden Markov Models (HMMs ou Modèles Cachés de
Markov en Français) – des domaines.
Ces modèles identifient spécialement les
séquences susceptibles d’évoluer en
rapport avec les domaines de base de CATH.
De là, nous
pouvons en conclure qu’elles formeront les mêmes
structures.
Il
y a actuellement
plus de 6000 modèles HMMs dans la bibliothèque CATH-Gene3D.
Ces modèles
sont confrontés à toutes les séquences
de protéines connues (plus de 7
millions) et utilisés pour déterminer leur
domaine de composition. Cela
représente un gros volume de calcul et est normalement
seulement faisable sur
un parc informatique important. La comparaison de l'architecture des domaines
ainsi que l’analyse directe des similarités
des séquences du domaine nous
permet de transférer des connaissances issues de
l’expérimentation du très
petit nombre de protéines décrites au grand
nombre déduits du
séquençage de l'ADN (i.e the Human Genome Project –
Le Projet du Génome Humain)
En outre, il
est possible de déduire directement les
relations fonctionnelles par l’identification des subtiles
signaux de l'évolution, comme pour la co-évolution utilisant le profilage
phylogénétique ;
en pratique, il y a une myriade d’applications. En
conséquence, de nombreuses
recherches basées sur CATH
& Gene3D,
et plus encore
sur les structures de protéines en
général, ont eu un retentissement sur notre
compréhension des stades des maladies ainsi que sur le
développement de
nouveaux médicaments.
Dernière mise à jour : 14-08-2007 11:39
|