Comment le projet Human Proteome Folding continue à contribuer à la science

 

article source

traduction pour l'AF par Modesti, relecture par Cocagne


29 juil. 2016

Récapitulatif
Rich Bonneau, responsable technique du projet Human Proteome Folding, nous a récemment expliqué comment le projet a contribué à des avancées dans son travail, ainsi qu'à des avancées dans la compréhension de la structure et de la fonction des protéines. Cette mise à jour inclut une présentation de diapositives et un enregistrement audio de notre interview ainsi que des extraits écrits.


Le projet Human Proteome Folding (HPF) était la première étude mise en ligne sur le World Community Grid. Le Dr Rich Bonneau, qui a dirigé les deux phases du projet, nous a récemment expliqué comment les données et le code de ce projet continuent à aider à faire avancer les connaissances dans le domaine de la biologie des systèmes, y compris son implication actuelle dans des projets liés aux soins médicaux.

Vous pouvez visionner les diapositives avec l'intégralité de la bande audio de l'interview ci-dessous [en anglais]. Vous pouvez aussi lire des informations sur le contexte du projet et des extraits de l'interview en-dessous des diapositives.

https://youtu.be/ptxNeg8rlLg

Contexte
Tout ce qui se passe dans les cellules et dans le corps est contrôlé par la forme des protéines qui permet à certaines protéines de s'emboîter avec d'autres ou pas. Les protéines peuvent avoir des fonctions positives, comme aider à maintenir les cellules en bonne santé. Dans certains cas, des maladies peuvent empêcher les protéines d'exécuter leurs fonctions nécessaires pour de maintenir les cellules en bonne santé.

Connaître la forme des protéines aide les chercheurs à comprendre comment ces protéines réalisent les fonctions souhaitées. Les protéines d'un virus ou d'une bactérie, par exemple, peuvent avoir des formes particulières leur permettant de s'introduire à travers la membrane cellulaire et donc d'infecter les cellules.

Pour davantage de contexte sur les fonctions des protéines, vous pouvez lire cette description détaillée de Scitable par Nature Education.

Le projet Human Proteome Folding (HPF) s'est déroulé en deux phases. L'objectif de la première phase était de déterminer la structure des protéines afin de prédire leurs fonctions. L'objectif de la seconde phase était d'augmenter la résolution ou la précision des prédictions pour un ensemble de protéines humaines sélectionnées.


Bonneau Lab, 2016
Dr Rich Bonneau (debout, tout à fait à droite) et des membres de son laboratoire

Extraits de l'interview
Question 1: Pouvez-vous nous donner un aperçu sur comment les données ou les outils qui ont été développés pendant ou à l'issue du projet ont influencé votre travail suivant?

[Le projet] nous a donné la possibilité de penser à chaque protéine du protéome. Il nous a mené dans un grand nombre de directions inattendues. L'une d'entre elles est que nous avons besoin d'avoir un jeu de protéines dont nous pensons qu'elles n'ont aucune fonction. Il existe des milliers de fonctions [connues] des protéines, comme pour les enzymes qui produisent une certaine réaction. Mais si nous n'avons pas d'exemples négatifs - si nous n'avons pas d'exemples de ce que quelque chose n'est pas - alors il est plus difficile de classifier ce que quelque chose est. Le fait d'avoir cette ressource détaillée nous a donné les outils pour utiliser la structure afin d'identifier des cas fiables où des protéines qui n'avaient pas de fonction pouvaient servir d'exemples d'entraînement négatifs. Si vous pouvez évaluer des exemples négatifs, alors vous êtes dans une meilleure position pour créer des classifiants à discrimination fine pour les protéines.
Par ailleurs, le projet Human Proteome Folding nous a inspiré pour penser à ce que nous pourrions faire si nous avions des structures de haute qualité pour un grand nombre de protéines. Cela nous a conduits à un projet récent, utilisant le code du projet HPF ainsi que quelques-unes de ses données, dans lequel nous essayons d'interpréter des variations génétiques humaines. Nous prenons des mutations génétiques vues dans le cadre médical ou de personnes dont le génome a été séquencé dans le cadre d'autres études, et nous créons des modèles structurels de l'apparence de ces mutations.

L'idée que nous pourrions produire des modèles fiables pour 70% des protéines ayant des mutations cliniques aurait été impensable encore dix ans en arrière. Mais maintenant... Nous avons récemment publié un article dans le Journal sur la Recherche sur les Acides Nucléiques (Journal of Nucleic Acids Research) décrivant un outil appelé VIPUR (Variant Interpretation and Prediction Using Rosetta - interprétation et prédiction de variantes en utilisant Rosetta), qui prend des mutations et des structures et dit si ces mutations auront des effets dommageables ou pas.

Il en ressort que la plupart des mutations dans la plupart des protéines du génomes n'ont que peu d'effets, voire pas d'effet du tout, mais quelques mutations cassent des protéines essentielles. Nous voulons trouver ces mutations critiques et les donner à des cliniciens et des biologistes pour qu'ils puissent séparer les mutations délétères des non-délétères. C'est l'un des rares cas où, dès que vous résolvez le problème scientifique de base, l'application est immédiate car les mutations sont souvent d'une importance clinique directe vu qu'elles sont souvent la cause directe d'une maladie.

Question 2: Comment les données du projet ont-elles été partagées et utilisées avec d'autres chercheurs?

Nous sommes un des très nombreux groupes qui travaillent sur ce genre de sujet. En fait, nous allons bientôt co-sponsoriser une conférence dédiée à la compréhension des mutations dans les protéines. Beaucoup de personnes viendront avec différentes approches et ce sera un libre échange d'idées. Notre approche, qui utilise la prédiction de structure, en est une parmi cinq ou six. Nous espérons pouvoir mettre toutes ces différentes approches ensemble.

Une approche à plus grande échelle est que nous savons souvent que des maladies ont une part d'hérédité, mais nous ne connaissons pas exactement les gênes impliqués. Nous pensons qu'en ajoutant automatiquement des approches structurelles à des études existantes, nous pourrons séparer les mutations qui déplient les protéines. En mettant de l'ordre dans ces mutations, nous pouvons contribuer au décodage d'études à grande échelle existantes. Nous collaborons, par exemple, à un projet cherchant à comprendre les mutations dans des personnes souffrant d'autisme et d'autres n'en souffrant pas.

Les données du projet HPF ont été partagées à travers différents sites internet depuis le début du projet. Un des points clés de ce projet était que nous avions reçu des retours disant qu'il était utile à d'autres scientifiques, avant qu'il ne soit terminé. Nous avons souvent été cités par des personnes qui utilisaient nos fonctions de prédiction. Collectivement, je pense que l'ensemble des articles [au sujet des données de HPF] comporte environ 40 ou 50 citations.

Ce que nous avons fait de différent avec le code VIPUR, c'est que nous l'avons ciblé sur des étiquettes cliniques de protéines - zéro, neutre, pathogène, bénin, etc. Ce travail est tellement novateur que nous n'en connaissons pas encore l'impact. Beaucoup de personnes étaient intéressées par le code, nous en avons aidé beaucoup à mettre en place le code et nous avons distribué des prédictions de mutations sur la base de notre travail à d'autres encore.

Question 3: Vous avez désormais un poste supplémentaire. Pouvez-vous nous en dire un peu plus?

Quand j'ai commencé à travailler avec IBM [sur le projet HPF], j'étais professeur à l'université de New York (NYU). Depuis, je suis devenu responsable de groupe au Centre de Bio-informatique de la Fondation Simons (Simons Foundation Center for Computational Biology). Il s'agit d'un nouvel institut de recherche à but non lucratif, financé par la Fondation Simons. Heureusement pour moi, il se trouve à New York City, ce qui m'a permis de garder mes liens avec NYU. Mon temps est partagé à peu près à parts égales entre les deux postes.

Cette nouvelle institution est agréablement interdisciplinaire. Il y a des personnes qui étudient les mathématiques appliquées, l'informatique, la biologie moléculaire et la neuroscience informatique. L'institut n'a qu'un an et demi, nous en sommes donc à la très excitante phase de démarrage.

Question 4: Quels secteurs de votre domaine pourraient bénéficier de la puissance de calcul du World Community Grid?

La structure [des protéines] restera un problème délicat qui pourrait utiliser la puissance du World Community Grid. Il y a eu de nombreuses avancées en instrumentation physique qui nous donnent de meilleures données structurelles biologiques. Le fond du problème est qu'il y a beaucoup plus d'informations disponibles venant de nouvelles techniques expérimentales et informatiques que nous ne pouvons en utiliser pour créer des expérimentations.

La nouvelles technologie au laboratoire entraîne le besoin de nouveaux calculs, ce qui vous donne des réponses qui ne font que soulever de nouvelles questions et entraînent des technologies encore plus étonnantes. A l'heure actuelle, en biologie structurelle, je pense qu'il y a des calculs géniaux dans le domaine génomique qui pourraient être intégrés au World Community Grid.

Si vous rassemblez toutes ces nouvelles technologies génomiques, le besoin d'assembler les données dans un modèle commence à dépasser un peu les capacités d'un petit ordinateur. Je pense que le World Community Grid restera nécessaire encore longtemps.