Prototype d'un système d'informations FAME réparti pour une meilleure identification des procaryotes

Projet de recherche C3/012 (Action de recherche C3)

Description
Documentation

Personnes :

Prof. dr. DE VOS Paul - Universiteit Gent (UGent)
Partenaire financé belge
Durée: 1/12/2005-31/3/2008
Prof. dr. DE BAETS Bernard - Universiteit Gent (UGent)
Partenaire financé belge
Durée: 1/12/2005-31/3/2008

Description :

Contexte

L'identification rapide et précise des micro-organismes est un élément clé d'un point de vue biologique, clinique et économique, et s'applique à un large éventail de disciplines telles que la bioremédiation, le diagnostic clinique, la protection de la végétation, la sécurité alimentaire et la gestion des eaux, ainsi qu'à de nombreuses autres domaines. Même si l'énorme potentiel de la reconnaissance automatique des modèles par le biais d'une informatisation de plus en plus intensive et sophistiquée est déjà exploité dans divers domaines de recherche, les applications analogues pour l'identification d'espèces bactériennes restent à un stade embryonnaire. Bien que des projets de prospection à grande échelle indiquent une percée potentielle, il reste un certain nombre de défis techniques à relever. En ce qui concerne l'utilisation systématique des techniques "d'apprentissage automatique" pour l'identification des espèces, il s'avère que les limites doivent encore être fixées. Parallèlement aux questions culturelles et organisationnelles, la disponibilité de moyens financiers suffisants a sans nul doute joué un rôle capital dans les progrès restreints qui ont été réalisés jusqu'à présent. Toutefois, vu la valeur du produit final envisageable - à savoir un système d'identification automatique générique pour les espèces bactériennes, offrant de nouvelles possibilités en perspective d'activités fondamentales et appliquées en microbiologie et dans les domaines connexes, il faut saisir l'occasion d'aplanir ces limites dans un futur proche.

Description du projet

L'identification automatique d'une souche bactérienne sur la base de ses propriétés phénotypiques et génomiques est impossible sans un accès illimité aux résultats bruts de la recherche empirique sur lesquels repose la taxonomie des procaryotes. La génération d'une quantité critique d'observations qui embrassent toute la biodiversité – condition nécessaire pour les systèmes d'identification automatisés - est une vaste tâche qui ne peut être assumée par un seul institut de recherche. C'est pourquoi la meilleure manière d'instaurer des plates-formes à grande échelle pour le transfert des informations biologiques consiste à intégrer les contributions de toute la communauté de recherche, de sorte que les banques de données de différents instituts s'imbriquent l'une dans l'autre. Une telle plate-forme constitue un cadre de travail scientifique où les liens de collaboration étroits entre les microbiologistes, les mathématiciens, les ingénieurs et les informaticiens peuvent offrir de nouvelles approches pour l'identification bactérienne. Elle fournit également une base solide pour l'harmonisation d'une politique internationale et peut apporter des notions fondamentales pour une meilleure compréhension du comportement dynamique de la diversification des procaryotes. La mise en place d'une plate-forme permettant l'échange de connaissances en bactériologie exige de nouvelles découvertes dans la gestion de l'échange global de données, une nouvelle culture dans la relation avec les données scientifiques brutes et la reconnaissance des possibilités des techniques d'exploitation de données afin de mieux comprendre le monde bactérien.

Grâce aux nombreuses améliorations dans le domaine de la calibration automatique et de l'interprétation des profils chromatographiques, il est possible, à l'heure actuelle, de générer rapidement des profils d'acides gras reproductibles, à condition que ces souches soient cultivées dans des conditions déterminées. Par conséquent, l'identification de micro-organismes basée sur l'analyse de leur composition en acides gras cellulaires est devenue routinière dans de nombreux laboratoires. Le temps d'exécution rapide de l'analyse des acides gras permet d'examiner une plus grande partie de la diversité des procaryotes par rapport à des marqueurs génomiques tels que les séquences géniques 16S rRNA ou les informations de séquences polygénomiques. En tant que première étape dans la mise en place d'une plate-forme technologique complexe, ce projet s'orientera donc vers une sorte de prototype sur l'intégration des banques de données d'acides gras qui sont générées automatiquement sur la base du système d'identification microbienne Sherlock au sein des collections de bactéries BCCM\LMG et DSMZ. Il indiquera comment reconnaître de nouveaux modèles dans cette "banque de données carrefour", permettant d'obtenir une meilleure résolution de l'analyse de la composition des acides gras présents dans toute la cellule bactérienne pour reconnaître les espèces bactériennes. Ces découvertes corroborent l'applicabilité de l'extraction de connaissances à partir de banques de données au sein de la microbiologie. Outre l'élargissement de la banque de connaissances, il est également possible d'accroître la précision et la flexibilité de la reconnaissance automatique des espèces en recourant aux toutes nouvelles techniques "d'apprentissage automatique". D'après l'application fructueuse de ces algorithmes dans d'autres domaines de recherche, on peut présager qu'ils seront capables de modeler tout le spectre des unités taxonomiques opérationnelles de manière précise, à condition de pouvoir récolter suffisamment d'exemples théoriques. Enfin, ce projet se penchera également sur les possibilités qu'offre l'intégration des banques de données d'acides gras provenant des divers instituts de recherche pour le contrôle de la qualité du matériel biologique échangé entre ceux-ci.

Modules de travail

Afin de réaliser les objectifs du projet, les modules de travail ci-après ont été dressés:

MODULE DE TRAVAIL 1. intégration des banques de données d'acides gras BCCM/LMG et DSMZ
1.1 gestion intégrée des banques de données de souches
1.2 inclusion de la résolution des noms taxonomiques
1.3 liens entre les banques de données d'acides gras et les banques de données de souches intégrées.
1.4 standardisation du format pour l'annotation des expériences
1.5 analyse du contenu informatif des banques de données FAME intégrées
1.6 évaluation de l'évolutivité du système d'information pour un élargissement ultérieur

MODULE DE TRAVAIL 2. amélioration de l'identification automatique des liaisons d'acides gras
2.1 entreposage des données pour OLAP
2.2 réévaluation des bibliothèques existantes pour la désignation des pics
2.3 tests de stabilité des nouvelles fenêtres d'identification d'acides gras
2.4 définition de la composition chimique des nouvelles fenêtres d'identification d'acides gras
2.5 effet de l'amélioration de l'identification d'acides gras sur la reconnaissance des espèces

MODULE DE TRAVAIL 3. conception de nouvelles stratégies de reconnaissance des espèces
3.1 identification supervisée
3.1.1 gestion des collections d'exemples théoriques
3.1.2 mise en œuvre des méthodes usuelles "d'apprentissage automatique"
3.2 identification non supervisée
3.3 comparaison des stratégies d'identification alternatives : précision et flexibilité

MODULE DE TRAVAIL 4. contrôle de la qualité de l'authenticité du matériel biologique
4.1. évaluation de l'erreur relative à la reproductibilité entre laboratoires
4.2. définition de la liste des souches communes dans les collections BCCM/LMG et DSMZ
4.3. détection des incohérences dans les profils d'acides gras au-delà des limites des laboratoires

Partenaires

Partenaire 1: BCCM\LMG, Universiteit Gent
Promoteur: Prof. Dr. Paul De Vos
Laboratorium voor Microbiologie
K.L. Ledeganckstraat 35
B-9000 Gent, België
Tel: 09 264 51 10
Fax: 09 264 50 92
Email: Paul.DeVos@UGent.be
http://lmg.ugent.be; http://bccm.belspo.be

Partner 2 : KERMIT, Universiteit Gent
Promoteur: Prof. Dr. Bernard De Baets
Onderzoekseenheid Kennisgebaseerde Systemen
Vakgroep Toegepaste wiskunde, biometrie en procesregeling (LA10)
Coupure links 653
B-9000 Gent, België
Tel: 09 264 59 41
Fax: 09 264 62 20
Email: Bernard.DeBaets@UGent.be
http://users.ugent.be/~bdebaets/

Comité des utilisateurs

Membre 1
Contact : Prof. Dr. Erko Stackebrandt
Institut : DSMZ (collection allemande de micro-organismes et de cultures cellulaires)
Adresse : DSMZ GmbH, Mascheroder Weg 1b, 38124 Braunschweig, Allemagne
Tél. : ++49 531 2616 352
Fax : ++49 531 2616 418
E-mail : erko@dsmz.de

Membre 2
Contact : Dr David Smith
Institut : CABI Bioscience
Adresse : CABI Bioscience, Bakeham Lane, Egham, Surrey, TW20 9TY, Royaume-Uni
Tél. : ++44 1491 829046
Fax : ++44 1491 829100
E-mail : d.smith@cabi.org

Membre 3
Contact : Dr Myron Sasser
Institut : MIDI, Inc.
Adresse : MIDI, Inc , 125 Sandy Drive, Newark, DE 19713, Etats-Unis
Tél. : 302-737-4297 ou 800-276-8068
Fax : 302-737-7781
E-mail : myron@midi-inc.com