Projet de recherche BR/132/A6/AQUARES (Action de recherche BR)
L’utilisation de noms d’organismes est une nécessité pour une large gamme d’applications dans les domaines scientifique ou de gestion environnementale. Les bases de données taxonomiques gérées par des spécialistes, ainsi que les outils pour les exploiter sont essentiels pour assurer la qualité des données biologiques, depuis leur collection, jusqu’à leur gestion et conservation. Une série de systèmes d’information conçus pour suivre l’évolution de l’état de la biodiversité et présentant un intérêt pour les politiques environnementales (Natura 2000, espèces invasives ou d’intérêt commercial) bénéficient déjà de tels outils et de bases de données rendant l’information accessible.
Les bases de données World Register of Marine Species (WoRMS), Register of Antarctic Marine Species (RAMS) et Freshwater Animal Diversity Assessment (FADA) constituent trois systèmes d’information taxonomique globaux (Global Species Directories (GSD)), hébergés en Belgique. Ces systèmes contiennent des données autoritatives, gérées par des experts internationaux, et contribuent au contenu d’autres initiatives, telles que le Catalogue of Life (CoL), LifeWatch, et potentiellement au Pan-European Species directories Infrastructure (PESI) et à d’autres listes d’espèces régionales ou nationales. La plupart de ces initiatives dépendent des contributions d’un grand nombre de spécialistes et demandent des interactions permanentes avec d’importants réseaux d’experts. Etant donné le risque potentiel de duplication, et la nature complexe des données, l’échange d’expertise et de données entre ces initiative est considéré comme étant hautement bénéfiques pour tous les acteurs impliqués.
L’objectif principal du présent projet est d’assurer et d’optimiser l’interopérabilité et la disponibilité des bases de données sur les espèces aquatiques, à travers le développement d’une série de services Web. Ces services garantiront un échange automatique et réactif de données entre WoRMS, RAMS et FADA, tout en permettant d’exposer les données directement à des initiatives telles que Encyclopedia of Life (EoL), Catalogue of Life (CoL), Global Biodiversity Information Facility (GBIF) Biodiversity Virtual e-Laboratory (BioVeL) et LifeWatch.
Pour assurer la qualité des données exposées à travers ces services Web, nous proposons d’améliorer les procédures d’import et d’échange de données entre les bases de données des partenaires, et de développer une interface d’édition des données dédiée à l’information relative à la distribution des organismes. Ces procédures seront testées et utilisées au cours d’ateliers, auxquels seront conviés les experts taxonomiques. Afin de stimuler la participation de ces experts et promouvoir la publication de nouvelles données en « Open Access », nous développerons un outil permettant de générer des « checklists » qui pourront être publiées dans des revues scientifiques, permettant en plus un suivi efficace des citations qui en découlent.
En plus des services Web, nous construiront une copie locale des données (« cache »), qui servira au développement d’une série d’outils conçus pour le contrôle de la qualité des données. Un outil semblable, le TaxonMatch est déjà opérationnel. TaxonMatch utilise actuellement des algorithmes basés sur la logique floue pour faire correspondre des noms de taxons, notamment en utilisant leur prononciation. Cet outil sera appliqué au « cache ». Par ailleurs, d’autres outils spécifiquement orientés vers les données d’occurrence, permettent leur validation par cartographie comparée avec des listes de distribution fournies par les experts, ou par vérification d’erreurs techniques dans les fichiers fournis (telles que formats de date incorrect, champs manquants,…). Ces outils, bien que fonctionnant de manière indépendante, pourraient être incorporés dans des flux de traitement de données qui serviront à des initiatives telles que les European Biodiversity Virtual e-Laboratory (BioVeL), ou aux spécialistes en biodiversité informatique, en combinaison avec d’autre services Web.
Tout au long du projet, nous organiserons des consultations avec une large communauté d’utilisateurs potentiels, afin de documenter leurs besoins et obtenir un retour sur les services et outils développés. Les données du projet BioFresh (FP7), du European Ocean Biogeographic Information System (EurOBIS) et de l’ ntarctic Biodiversity information Facility (AntaBIF) seront utilisées en tant que cas d’étude pour valider et améliorer ces outils. Des tests ultérieurs seront envisagés sur des données relatives à des collections biologiques, ou à du monitoring environnemental, pour s’assurer du potentiel de ces services pour un grand nombre d’instituts et de chercheurs ayant un rapport avec les données sur les espèces aquatiques.