NL FR EN
www.belgium.be

Catalogues et banque de données de collections scientifiques

Projet de recherche DI/05 (Action de recherche DI)

Personnes :

  • M.  DANON Eric - Institut Royal des Sciences Naturelles de Belgique (IRSNB)
    Coordinateur du projet
    Partenaire financé belge
    Durée: 1/11/2005-1/1/2012
  • Prof. dr.  BACKELJAU Thierry - Institut Royal des Sciences Naturelles de Belgique (IRSNB)
    Partenaire financé belge
    Durée: 1/11/2005-1/1/2012
  • M.  VANGELUWE Didier - Institut Royal des Sciences Naturelles de Belgique (IRSNB)
    Partenaire financé étranger
    Durée: 1/11/2005-1/1/2012

Description :

Le problème de la numérisation à l'IRSNB est incompréhensible si on ne comprend pas le but de la collection et si on ne mesure pas la quantité et la variété des objets concernés. Les objectifs fixés dans le cadre de ce projet ne représentent qu'une infime partie des collections de l'IRSNB pouvant faire l'objet d'un travail de numérisation et de digitalisation comme en témoignent les résultats de l'étude du bureau Van Dijk menée en 2002-2003 recensant à ce moment-là pour l'IRSBN pas moins de 46 collections classées suivant la nature des objets qui les composent (livres, périodiques, archives, données scientifiques sous forme "analogique" ou 3D, photos, plans, …).

Le choix des objectifs du projet DI/00/05 a été guidé par ce qui a été, est et sera encore dans les prochaines années la priorité numéro une des activités de digitalisation du patrimoine scientifique de l’IRSNB : la numérisation des catalogues de ses collections scientifiques dont historiquement la quantité d’objets qui y sont conservés est estimée entre 35 et 37 millions.

Les collections de l’IRSNB, et notamment celles concernant la zoologie, font parties des plus importantes tant au niveau européen que mondial. Le nombre de spécimens "type" en collection est estimé à 110.000 exemplaires. La priorité est donc mise sur la numérisation du catalogue de ces exemplaires uniques (holotypes et paratypes, mais aussi allotype, cotype, genotype, lectotype, neotype, paralectotype, plastotype, plesiotype, syntype et topotype). Les données de base ainsi que les références aux descriptions originales seront encodées dans DaRWIN, logiciel commun de gestion des collections (base de données développée par le service ICT de l'IRSNB) par du personnel engagé grâce au projet mais aussi par du personnel sur fonds propres et encadrés par des scientifiques, gestionnaires de collections.

Les résultats sont excellents: fin février 2012, 27.221 enregistrements avaient été encodés dans DaRWIN, représentant l'information concernant 71.687 objets « type » en collection (soit 65,17% du total historique estimé).

Le projet visait également la numérisation d’environ 500.000 échantillons de « matériel belge » (selon les objectifs initiaux). Au début du projet, seule une infime partie des collections "belges" (vertébrés récents, invertébrés, entomologie, paléontologie, minéraux et données géologiques) se trouvait sous forme informatisée. Le but de cette première phase était donc d'encoder dans DaRWIN (à l'instar du matériel type) une sélection de spécimens "belges" en collection pour lesquels les données de base sont connues.

Au fur et à mesure de l'avancement du projet, même si la priorité a toujours été mise d'abord sur l'encodage des données relatives aux collections dites « belges », mais afin de ne pas ralentir le rythme de travail des encodeurs, la numérisation s'est également étendue à d'autres collections de spécimens présents dans nos collections et dont les données étaient également prêtes à l'encodage. Fin février 2012, 411.408 records étaient présents dans DaRWIN (soit 82,28% de l'objectif initial du projet), représentant l'information concernant 2.449.171 objets en collection !

Une fois encodées, toutes ces données (tout comme celles relatives au matériel type) sont immédiatement disponibles via l'interface WEB de consultation de DaRWIN: http://www.naturalsciences.be/darwin.

Parallèlement, un effort a également été apporté à l'encodage des données relatives aux collections du département d'anthropologie et de préhistoire de l'Institut, ces dernières nécessitant une approche différente (besoins spécifiques) pour leur gestion. Pour ce faire, toute l'information est encodée dans une plateforme dédiée (« MARS »), développée à partir de solutions « open source » dans le cadre d’un projet également financé par le SPP Politique scientifique (BELSPO).

Il ne faut pas oublier le catalogage des 500.000 données de baguage qui constituait le 3ème et dernier objectif du projet: au 31 août 2009, nous avions atteint le chiffre de 548.268 fiches de baguage dans le logiciel Papageno (les données qui y sont encodées sont conformes au format EURING), dépassant ainsi l'objectif initial de presque 10%! Les données concernant le travail de baguage en Belgique sont centralisées depuis 1926 à l'IRSNB. Seule la base de reprises qui comprend 450.000 données était jusqu'à présent complètement informatisée. Les autres données (plus de 15.000.000 d'enregistrements) étant pour la plus grande partie uniquement disponibles sur des fiches manuscrites. Il s'agissait donc d'encoder un ensemble de données présélectionnées parmi ces 15.000.000 de données (sélection retenue: grandes espèces d'oiseaux - bagues larges, 500.000 données) dans le logiciel Papageno utilisé depuis plusieurs années à l'IRSNB.

Pour mener à bien ce genre de projet de numérisation, il faut du temps et du personnel, rien n’ayant encore réussi à remplacer la saisie humaine des données des inventaires. En effet, les inventaires ont un but de recherche. Les règles ont changé, les normes de nomenclature aussi, il ne suffit donc pas de scanner les fiches d’inventaire avec un logiciel de reconnaissance de caractères, il faut transcrire les données existantes dans les formats reconnus internationalement par la communauté scientifique. La numérisation s’accompagne d’une vérification. Il faut donc des opérateurs ("encodeurs") formés et un encadrement scientifique suffisant sans oublier, pour ce qui concerne les aspects informatiques, le personnel ICT nécessaire au développement, à la gestion et au support de ce genre d'outil.

On peut donc conclure que cette phase du projet DI/00/05 se termine sur un bilan des plus positifs : outre les résultats chiffrés remarquables, ce projet a été un véritable moteur pour la mise en œuvre d'un plan institutionnel de numérisation des collections permettant non seulement la mise en place de processus communs de travail (personnel, objectifs, logiciels, …) mais aussi la mise en ligne du résultat de cette digitalisation rendant ainsi possible l'accessibilité en temps réel de notre patrimoine au grand public, aux chercheurs et aux spécialistes du monde entier.

L’IRSNB dispose maintenant aussi d’une plate-forme de gestion pour ses collections scientifiques (entomologie, vertébrés, invertébrés, paléontologie et géologie) opérationnelle, commune, basée sur des technologie indépendantes de toute contrainte commerciale et/ou propriétaire, adaptée au mieux aux usages de gestion de collections d’Histoire Naturelle et permettant, par le respect des standards internationaux, l’échange de données vers d’autres plateformes internationales (cf. Biocase & Geocase pour l’instant). Mieux encore, de nouvelles synergies entre l’IRSNB et d’autres institutions scientifiques semblent prendre forme autour de DaRWIN par la mise en commun de compétences, d’expérience et de capacités de développement.

Mais le travail de digitalisation à l’IRSNB est encore très loin d’être fini! Il ne s’agit ici qu’une première étape, un tremplin vers de nouveaux objectifs qui même s’ils s’articuleront dans les prochaines années encore exclusivement autour de la poursuite de la numérisation rigoureuse des catalogues de nos collections scientifiques qui reste notre priorité absolue, d’autres perspectives de digitalisation 2D/3D d’objets en liaison directe avec des spécimens à des fins de préservation émergent. On atteindrait alors un nouveau palier dans le processus de digitalisation de notre patrimoine. Ces informations croisées renforceraient sans nul doute l'intérêt dont pourrait témoigner le grand public à consulter nos données (rendues ainsi plus accessibles) mais fourniraient également des informations scientifiques complémentaires aux spécialistes du domaine.

Documentation :

Catalogi en databank van wetenschappelijke collecties (Phase 1) : eindrapport  Emery, Cathy - Semal, Patrick - Lenglet, Georges ... et al  Brussel : Federaal Wetenschapsbeleid, 2012 (SP2520)
[Pour télécharger