NL FR EN
www.belgium.be

Développement des méthodes statistiques indispensables à la compréhension des systèmes dynamiques complexes dans les sciences naturelles, sociales et biomédicales

Projet de recherche P7/06 (Action de recherche P7)

Personnes :

Description :

Les systèmes stochastiques sont influencés par les caractéristiques internes du système, mais peuvent aussi bien dépendre (interactions avec) des facteurs externes, et peuvent évoluer dans le temps et/ou l'espace. L'objectif principal de ce réseau PAI est de développer des méthodes statistiques qui sont cruciales pour la compréhension complète de certaines catégories de systèmes dynamiques complexes, et de les utiliser pour répondre à des questions compliquées dans des applications bien précises.

Grâce aux progrès technologiques, la complexité de la structure globale des données est souvent très difficile: différents types de données, plusieurs sources d'informations sur un même sous-système, très peu de mesures sur un grand nombre de caractéristiques, .... Bien qu’avoir plus de données qui proviennent de différentes sources ne peut qu’être positif, le traitement et l'extraction de l'information cruciale et fondamentale devient un véritable défi.

A titres d’exemple de systèmes stochastiques complexes, où de tels défis se posent, citons :

(a) Selon WHO, la dépression deviendra très vite le problème de santé qui pèsera le plus sur la société, à la fois économiquement et sociologiquement. Comprendre la dépression et les troubles affectifs, et plus généralement les aspects émotionnels de l'être humain est, cependant, un problème extrêmement complexe, parce que les émotions sont: (1) des phénomènes très multiformes et multicouches qui comprennent une large gamme de composants du système (intrinsèquement) reliés les uns aux autres (y compris les composants cognitifs, expérientiels, et physiologiques), (2) des phénomènes intrinsèquement limités dans le temps et qui ne peuvent être mesurés correctement que si on tient compte adéquatement de leurs dynamiques temporelles, (3) sujet à d'importantes différences individuelles, qui jouent également un rôle majeur dans le développement de psychopathologie.

(b) Une leçon principale de la récente crise économique et financière est que la détection en temps réel du risque macroéconomique exige la compréhension des interactions potentiellement dangereuses entre un grand nombre de marchés et d'institutions. Cela nécessite l'analyse du comportement dynamique commun d'un grand nombre de séries chronologiques. Des situations semblables sont très fréquentes dans les études économiques, par exemple les experts en prévision et les décideurs politiques doivent considérer différents indicateurs pour prédire et combiner des variables clés et prendre leurs décisions en fonction de ces prévisions.

(c) Approuver la commercialisation d'un nouveau vaccin et déterminer s'il sera remboursable ou approuver un changement dans le calendrier de vaccination recommandé sont deux des thèmes majeurs de l'épidémiologie des maladies infectieuses. Compte tenu des données limitées disponibles, l'analyse statistique pour déterminer la stabilité et le dynamisme dans le temps et l'espace ainsi que l'âge spécifique et le rapport coût-efficacité doit tenir compte des complexités et des incertitudes des données. Afin de quantifier l'impact sur la dynamique stochastique des maladies infectieuses et les coûts associés, un compte rendu complet des différentes sources d'incertitude et de l'interaction entre les différents (sous) systèmes est nécessaire.

(d) Dans l'industrie alimentaire, une question importante concerne la classification des échantillons de viande, du point de vue qualité et/ou sécurité. Différents types de mesures sur les échantillons de viande sont disponibles, de leur teneur en protéines, matières grasses, et en eau (entre autres) à leur capacité d’absorber des spectres infrarouges. Des questions importantes de recherche sont la discrimination entre les échantillons et leur relation avec différentes caractéristiques. La complexité des données (continues, catégorielles, fonctionnelles, ...) et leurs interdépendances statistiques doivent être pleinement prise en compte pour répondre à ces questions.

Les éléments communs dans ces exemples sont l'enchainement complexe entre les différentes caractéristiques (de natures conceptuelles éventuellement très différentes), mais aussi les différentes couches dynamiques (temps, espace, ...). L'analyse de tels systèmes stochastiques complexes basés sur des structures de données non standards implique des défis importants au niveau de la recherche statistique qui peuvent être traduits dans les objectifs principaux suivants:

1. Comment modéliser et analyser les structures de dépendance entre des variables aléatoires (de natures éventuellement différentes - comme les nombres réels, des valeurs discrètes, des fonctions et des graphiques) qui eux-mêmes peuvent varier: (i) avec d'autres covariables (de natures éventuellement différentes), (ii) dans le temps et/ou l'espace, (iii) différemment dans les queues de distribution;

2. Comment analyser efficacement des données qui varient de façon dynamique, par exemple dans l'espace et dans le temps. Quelles sont les techniques les plus efficaces de modélisation statistique qui intègrent ces différents niveaux de dynamisme?

3. Comment analyser efficacement des données qui sont hiérarchiquement structurées (par exemple les données avec une (certaine) structure « cluster », structure du réseau ou des données manquantes ...)?

4. Comment tenir compte de l'influence de variables non observables dans des systèmes stochastiques complexes? Quelles sont les techniques de modélisation les plus efficaces et des méthodes statistiques associées?

5. Comment choisir parmi un grand, très grand ou immense ensemble de caractéristiques mesurées (de natures éventuellement différentes) celles qui influencent une variable d'intérêt? Quelles sont les techniques dites de régularisation les plus efficaces et comment sélectionner les paramètres de régularisation? Comment tirer des conclusions à partir d’un ensemble de données qui contiennent plusieurs types d'informations concernant le même (sous-)système complexe, et comment faire la fusion des données?

Selon ces objectifs principaux, le travail de recherche dans le réseau sera organisé autour de cinq modules de travail, et un méta module:

Module 1: L'étude des associations et des dépendances dans des systèmes complexes.
La mesure des associations entre les caractéristiques (de type scalaire, fonctionnel, ...) d'un système stochastique peut intervenir à différents niveaux (au cours du temps, dans les queues des distributions, ...). Cette thématique étudie la modélisation statistique des associations et des dépendances dans les systèmes stochastiques complexes, en ce compris des tests pour des structures associatives spécifiques.

Module 2: L'étude des différents dynamismes dans les systèmes complexes.
Un système stochastique peut présenter des dynamiques de types différents (dynamique de temps, dynamique spatiale, ...). Ce module de travail concerne la modélisation efficace de ces différents types de dynamismes, et le développement de méthodes statistiques pour ces systèmes dynamiques complexes.

Module 3 : La modélisation multidimensionnelle des données structurées hiérarchiquement.
L'objectif de ce module est double: analyser les données structurées hiérarchiquement, et utiliser la modélisation hiérarchique dans le but d'éclaircir le dynamisme du système stochastique sous-jacent. Les données de survie, par exemple, sont souvent structurées hiérarchiquement, et présentent des structures complexes d'association, qui peuvent évoluer dans le temps ou l'espace. La modélisation hiérarchique non linéaire spatiale et/ou temporelle des espèces dans l'environnement (par exemple, décrivant le comportement biologique des animaux) est un outil de modélisation important.

Module 4 : Dynamisme d'un système stochastique et l'impact des caractéristiques non observées.
Pour les systèmes complexes, il est souvent impossible d'avoir des observations de toutes les variables importantes. Dans la micro-économétrie, par exemple, le prix d'un bien dans un pays peut aussi dépendre du bien-être des personnes vivant dans ce pays, et ce dernier est difficile à mesurer. Ce module étudie comment faire face aux caractéristiques non observées (latentes) des systèmes dynamiques complexes.

Module 5 : Choix de variable et/ou de modèle et étude de données de (très) grande dimension.
Le nombre de caractéristiques observées (variables) peut être important ou même gigantesque, par rapport au nombre de personnes (sujets) pour lesquels ces variables sont mesurées. Les méthodes qui permettent de sélectionner automatiquement les caractéristiques importantes (éventuellement de natures différentes) dans les systèmes complexes doivent être développées. Ceci inclut également des situations pour lesquelles le modèle adopté implique que le nombre de caractéristiques croît très rapidement (même à un taux polynomial) avec le nombre de sujets. Même pour un ensemble de caractéristiques sélectionnées, plusieurs modèles peuvent être envisageables, et se pose alors la question de la sélection du modèle.

Méta Module : L’utilisation des méthodes développées.
Dans ce module, nous visons, par des interactions continues avec les autres modules, à répondre aux questions spécifiques dans des domaines d'application ciblés, en particulier dans l'économétrie, sciences biomédicales, sciences humaines et naturelles. Entre autres, nous nous référons aux questions difficiles dans a)-d). D’une part, ces questions épaulent sont la base de la motivation des questions de recherche et d'autre part, elles serviront à démontrer l'impact de la recherche prévue sur les domaines d'application.

Chaque module met l'accent sur des aspects différents de la complexité d'un système stochastique dynamique, et seuls leurs synergies et leur succès communs conduiront à une analyse statistique globale et complète du système. Un niveau élevé d'interaction entre les différents travaux est indispensable, et sera stimulée par:

(i) la synergie nécessaire dans le méta module de travail;
(ii) l'utilisation commune de l'état de l’art des outils statistiques et les compétences complémentaires au sein du réseau: les techniques de modélisation flexibles, techniques de modélisation hiérarchique, techniques de représentation parcimonieuse, méthodes de réduction des dimensions, techniques d'agrégation des données et la fusion de données; méthodes basées sur le rang et méthodes robustes;
(iii) les activités spécifiques de gestion et de mise en réseau (chercheurs postdoctoraux conjoints, doctorat avec des comités interuniversitaires, des groupes de travail ciblés, …