NL FR EN
www.belgium.be

Analyse statistique d'association et de dépendance pour des données complexes

Projet de recherche P6/03 (Action de recherche P6)

Personnes :

Description :

Une tâche essentielle de la statistique est d’analyser de façon appropriée la dépendance et l’association se trouvant dans un ensemble de données. Les données collectées aujourd’hui afin d’analyser ces structures de dépendance sont très souvent d’une nature complexe et les questions de recherche sont elles-mêmes de plus en plus difficiles à résoudre. Ces questions nécessitent de construire de nouveaux modèles statistiques ou d’adapter des modèles existants. Pour faire face à la complexité des données, de nouvelles méthodes et une interaction soutenue entre différents experts sont également nécessaires.

L’objectif global du réseau est le développement de nouveaux modèles et outils méthodologiques en vue de développer de nouvelles techniques d’inférence et d’analyser ces structures complexes de données. Pour atteindre cet objectif, le réseau sera structuré en cinq modules de travail, selon les différents types de complexité rencontrés dans les données.

1. Module 1: Données multivariées sous des contraintes qualitatives

Dans l’analyse statistique, la quantité que l’on souhaite estimer ou tester est très souvent soumise à certaines contraintes qualitatives naturelles dont on doit tenir compte dans l’inférence. Comme exemple de telles contraintes, on peut citer les bornes naturelles (par exemple en analyse de frontière), la monotonicité, la convexité, l’ellipticité ou l’indépendance de composantes inobservées, l’unimodalité ou les représentations creuses. Les contraintes qualitatives apparaissent également dans les techniques de réduction de dimension, dans l’analyse de données fonctionnelles, ou en travaillant sur des problèmes inverses. Un large spectre de techniques statistiques est nécessaire pour analyser ce type de données. En se basant sur les résultats obtenus lors de la précédente phase (Phase V) du réseau, de nouvelles questions de recherche seront étudiées dans ce domaine, comme par exemple l’estimation de frontières stochastiques, l’utilisation de techniques de réduction de la dimension pour des données incomplètes, etc.

2. Module 2: Données temporelles et spatiales

Les méthodes basées sur l’analyse en composantes principales pour prédire une simple variable sur la base d’un panel de séries chronologiques, sont largement utilisées en économie, et seront étudiées et comparées dans ce module. Le travail sur les modèles à facteur dynamiques, déjà développés durant la Phase V du réseau, sera poursuivi. Un autre sujet de recherche qui sera développé dans le réseau est l’étude des séries chronologiques non-stationnaires. Les résultats dans le domaine des séries temporelles localement stationnaires, qui ont été intensément étudiées durant la Phase V, seront poursuivis avec une direction particulière dans les tests d'ajustement, de l'inférence adaptative et de la modélisation spatiale. Une approche unifiée sera introduite dans le but d'étudier conjointement plusieurs types de non-stationnarité (tels que les modèles à coefficients variables dans le temps, les modèles à racines unité,…)

3. Module 3: Données incomplètes

Plusieurs types de données incomplètes sont rencontrés en pratique: les données manquantes, censurées (avec censure à droite, par intervalle,…), tronquées, mal classifiées, détériorées (« coarse »),… Ce module mettra surtout l’accent sur les données censurées et manquantes. En particulier, le travail réalisé au cours de la Phase V sur l’estimation nonparamétrique de données censurées et sur l’analyse de modèles frailty, sera poursuivi. Le module s’attachera également à modéliser conjointement les données répétées et les données de survie. L’analyse de données manquantes s’orientera vers l’analyse de la sensitivité, et sur une combinaison de structures latentes et des modèles mixtes et de mélange. Un autre sujet de recherche traité par le module concerne l’estimation d’effets induits par des expositions mesurées avec erreurs dans les études randomisées.

4. Module 4: Données avec hétérogénéité latente

L’hétérogénéité inobservée peut être modélisée de différentes manières. Une modélisation naturelle utilise les modèles mixtes, qui ont été intensément étudiés durant la Phase V. L’expertise acquise ouvre la porte à l’étude des modèles mixtes dont la dépendance des résidus est partiellement spécifiée conditionnellement aux valeurs des effets aléatoires, ainsi qu’aux modèles linéaires mixtes généralisés. Pour ces derniers modèles, des modèles flexibles pour la distribution des effets aléatoires seront investiguées, comme par exemple des mélanges de Normales pour l’approximation de bases B-splines.

5. Module 5: Données en grandes dimensions et données composées

Dans de nombreuses applications utilisant la génomique, la protéomique, la métabolomique, etc., les données à analyser possèdent typiquement un très grand nombre de variables. L’information présente dans ces bases de données contient souvent beaucoup de bruit sous la forme d’information non pertinente et des variables masquantes. De plus, l’information pertinente peut provenir de différents types de source. Les défis principaux dans ces bases de données concernent la détection de structures en grandes dimensions, le filtrage du bruit et des éléments d’information non pertinentes, les tests multiples en présence d’un grand nombre de variables, et le développement d’une inférence plus forte à l’aide de combinaisons adéquates des différentes parties de données disponibles. Afin de traiter ces problèmes, des techniques non- et semiparamétriques adéquates seront développées (incluant des méthodes de lissage), pouvant être utiles dans la réduction de bruit, une réduction appropriée de la dimension du problème, et des techniques de clustering (incluant les méthodes de modèles de mélange) pour les données à hautes dimensions multi-tableaux, et les méthodes de fusion de données dans lesquelles plusieurs éléments de données multiblock multiset sont modélisés conjointement.

Des liens croisés entre les cinq modules seront établis à au moins trois niveaux différents:

I. Complexités combinées dans les données
Dans les situations pratiques, les données rencontrées combinent souvent plusieurs types de complexité étudiés dans différents modules. Des méthodes seront développées pour traiter de façon adéquate ces complexités croisées. Ces méthodes nécessiteront plus de travail que la simple concaténation des résultats obtenus dans les cinq modules, car en considérant, par exemple, les données manquantes dans un contexte multivarié, de nouveaux types de complexités apparaissent.

II. Approches communes de modélisation
L’étude de la dépendance est un sujet récurrent dans l’ensemble des modules ci-dessus. Des modèles communs seront considérés pour analyser ces dépendances, incluant l’utilisation de modèles de copules, de modèles de régressions basés, par exemple, sur différentes techniques de réduction de la dimension et de modèles à effets aléatoires comme par exemple les modèles linéaires mixtes généralisés. Dans le réseau, ces différentes approches seront comparées au niveau théorique et sur base de l’analyse de bases de données de référence.

III. Méthodes et outils communs
Les différents modules sont également reliés par une utilisation commune de certains outils, comme les techniques de lissage par noyau, l’inférence semiparamétrique, l’inférence Bayésienne, l’optimisation, la randomisation et le bootstrap. Les développements réalisés sur ces outils seront échangés parmi les modules, et des résultats génériques sur ces outils seront développés, permettant leur usage dans une grande variété de situations.

Documentation :