NL FR EN
www.belgium.be

Techniques statistiques et modélisation pour des questions substantives complexes et données complexes

Projet de recherche P5/24 (Action de recherche P5)

Personnes :

Description :

La tâche essentielle de la statistique consiste à fournir aux chercheurs des outils leur permettant de cadrer leurs questions substantives dans des modèles formels de manière à les rendre accessibles à la recherche empirique. En ce qui concerne cette dernière, une importante tâche connexe en analyse statistique est de prendre en compte la véritable nature des données. De ce point de vue, on peut constater aujourd’hui dans beaucoup de domaines une demande croissante d’appréhender plus adéquatement la complexité des données collectées pour pouvoir répondre à des questions substantives de recherche. De plus, les questions substantives de recherche elles-même font également apparaître une complexité toujours croissante, spécialement au cours de cette dernière décennie. Ces deux types de complexité constituent un défi majeur pour la statistique contemporaine. De nouveaux modèles et de nouvelles techniques sont clairement nécessaires pour traiter ces questions et ces données qui ont une structure sous-jacente compliquée. Cela se fera en utilisant des méthodes modernes de la modélisation et de l’inférence statistique et cela sous-entend des adaptations et/ou des modifications des techniques disponibles pour des modèles plus simples.

Le point de départ des activités du réseau proposé est une grande collection de données et de questions substantives issues de disciplines diverses ( incluant la psychologie, les sciences biomédicales, les sciences économiques et la climatologie). Le but ultime de notre projet est alors de développer des modèles et des techniques appropriés pour traiter ces données et ces questions.

Les activités du réseau en tant que telles seront organisées en six modules de travail qui ont de plus été regroupés en deux sections majeures. La Section I comporte 4 modules (WP1-WP4) qui s’occuperont de 4 classes de modèles bien définis. La Section II comporte 2 modules (WP5-WP6) du type méta-modélisation statistique. Ils peuvent être étudiés en eux-mêmes, mais ils peuvent également être inclus dans les différentes classes de modèles de la Section I.

Les objectifs majeurs des six modules peuvent être résumés comme suit :

- WP1 (Estimation fonctionnelle) : étendre l’estimation fonctionnelle classique de courbes uni- ou multidimensionnelles en tenant compte de théories substantives plus réalistes (mais plus complexes) (en particulier : les théories économiques pour l’estimation de frontières) et déterminer de manière adéquate les points de rupture ou de changement ;

- WP2 (Séries chronologiques) traiter deux sources majeures de complexité dans l’analyse des séries multivariées : la non-stationnarité et les données de grande dimension ;

- WP3 (Analyse de survie) : étudier les modèles de régression non paramétriques avec un mécanisme de censure complexe ou impliquant des discontinuités et des modèles agrégés (« frailty ») pour tenir compte de l’hétérogénéité ;

- WP4 (Modèles mixtes) : rechercher des distributions adéquates pour les effets aléatoires ;

- WP5 (Classification et modèles de mélange) : capturer l’hétérogénéité dans une population et en comprendre sa nature exacte ;

- WP6 (Données incomplètes et variables latentes) : développer des modèles de non-réponses (semi)paramétriques pour des données incomplètes ou latentes et étudier la sensibilité aux diverses hypothèses intervenant dans la modélisation.

L’intégration des activités du réseau sera accomplie sur 4 niveaux :

1) substantif : les données seront étudiées par différents modules et donc en termes de modèles distincts mais complémentaires ;

2) des liens croisés seront établis entre paires de modules : ainsi les modèles de survie seront étudiés dans WP3 et WP4, les variables latentes dans WP5 et WP6 ;

3) interaction entre les Sections I et II : par exemple, les techniques de classification et les modèles de mélange étudiés dans WP5 pour capturer l’hétérogénéité seront utilisés dans divers modules de la Section I ;

4) base méthodologique commune : (a) la plupart des modules utiliseront comme outils méthodologiques les techniques de lissage et d’analyse des données par rééchantillonnage et Monte-Carlo ; (b) des sujets de recherche méthodologiques émergeront de la réunion des réalisations méthodologiques obtenues dans différents modules. Cela devrait permettre de tirer des conclusions génériques.

La recherche proposée devrait résulter en de nouveaux types de méthodes statistiques, de modèles et d’extensions de modèles qui épouseraient mieux les théories substantives complexes aussi bien que les données complexes. En tant que tels, ils devraient fournir aux chercheurs des outils utiles et plus efficaces pour répondre aux questions importantes actuelles.