NL FR EN
www.belgium.be

Ontwerp van cruciale statistische methodes voor grote complexe dynamische systemen in natuurwetenschappen, biomedische en sociale wetenschappen

Onderzoeksproject P7/06 (Onderzoeksactie P7)

Personen :

Beschrijving :

Het gedrag van toevalsgebonden systemen wordt bepaald door hun interne werking, maar ook door externe factoren en de interactie tussen beide. Dit gedrag is bovendien mogelijk tijd- en plaatsafhankelijk. De belangrijkste doelstelling van dit IAP-network bestaat uit de ontwikkeling van statistische methodes die beslissend zijn voor een volledig begrip van bepaalde complexe dynamische systemen. In toepassingen waarop dit netwerk zich concentreert, moet het gebruik van deze nieuwe methodes leiden tot een antwoord op onopgeloste problemen.
Door technologische vooruitgang is de complexiteit van de structuur van gegevens over systemen toegenomen: verschillende types data, verschillende informatiebronnen voor eenzelfde subsysteem, weinig waarnemingen van een groot aantal karakteristieken, enz. Hoewel de toegenomen hoeveelheid en diversiteit aan informatie op zichzelf welkom is, wordt hierdoor de verwerking, en meer bepaald de extractie van de echt belangrijke informatie cruciaal.
Voorbeelden van complexe stochastische systemen waar zulke vragen zich stellen zijn:

(a) Volgens de Wereldgezondheidsorganisatie (WHO) wordt depressie snel het grootste probleem in gezondheidszorg zowel vanuit economisch als vanuit sociologisch oogpunt. Goed begrip van depressie en stemmingsstoornissen en de menselijke psyche in het algemeen is echter een uiterst moeilijk probleem, ten eerste omdat emoties fenomenen zijn met bijzonder veel facetten en niveaus die elk een breed spectrum van onderling verbonden componenten bevatten (zoals cognitieve, physiologische, ervaringsgebonden). Ten tweede zijn emoties inherent tijdsgebonden, en dus enkel goed beschrijfbaar als deze tijdsdynamiek in rekening wordt gebracht. Ten derde zijn emoties onderworpen aan gewichtige individuele verschillen, die ook een belangrijke rol spelen in de ontwikkeling van de psychopathologie.

(b) Een belangrijke les uit de recente economische en financiële crisis is dat de detectie in reële tijd van macro-economische risico's een goed begrip vereist van mogelijk perverse interacties tussen een groot aantal markten en instellingen. Dit houdt de analyse in van het gemeenschappelijke dynamisch gedrag van een groot aantal tijdreeksen. Gelijkaardige situaties komen veel voor in economische analyses, bv. bij professionele analysten en beleidsmakers die op basis van een geheel van indicators globale economische parameters voorspellen en daarop hun beslissingen baseren.

(c) In de epidemiologie van infectieziekten is de goedkeuring van een nieuw vaccin en de vraag of het vaccin voor terugbetaling in aanmerking komt een belangrijk thema, evenals de goedkeuring van een nieuw vacinatieschema. Gegeven de beperkte beschikbaarheid van data moet een statistische analyse rekening houden met de complexiteit en de onzekerheid in de gegevens. Dit geldt met name bij een analyse van de gastheer-dynamiek, bij de analyse van tijd-, plaats- en leeftijdsafhankelijke seriële seroprevalentie en bij analyse van de kosteneffectiviteit. Een grondig onderzoek van de verschillende bronnen van onzekerheid en hun wisselwerking is noodzakelijk.

(d) In de voedselnijverheid stelt zich het belangrijke probleem van de classificatie van vleesstalen, met het oog op kwaliteit en veiligheid. Verschillende soorten meetwaarden op de vleesstalen zijn beschikbaar, gaande van eiwitconcentraties, percentages vetten, water en andere tot bijna infrarood absorptiespectra. Belangrijke vragen hierbij zijn de discriminatie tussen observaties, en hun verband met verschillende karakteristieken. De complexiteit van de gegevens (continue veranderlijken, categorieën, functionele data, enz.) en hun onderlinge statistische afhankelijkheid moeten in rekening gebracht worden.

Gemeenschappelijke elementen in deze voorbeelden zijn de complexe interactie tussen verschillende karakteristieken (van mogelijk sterk verschillende conceptuele aard), maar ook de verschillende niveaus van de dynamica. De analyse van zulke complexe stochastische systemen gebaseerd op geavanceerde gegevensstructuren leidt tot een aantal belangrijke uitdagingen voor het onderzoek in statistiek, hetgeen zich vertaalt in de volgende hoofddoelstellingen:

1. Het modelleren en analyseren van afhankelijkheidsstructuren tussen stochastische variabelen (van mogelijk verschillende aard - reële getallen, discrete waarden, functies, grafen) die zelf variëren (i) als functie van andere covariaten (ook van mogelijk verschillende aard); (ii) als functie van plaats en tijd; (iii) het variëren kan specifiek gedrag vertonen in de staarten van de verdelingen.

2. Het efficiënt analyseren van gegevens die verschillend dynamische gedrag vertonen, bv., in plaats en tijd. Welke zijn de efficiëntste statistische modelleringstechnieken die de afzonderlijke niveaus van de dynamiek in rekening brengen?

3. Het efficient analyseren van data met hiërarchische structuur (bv., data in clusters, netwerken, met ontbrekende gegevens...).

4. Het in rekening brengen van de invloed van niet-observeerbare variabelen in complexe stochastische systemen: wat zijn de efficiëntste modelleringstechnieken en bijhorende statistische methoden?

5. De selectie van verklarende variabelen (van mogelijk verschillende aard) in een model voor observaties, en dit vanuit een grote of zeer grote set van gemeten karakteristieken. Welke zijn hiervoor de efficiëntste, spaarzame zogeheten regularisatietechnieken en hoe moeten de regularisatieparameters gekozen worden? Hoe moeten besluiten getrokken worden uit datasets die verschillende soorten informatie bevatten over hetzelfde complexe (sub)systeem en hoe moet het samenbrengen van gegevens gebeuren?

In overeenstemming met deze vijf hoofddoelstellingen, wordt het onderzoek in het netwerk georganiseerd rond vijf werkpakketten en een meta-werkpakket.

Werkpakket 1: de studie van associaties en afhankelijkheden in complexe systemen.
Het meten van associaties tussen karakteristieken (van scalair, functioneel of andere aard) in een stochastisch systeem kan plaatsvinden op verschillende niveaus (in een tijdsevolutie, in de staarten van de verdelingen, enz.) Dit werkpakket bestudeert het statistisch modelleren van associaties en afhankelijkheden in complexe stochastische systemen, inbegrepen het testen van specifieke structuren van associaties.

Werkpakket 2: De studie van verschillende dynamieken in complexe systemen.
Een stochastisch systeem kan verschillende dynamieken vertonen (tijdsdynamica, ruimtelijke dynamica, enz.). Dit werkpakket behelst een efficiënte modellering van deze verschillende lagen van dynamieken en de ontwikkeling van statistische methodologie voor deze complexe dynamische systemen.

Werkpakket 3: Multivariate modellering en hiërarchisch gestructureerde data.
Het doel van dit werkpakket is tweezijdig: de analyse van hiërarchisch gestructureerde data en het gebruik van hiërarchische modellen om de dynamica van het onderliggend stochastisch systeem te beschrijven. Survival data zijn bijvoorbeeld vaak hiërarchisch gestructureerd en vertonen complexe associatiestructuren, die bovendien kunnen veranderen in plaats en tijd. Hiërarchische, niet-lineaire ruimtelijke en/of tijdsafhankelijke modellering van soorten in het milieu (bv. Om het biologische gedrag van dieren te beschrijven) is een belangrijke modelleringstechniek.

Werkpakket 4: Dynamica van een stochastisch systeem en de impact op niet-observeerbare karakteristieken. Voor complexe systemen zijn observaties van alle belangrijke variabelen vaak onmogelijk. Zo hangt in micro-economische toepassingen de prijs van een product in een land af van de levensstandaard in dat land, en deze is moeilijk te meten. Dit werkpakket bestudeert hoe om te gaan met ongeobserveerde (latente) variabelen in complexe dynamische systemen.

Werkpakket 5: Selectie van variabelen en modellen en de studie van (ultra-)hoogdimensionale gegevens.
Het aantal geobserveerde variabelen kan varieren van hoog tot ultra-hoog, vergeleken met het aantal individuen waarvoor deze variabelen worden geobserveerd. Dit vereist de ontwikkeling van methoden die automatisch de belangrijke variabelen (mogelijk van verschillende aard) selecteren in complexe systemen, ook in omstandigheden waar het gebruikte model aangeeft dat het aantal variabelen zeer snel toeneemt bij toenemend aantal individuen (zelfs met polynomiale snelheid). Zelfs voor een set van geselecteerde variabelen zijn verschillende modellen plausibel en speelt modelselectie een rol.

Overkoepelend werkpakket: de nieuwe statistische methoden in praktisch gebruik.
In dit overkoepelend werkpakket willen we, door voortdurende interacties met andere werkpakketten, specifieke vragen beantwoorden in doelgerichte toepassingsdomeinen, in het bijzonder in econometrie, biomedische wetenschappen, humane wetenschappen en natuurwetenschappen. We verwijzen hiervoor onder andere naar de vragen in (a)-(d) hierboven. Deze vragen motiveren het onderzoek en tegelijk dienen ze als illustratie van de impact van het geplande onderzoek op toepassingsdomeinen.
De nadruk van elk werkpakket ligt op verschillende aspecten van de complexiteit van de dynamica van een stochastisch systeem, en enkel hun synergie en gezamenlijk succes zal leiden tot een finale, alomvattende statistische analyse van het geheel. Interacties tussen de verschillende werkpakketten op hoog niveau is hierbij onontbeerlijk en zal worden gestimuleerd door:

(i) de synergie die nodig is voor het overkoepelend werkpakket
(ii) het gebruik van gemeenschappelijke state-of-the-art statistische methoden en de complementaire expertises van de leden binnen het netwerk: flexibele modellering, hierarchische modellering, spaarzame (ijle) voorstellingen van gegevens, dimensiereductie, data-aggregatie en datafusie, ranggebaseerde en robuuste methoden;
(iii) specifieke activiteiten gericht op management en netwerking: gezamelijke postdoctorale onderzoekers, interuniversitaire doctoraatscommissies, doelgerichte werkgroepen, enz.