Onderzoeksproject P6/03 (Onderzoeksactie P6)
Eén van de kerndoelen van statistiek is het op een geschikte manier analyseren van de afhankelijkheid en associatie aanwezig in een dataset. De data die tegenwoordig verzameld worden om deze afhankelijkheidsstructuren te analyseren, zijn vaak complex en ook de onderzoeksvragen worden steeds complexer van aard. Dit vereist het construeren van nieuwe modellen, of het aanpassen van bestaande modellen, wat een hele uitdaging is. Het ontwikkelen van nieuwe methoden en intensieve interactie tussen experten zal ook noodzakelijk zijn om met deze complexe data te kunnen werken.
Het globale objectief van het netwerk bestaat uit het ontwikkelen van nieuwe modellen en methodologische technieken om deze complexe datastructuren te analyseren. Om dit doel te bereiken, zal het netwerk gestructureerd worden in vijf aan elkaar gekoppelde werkpakketten, gewijd aan verschillende types van complexe data die bestudeerd zullen worden in het netwerk.
1. Werkpakket 1: Multivariate data met kwalitatieve beperkingen
In statistische analyse, voldoet de grootheid die men wenst te schatten of waarvoor men een test wil uitvoeren, vaak aan bepaalde natuurlijke kwalitatieve beperkingen, die men in rekening moet nemen als men volledig wil gebruik maken van de aard van de data. Voorbeelden van zulke beperkingen kunnen gevonden worden in onder meer grenzen (bv. in ‘frontier’ analyse), monotoniciteit, convexiteit, ellipticiteit of onafhankelijkheid van niet-geobserveerde componenten, unimodaliteit en schaarsheid. Kwalitatieve beperkingen treden ook op bij het gebruik van dimensie-reductie technieken, bij het analyseren van funtionale data of bij het verwerken van inverse problemen. Een breed spectrum aan statistische technieken is vereist voor het analyseren van dit type complexe data. Door verder te bouwen op de resultaten die verkregen zijn tijdens de vorige fase (Fase V) van het netwerk, zullen nieuwe uitdagende onderzoeksvragen bestudeerd worden in dit gebied, zoals bv. het schatten van stochastische grenzen, het gebruik van dimensie-reductie technieken met onvolledige data, enz.
2. Werkpakket 2: Tijd- en ruimte-gerelateerde data
Methoden gebaseerd op principaal component analyse voor het voorspellen van een variabele op basis van een grote groep tijdreeksen, zijn wel bestudeerd in de economie literatuur, en zullen verder worden onderzocht en vergeleken. Het werk i.v.m. dynamische factor modellen, reeds bestudeerd tijdens Fase V van het netwerk, zal ook voortgezet worden. Een ander onderzoeksonderwerp waarin het netwerk heel erg geïnteresseerd is, is de studie van niet-stationaire tijdreeksen. De bereikte resultaten in het domein van locaal stationaire tijdreeksen, welke uitgebreid bestudeerd zijn geweest tijdens Fase V, zullen verder ontwikkeld worden, met nadruk op goodness-of-fit testen, adaptieve inferentie en het modelleren van tijd-ruimte. Een verenigde benadering zal aangewend worden om verschillende types van niet-stationariteit gezamenlijk te bestuderen (zoals modellen met tijdsafhankelijke coefficienten, eenheidswortels modellen, ...).
3. Werkpakket 3: Onvolledige data
Verschillende types van onvolledigheid in de data treden op in de praktijk : ontbrekende data, gecensureerde data (rechtse censurering, interval censurering, ...), getrunceerde data, verkeerd geclassifieerde data, verruwde (‘coarse’) data, ... De nadruk zal gelegd worden op gecensureerde en ontbrekende data. In het bijzonder, zal het onderzoek i.v.m. het niet-parametrisch schatten met gecensureerde data en i.v.m. ‘frailty’ modellen, reeds uitgebreid bestudeerd tijdens Fase V, verder onderzocht worden. Bovendien zal bestudeerd worden hoe gerepeteerde data en overlevenigsdata samen kunnen gemodelleerd worden. De nadruk bij het analyseren van ontbrekende data zal liggen op sensitiviteitsanalyse en op de combinatie van latente structuren en ideëen van gemengde modellen en mengverdelingen. Een ander onderzoeksonderwerp waarin het netwerk erg geïnteresseerd is, is het schatten van causale effecten van geobserveerde blootstellingen, gemeten met fout, in gerandomiseerde studies.
4. Werkpakket 4: Data met latente heterogeneïteit
Niet-geobserveerde heterogeneïteit kan gemodelleerd worden op verschillende manieren. Een natuurlijke en vaak gebruikte manier om deze heterogeneïteit te modelleren, is het aanwenden van gemengde modellen, welke uitgebreid bestudeerd werden tijdens Fase V. De verkregen expertise opent de deur voor het bestuderen van gemengde modellen met partieel gespecifieerde afhankelijkheid van de residus, conditioneel op de waarden van de random effecten en voor het bestuderen van gegeneraliseerde lineaire gemengde modellen. Voor het laatste model zullen flexibele modellen voor de verdeling van de random effecten bestudeerd worden, zoals mengelingen van normale verdelingen om een B-‘spline’ basis te benaderen.
5. Werkpakket 5: Hoog-dimensionele en samengestelde data
In vele toepassingen die te maken hebben met genomics, proteomics, metabolomics, enz., bevatten de data typisch een groot aantal variabelen. De informatie in zulke datasets bevat vaak veel ruis in de vorm van irrelevante informatie en gemaskeerde variabelen. Bovendien kan de informatie komen van verschillende bronnen. Belangrijke uitdagingen voor deze datasets hebben betrekking tot het detecteren van structuur in hoog-dimensionele problemen, het uitfilteren van ruis en van irrelevante informatie, het bestuderen van meervoudige testen in aanwezigheid van een groot aantal variabelen, en het trekken van sterkere conclusies door gebruik te maken van geschikte combinaties van de verschillende data onderdelen. Om deze uitdagingen aan te gaan, zullen geschikte niet- en semiparametrische technieken (zoals ‘smoothing’ methoden) ontwikkeld worden, die gebruikt kunnen worden voor ruis reductie, geschikte dimensie reductie en cluster technieken (zoals methoden voor modellering met mengverdelingen) voor hoog-dimensionele twee- en meer-weg data, en data fusie methoden waarbij verschillende onderdelen van ‘multiblock multiset’ data samen gemodelleerd worden.
Cross-links tussen de vijf werkpakketten zullen ontwikkeld worden op ten minste drie verschillende niveaus:
I. Aan elkaar gekoppelde complexiteiten in de data
In de praktijk komen vaak data voor die aan elkaar gekoppelde complexiteiten bevatten, zoals bestudeerd in de verschillende werkpakketten. Methoden zullen ontwikkeld worden voor het op een geschikte manier omgaan met deze samengestelde complexiteiten. Dit zal meer vereisen dan het louter aan elkaar koppelen van de resultaten verkregen in de verschillende werkpakketten, vermits wanneer men bijvoorbeeld ontbrekende data in een multivariate context bestudeert, nieuwe types van complexiteiten zullen moeten bestudeerd worden.
II. Gemeenschappelijke modelleringsbenaderingen
De studie van afhankelijkheid is een terugkomend onderwerp doorheen alle werkpakketten. In dit opzicht zullen verschillende benaderingen gevolgd worden om met het modelleren van afhankelijkheid om te gaan, zoals het gebruik van copula modellen, regressie modellen die gebaseerd zijn op verschillende soorten dimensie reductie benaderingen, en modellen voor random effecten, zoals bv. gegeneraliseerde lineaire modellen. In het netwerk zullen deze verschillende benaderingen met elkaar vergeleken worden, zowel op theoretisch niveau als op het niveau van het analyseren van verschillende referentie datasets.
III. Gemeenschappelijke methoden
De verschillende werkpakketten zullen steunen op een gemeenschappelijk stel van methoden, zoals technieken voor kern ‘smoothing’, semiparametrische inferentie, Bayesiaanse inferentie, optimisatie, randomisatie en ‘bootstrap’. Conclusies i.v.m. deze methoden zullen uitgewisseld worden over de werkpakketten, en generische resultaten i.v.m. deze methoden zullen nagestreefd worden, zodat ze aangewend kunnen worden in een rijk gamma contexten.