NL FR EN
www.belgium.be

Het optimaliseren van het Datawarehouse OASIS (OASIS)

Onderzoeksproject AG/JJ/142 (Onderzoeksactie AG)

Personen :

  • Prof. dr.  BONTEMPI Gianluca - Université Libre de Bruxelles (ULB)
    Coördinator van het project
    Betoelaagde Belgische partner
    Duur: 1/10/2007-30/9/2009
  • M.  PACOLET Joseph - Katholieke Universiteit Leuven (KU Leuven)
    Betoelaagde Belgische partner
    Duur: 1/10/2007-30/9/2009
  • Dr.  SAERENS Marco - Université Catholique de Louvain (UCLouvain)
    Betoelaagde Belgische partner
    Duur: 1/10/2007-30/9/2009

Beschrijving :

De vier federale sociale inspectiediensten (FOD Sociale Zekerheid, FOD Werkgelegenheid, Arbeid en Sociaal Overleg, Rijksdienst voor Sociale Zekerheid, Rijksdienst voor Arbeidsvoorziening) gebruiken momenteel de OASIS-datawarhouse (Organisation Anti-fraude des Services d’Inspection Sociale), die administratieve data vanuit verschillende federale overheidsdiensten centraliseert. De OASIS-datawarehouse helpt de inspecteurs van de sociale inspectie te selecteren welke ondernemingen gecontroleerd zullen worden. Het OASIS_AGORA onderzoeksproject heeft twee complementaire doelstellingen: het optimaliseren van OASIS door er een datamining in te integreren en het verbeteren van het inzicht in sociale fraude via extractie aan kennis. De dynamische modellering, die mogelijk gemaakt wordt door de datamining, zal een meer accuraat en adaptief inzicht bieden op fraudemechanismen. Dit zal een toegevoegde waarde genereren naar de sociale inspectiediensten in termen van beter voorspellen en begrijpen van dit fenomeen. Daarnaast zal het de sociale inspectiediensten toelaten om hun planning van en focus op onderzoeken te verbeteren, wat zal bijdragen tot een grotere effectiviteit en efficiëntie. Concreet zal dit onderzoeksproject uitmonden in een interface met een gedifferentieerde toegang tot data voor verschillende gebruikersgroepen (inspectie, federale overheidsdiensten en universiteiten). Door het instellen van een gebruikersinterface kan elke gebruikersgroep de onderzoeksresultaten, indicatoren en gegevens die voor hen relevant zijn raadplegen en gebruiken. De fraudealarmen in OASIS (operationeel sinds 2002) zijn gebaseerd op de kennis en ervaring van de sociaal inspecteurs waarbij deze alarmen (en scenario’s) tot stand zijn gekomen door de toepassing van datadeling en datakoppeling van generieke administratieve informatie. Er is momenteel nog geen confrontatie gerealiseerd met het sinds 2005 operationele ‘kadaster van onderzoeken’ binnen GENESIS en de resultaten van deze onderzoeken. Het ‘kadaster van onderzoeken’ bevat immers relevante informatie over ontdekte fraude en de materie van de wetten waarop inbreuken zijn gepleegd. Het valideren van de alarmen in OASIS met de ontdekte fraude (kadaster van onderzoeken), zal niet enkel de bestaande alarmen en algoritmes valideren, maar zal een nieuwe, meer performante indicator genereren en kan een kleine ‘Copernicaanse-wending’ teweegbrengen in de datamining van de sociale inspectiediensten.
Het onderzoeksproject is vanaf de start hergeoriënteerd van de bestaande OASIS-datawarehouse, beperkt tot enkele sectoren, naar de informatie beschikbaar in de datawarehouse ‘Arbeidsmarkt en Sociale Bescherming’, gericht op alle sectoren. Dit stemt ook beter overeen met het bereik van het ‘kadaster van onderzoeken’, welke focust op de volledige economie (met de exclusie van zelfstandige arbeid).

Toegevoegde waarde van het project naar sociaal wetenschappelijk onderzoek: het OASIS_AGORA-consortium oordeelt dat de informatie beschikbaar in administratieve data tot dusver onvoldoende is geëxploiteerd wat betreft het inzicht krijgen in de omvang van zwartwerk. Internationale en nationale inspanningen zijn geconcentreerd op indirecte (meestal macro-economisch) of directe (bevragingen) methodes, zonder deze evenwel te combineren met het potentieel uit administratieve informatie. Er is ook i) geen gemeenschappelijke inspanning van sociale en fiscale administraties om gezamenlijk hun data te analyseren en te vergelijken ii) geen gezamenlijke analyse van deze informatie met data komende van zelfstandigen (hoewel de nationale rekenaars hier een groot deel van het zwartwerk situeren) en iii) geen reconciliatie van macroschattingen met administratieve informatie. Er is ook beperkte informatie beschikbaar over welke diensten de sociale inspectiediensten verlenen, of over de reconciliatie van hun informatie. Het OASIS_AGORA-onderzoeksproject is natuurlijk niet bekwaam om aan al deze geformuleerde kwesties tegemoet te komen, daarom zal het eerder focussen op het gebruik van micro-informatie om het risico en het volume van fraude in te schatten. De uitkomst zal ook nuttig zijn bij het bepalen van de focus op controleactiviteiten, bij het verbeteren van de opbrengst en efficiëntie en tenslotte op het preventieve effect van het ‘non compliance’ gedrag van individuen en ondernemingen. Inspanningen om niet enkel het risico van fraude te schatten, maar ook de omvang, zullen nuttig zijn bij het bepalen van de focus bij controles, bij het aanpassen van sancties en bij het verbeteren van de doeltreffendheid van deze sancties welke moeten correleren met de mogelijke opbrengsten bij het plegen van fraude.

Een toegevoegde waarde zal komen vanuit het kwantificeren van het totale bedrag aan zwartwerk en het vergroten van het inzicht op dit deel van de economie (schaduweconomie) en de strijd hiertegen. Voornamelijk door de strijd tegen de fraude meer zichtbaar te maken zal dit de doeltreffendheid ten goede komen daar het uiten van het succes, de opbrengst en de persistentie een preventief effect teweeg zal brengen en de volgelingen van de wet zal steunen.

Eén van de voornaamste problemen bij fraudedetectie zijn de zogenaamde ‘ghosts’, namelijk fraudeurs niet aanwezig in de registers. België heeft een groeiende strategie en traditie om het elektronische administratieve bereik van economische eenheden te introduceren en te vergroten. Het bereik zal meer exhaustief gemaakt worden via de combinatie van informatie komende van de sociale zekerheid voor werknemers, zelfstandigen en de fiscale administratie. Wij verwachten dat in deze databanken een klaarblijkelijk potentieel bestaat om mogelijke ‘non compliance’ te gaan detecteren.

Expertise partners van het onderzoeksproject:

- ULB:
Een groot deel van de expertise van het ULB-MLG-team betreft het gebruik van kenmerkselectie technieken bij multi-dimensionele data-analyse problemen. Kenmerkselectie is een onderwerp van ‘machine learning’ welke als doelstelling heeft variabelen te selecteren uit een reeks, welke zullen leiden tot het meest voorspellende en verklarende model. Kenmerken selecteren kan ook de begrijpelijkheid van een model vergroten gepaard gaande met dalende meting- en opslagvereisten. Het OASIS_AGORA-project wordt verondersteld bij te dragen tot zulke expertise in termen van meer inzicht in de sociale fraude-indicatoren. Een ander onderzoeksonderwerp is de predictie van tijdseries wat ideaal geschikt is voor taken zoals het detecteren van outliers (bv verdachte vorderingen) en veranderingen opsporen in vorderingsgedrag om de waarschijnlijk van misbruik van het uitkeringssysteem te voorspellen.
Webpagina: www.ulb.ac.be/di/mlg

- KUL:
Het Hoger Instituut voor de Arbeid heeft sinds 1996 verscheidene studies over de structuur en het niveau van sociale fraude gepubliceerd. Dit resulteert in een ruime ervaring over de socio-economische relevantie van administratieve informatie bekomen uit het bestuderen van de linken tussen ontdekte fraude en andere informatie. Op een meso- en macroniveau, werd de informatie over de controleactiviteiten en de gedetecteerde fraude gebruikt om de omvang van zwartwerk te schatten.
Webpagina: www.hiva.be

- UCL:
De UCL-MLG-groep heeft een expertise ontwikkeld en speelt een actieve rol in de internatonale wetenschappelijke gemeenschap op het gebied van een aantal technieken inbegrepen: niet-lineaire statistische instrumenten, artificiële neurale netwerken, probabilistische modellen, verborgen Markov-modellen, grammatica inductie, fuzzy logica, genetische algoritmes, support vector machines, …
Webpagina: www.ucl.ac.be/mlg

- ISTI:
De internationale partners nemen deel in verschillende projecten met als doelstelling een dataminingapplicatie bouwen en inzetten op het gebied van fiscale fraudedetectie. Eén van de hoofdonderzoeksactiviteiten van de partner buiten België is het ontwikkelen van een systeem voor patroonontdekking gebaseerd op restricties. Een ander belangrijk onderzoeksgebied is de privacybehoedende datamining, bijvoorbeeld de ontwikkeling van technieken van datamining die bewust en respectvol zijn voor de privacy en anonimiteit van de burgers die zich in de opgeslagen data bevinden en geanalyseerd zullen worden.
Webpagina: www.isti.cnr.it