Projet de recherche AG/JJ/142 (Action de recherche AG)
Les quatre départements fédéraux d’enquête du secteur social (SPF Sécurité sociale, Office national de Sécurité sociale, SPF Emploi Travail et Concertation sociale, Office national de l'emploi) utilisent actuellement le datawarehouse OASIS (Organisation Anti-fraude des Services d’Inspection Sociale) qui centralise des informations administratives de différents services fédéraux. Ce datawarehouse aide les enquêteurs sociaux des brigades anti-fraude à determiner quelles sociétés doivent être contrôlées. Le projet de recherche OASIS AGORA a deux objectifs complémentaires: améliorer le datawarehouse OASIS proprement dit en y intégrant des techniques de datamining et améliorer nos connaissances sur l’origine des fraudes sociales par des techniques d’extraction de connaissances. Les modèles générés par les techniques de datamining devraient pouvoir fournir un aperçu plus précis et plus adapté de certains mécanismes de fraude. Ceux-ci permettront donc aux services d’enquête d’améliorer la prévision et la compréhension de ce phénomène social, notamment en améliorant le planning et le ciblage de leurs audits, et contribueront donc à l’efficacité de leurs actions. Un des résultats attendus de ce projet sera une interface qui fournira aux différents services intéressés (services d’enquête, services publics, services politiques, services scientifiques) un accès, piloté par des techniques de datamining, aux informations. En utilisant une interface utilisateur, chaque groupe d’utilisateurs pourra exploiter des informations et des résultats se rapportant à ses besoins.
Jusqu’à présent les indicateurs OASIS de risques de fraude (opérationnels depuis 2002) sont uniquement basés sur l’expertise humaine interne et sont dérivés de connaissances métier disponibles au sein de l’administration. Par ailleurs, il n’y a pas eu de comparaison systématique entre les résultats fournis par les indicateurs du datawarehouse d’audits, opérationnel depuis 2005, et les conclusions de ces audits (GENESIS kadaster van onderzoeken/cadastre des enquêtes), qui contiennent des informations essentielles sur les cas de fraude et de violation avérée de la législation. La comparaison des indicateurs d’avertissement d’OASIS avec les informations concernant les fraudes avérées ne permettra pas seulement de valider les alarmes et les algorithmes utilisés, mais permettra peut-être également de découvrir de nouveaux indicateurs, plus performants.
Notons que le projet a été élargi dès le départ et permettra d’exploiter à la fois le datawarehouse OASIS, limité à certains secteurs industriels, mais aussi des informations disponibles à la Banque-Carrefour des Entreprises (informations sur l’Emploi et la Protection Sociale de tous les secteurs industriels). Ceci comprend bien sûr le registre d’audits GENESIS qui couvre l’économie complète (à l’exception des indépendants).
La valeur ajoutée du projet pour la recherche en sciences sociales: Le consortium OASIS_AGORA estime que l’information disponible dans les sources administratives n’a pas encore été suffisamment exploitée, notamment en ce qui concerne la proportion du travail non-déclaré. Les efforts internationaux et nationaux dans ce domaine se sont fortement concentrés sur des méthodologies indirectes (macro-économiques la plupart du temps) ou directes (sondages), en n’exploitant pas pleinement l’information administrative disponible. Il y avait par ailleurs (i) peu d’effort entre les administrations sociales et fiscales pour analyser et comparer leurs informations, (ii) peu d’analyses conjointes avec les informations venant du secteur des indépendants (bien que les comptes nationaux y situent des montants importants de travail non déclaré) et (iii) peu ou pas de réconciliation des estimations macroscopiques avec les sources administratives. Par ailleurs, il n’ y avait également que des informations limitées et partielles disponibles dans les services. Le projet OASIS_AGORA ne sera bien sûr pas en mesure de répondre à toutes ces remarques. Il mettra plutôt l’accent sur l’utilisation de la micro-information pour estimer le risque et le volume de la fraude. Les résultats seront probablement utiles pour cibler les activités de controle (audits), tout en améliorant leur efficacité, et il aura un effet préventif sur le comportement des individus et des sociétés. Les efforts pour estimer non seulement le risque de fraude mais également son volume seront donc utiles pour cibler les mesures de controle et pour adapter les amendes.
Comme déjà mentionné, le projet quantifiera du montant total du travail non-déclaré, et donc augmentera la visibilité du côté « caché » de l’économie, permettant ainsi de prendre des mesures contre ce phénomène. En particulier, le fait de rendre la lutte contre la fraude plus visible rendra celle-ci plus efficace. Montrer le succès et la fermeté des actions aura un effet préventif et stimulera le respect de la loi.
Un des problèmes les plus importants de fraude se traduit par l’apparition de travailleurs « fantômes », des fraudeurs qui ne figurent pas dans les registres. Dans ce contexte, la stratégie de la Belgique vise à couvrir de plus en plus les groupes économiques par une administration électronique. Cette couverture sera de plus en plus étendue suite à la combinaison d’informations venant de la sécurité sociale des employés, des indépendants, et de l’administration fiscale. Nous nous attendons donc à trouver, dans ces nouvelles sources d’information, des possibilités accrues de détection d’anomalies.
L’Expertise des partenaires du projet:
- ULB:
Le groupe ULB-MLG a une expertise importante dans l’utilisation de techniques de sélection de variables dans des problèmes d’analyse de données à hautes dimensions. La sélection de variables est une technique d’apprentissage artificiel où l’objectif est d’extraire parmi un groupe de variables, un ensemble réduit de variables qui produira un modèle avec la meilleure capacité de prédiction. La sélection de variables peut également augmenter l’intelligibilité d’un modèle tout en diminuant la taille de l’échantillon et les besoins de stockage des données. Le projet OASIS_AGORA devrait bénéficier de cette expertise qui permettra d’améliorer la sélection et la compréhension des indicateurs de fraudes sociales. Un autre sujet de recherche sont les séries temporelles qui conviennent idéalement pour détecter les anomalies (des demandes suspectes) et pour traquer les changements dans le comportement des demandeurs afin de prédire la probabilité d’un abus du système social.
Page web: www.ulb.ac.be/di/mlg
- KUL:
Le « Hoger Instituut voor de Arbeid » a mené depuis 1996 plusieurs projets de recherche sur la structure et le niveau de la fraude sociale. Il possède donc une grande expérience dans la pertinence socio-économique de l’information administrative obtenue en étudiant les liens entre la fraude détectée et d’autres informations. Au niveau meso et macro, les informations sur les activités de controle et les fraudes détectées ont été utilisées pour estimer l’ampleur et la portée du travail non-déclaré et de la fraude.
Page web: www.hiva.be
- UCL:
Le groupe UCL-MLG a développé une expertise et joue un rôle actif dans la communauté scientifique internationale dans un nombre de domaines spécialisés, dont: les outils de statistique non-linéaire, les réseaux de neurones artificiels, les automates probabilistes, les chaînes de Markov cachées, les grammaires formelles, l’induction d’automates à état fini, la logique floue, les algorithmes génétiques, l’analyse de réseaux sociaux et graphes, etc.
Page web:: www.ucl.ac.be/mlg/
- ISTI:
Le partenaire international participe à différents projets ayant comme objectif de construire et de déployer des applications datamining de détection de fraude fiscale. Une des principales activités du partenaire à l’étranger est le développement d’un système de recherche de motifs basés sur des contraintes. Un autre domaine de recherche important est la protection de la vie privée c.à-d. le développement de techniques de datamining respectant la vie privée et l’anonymat des citoyens dont les informations sont rassemblées et analysées.
Page web: www.isti.cnr.it/