A propos de l’Indice Global de Corruption

Les données métriques au cœur de l’analyse de risques

Un indice composite

Comprenant 199 pays, l’Indice Global de Corruption (GCI) se distingue par son approche générale. Ses résultats présentent le risque d’exposition à la corruption dans le domaine public mais également dans le domaine privé. Le GCI inclut également les enjeux liés aux crimes en col blanc et plus spécifiquement au blanchiment d’argent et au financement du terrorisme.

Indicateurs

Le GCI se compose de deux sous-indices axés sur la corruption (80%) et sur les autres crimes en col blanc (20%):

Corruption

Le sous-indice corruption comprend 4 indicateurs pondérés de la manière suivante :

    1. Le statut de ratification de conventions clés (OCDE, ONU), 15%
    2. Le niveau de perception de la corruption publique (indice de Transparency International, données de la banque mondiale, données du World Justice Project), 25.5%
    3. L’expérience rapportée de corruption publique (baromètre mondial de la corruption de Transparency International) et privée (enquête auprès des entreprises de la banque mondiale), 17%
    4. Une sélection de caractéristiques pays étroitement liées à la corruption, 42.5%

L’indicateur lié aux caractéristiques pays vise à saisir les mécanismes de prévention, les effets connexes, les effets de causalité et les effets consécutifs de la corruption dans le but de faire ressortir l’information “corruption” latente. Cet indicateur se divise en 4 groupes de données:

        1. Voix du Citoyen et Transparence
        2. Fonctionnement du Gouvernement et Efficience
        3. Contexte Légal
        4. Contexte Politique

Crimes en Col Blanc

La mesure liée aux autres crimes en col blanc est basée sur (1) l’indice AML du Basel Institute on Governance et (2) l’adhésion au GAFI et / ou à d’autres entités liées.

Sources

L’Indice Global de Corruption s’appuie sur de nombreuses entités pour la collecte de données brutes, à savoir :

    • L’ONU
    • L’OCDE
    • La Banque Mondiale
    • Le GAFI
    • Transparency International
    • Le World Justice Project
    • L’Economist Intelligence Unit (EIU)
    • Le Basel Institute on Governance
    • L’International Budget Partnership
Recherche & developpement

Sonia Thurnherr
Lead Data Scientist

Cadre général

Afin d’offrir un outil approprié aux responsables de la conformité, Global Risk Profile a mis au point une mesure unique et robuste de la corruption dans le monde conformément aux exigences légales en vigueur, telles que le « Foreign Corrupt Practices Act » (FCPA), le Bribery Act et la récente loi française No 2016-1691 relative à la transparence, à la lutte contre la corruption et à la modernisation de la vie économique, également appelée «Sapin II».

glass globe on water

Méthodologie

L’Indice Global de Corruption repose sur 28 bases de données open source, produites exclusivement par des organisations bénéficiant d’une reconnaissance internationale. La construction du GCI suit une méthodologie stricte:
Processus de Sélection
Un certain nombre de critères sont pris en compte lors du processus de sélection, détaillés dans la méthodologie technique téléchargeable.
Données manquantes
Les données manquantes sont traitées au cas par cas en fonction de la structure des jeux de données.
    • Dans le cas de séries de données chronologiques présentant des tendances visibles, nous procédons à une extrapolation linéaire à partir des cinq dernières années disponibles. Cette méthode permet d’estimer les paramètres sur la base de valeurs réelles.
    • La deuxième approche utilisée est celle du LOCF (« Last Observation Carried Forward ») Cette approche statistique courante dans le traitement des données de séries chronologiques consiste à imputer la dernière observation disponible. De la même manière que pour la première méthode, seules les cinq dernières années disponibles sont considérées dans l’imputation.
    • La dernière approche est celle de l’imputation multiple par PMM (« Predictive Mean Matching » ). Cette approche nous permet de préserver les distributions et garantit la plausibilité des valeurs imputées puisqu’elles reposent sur des observations réelles (Vink et al., 2014 [1]). L’imputation par PMM génère une valeur aléatoire d’un donneur, basée sur la proximité des valeurs prédites du donneur avec celles du receveur. Cela implique que les régressions ne sont pas utilisées pour générer les valeurs imputées mais plutôt pour déterminer le donneur (Schenker, N. & Taylor, J.M.G., 1996 [2]).
[1] Vink, G., Frank, L. E., Pannekoek, J., and van Buuren, S. (2014). Predictive mean matching imputation of semicontinuous variables. Statistica Neerlandica. 68(1). 61-90 [2] Schenker, N., & Taylor, J. M. G. (1996). Partially parametric techniques for multiple imputation. Computational Statistics & Data Analysis, 22(4), 425–446
Supression (« Case deletion »)
Pour certaines variables, aucune imputation par PMM n’est effectuée et seules les vraies valeurs sont prises en compte dans l’analyse. Ce choix est dû à la structure des données et au manque de corrélation avec d’autres variables. En cas de valeur manquante, l’algorithme redistribue proportionnellement le poids correspondant aux variables mesurant le même indicateur.
standardisation
A l’exception des variables binaires, toutes les bases de données sont testées pour leur asymétrie éventuelle, transformées et recodées si nécessaire. La moyenne et l’écart type sont calculés et toutes les variables sont ensuite normalisées pour l’obtention du score agrégé. La méthode de normalisation privilégiée ici est celle des z-scores, appliquant une moyenne de 0 et un écart type de 1.
Agrégation
Le processus d’agrégation convertit toutes les données sur une échelle allant de 0 à 100, où 0 représente le risque le plus faible et 100 le risque le plus élevé de corruption et de crimes en col blanc. Le score global de chaque pays est ensuite calculé en fonction des pondérations ci-dessus présentées.
Mesure d’incertitude
Sur la base des n jeux de données obtenus suite au processus d’imputation multiple, l’erreur standard et un intervalle de confiance à 90% sont calculés pour chaque variable afin de refléter la variance autour des différents scores.