L’Indice Global de Corruption repose sur 28 bases de données open source, produites exclusivement par des organisations bénéficiant d’une reconnaissance internationale.
La construction du GCI suit une méthodologie stricte:
Processus de Sélection
Un certain nombre de critères sont pris en compte lors du processus de sélection, détaillés dans la méthodologie technique téléchargeable.
Données manquantes
Les données manquantes sont traitées au cas par cas en fonction de la structure des jeux de données.
-
- Dans le cas de séries de données chronologiques présentant des tendances visibles, nous procédons à une extrapolation linéaire à partir des cinq dernières années disponibles. Cette méthode permet d’estimer les paramètres sur la base de valeurs réelles.
- La deuxième approche utilisée est celle du LOCF (« Last Observation Carried Forward ») Cette approche statistique courante dans le traitement des données de séries chronologiques consiste à imputer la dernière observation disponible. De la même manière que pour la première méthode, seules les cinq dernières années disponibles sont considérées dans l’imputation.
- La dernière approche est celle de l’imputation multiple par PMM (« Predictive Mean Matching » ). Cette approche nous permet de préserver les distributions et garantit la plausibilité des valeurs imputées puisqu’elles reposent sur des observations réelles (Vink et al., 2014 [1]). L’imputation par PMM génère une valeur aléatoire d’un donneur, basée sur la proximité des valeurs prédites du donneur avec celles du receveur. Cela implique que les régressions ne sont pas utilisées pour générer les valeurs imputées mais plutôt pour déterminer le donneur (Schenker, N. & Taylor, J.M.G., 1996 [2]).
[1] Vink, G., Frank, L. E., Pannekoek, J., and van Buuren, S. (2014). Predictive mean matching imputation of semicontinuous variables. Statistica Neerlandica. 68(1). 61-90
[2] Schenker, N., & Taylor, J. M. G. (1996). Partially parametric techniques for multiple imputation. Computational Statistics & Data Analysis, 22(4), 425–446
Supression (« Case deletion »)
Pour certaines variables, aucune imputation par PMM n’est effectuée et seules les vraies valeurs sont prises en compte dans l’analyse. Ce choix est dû à la structure des données et au manque de corrélation avec d’autres variables. En cas de valeur manquante, l’algorithme redistribue proportionnellement le poids correspondant aux variables mesurant le même indicateur.
standardisation
A l’exception des variables binaires, toutes les bases de données sont testées pour leur asymétrie éventuelle, transformées et recodées si nécessaire. La moyenne et l’écart type sont calculés et toutes les variables sont ensuite normalisées pour l’obtention du score agrégé. La méthode de normalisation privilégiée ici est celle des z-scores, appliquant une moyenne de 0 et un écart type de 1.
Agrégation
Le processus d’agrégation convertit toutes les données sur une échelle allant de 0 à 100, où 0 représente le risque le plus faible et 100 le risque le plus élevé de corruption et de crimes en col blanc. Le score global de chaque pays est ensuite calculé en fonction des pondérations ci-dessus présentées.
Mesure d’incertitude
Sur la base des n jeux de données obtenus suite au processus d’imputation multiple, l’erreur standard et un intervalle de confiance à 90% sont calculés pour chaque variable afin de refléter la variance autour des différents scores.