et corrélation. Si des variables colinéaires sont de facto fortement corrélées entre elles, deux variables corrélées ne sont pas forcément colinéaires. En termes non statistiques, il y a colinéarité lorsque deux ou plusieurs variables mesurent la même chose.

Prenons un exemple. Nous étudions les complications après l’accouchement dans différentes maternités d’un pays en développement. On souhaite mettre dans le modèle, à la fois le milieu de résidence (urbain ou rural) et le fait qu’il y ait ou non un médecin dans la clinique. Or, dans la zone d’enquête, les maternités rurales sont dirigées seulement par des sage-femmes tandis que l’on trouve un médecin dans toutes les maternités urbaines sauf une. Dès lors, dans ce contexte précis, le milieu de résidence prédit presque totalement la présence d’un médecin et on se retrouve face à une multicolinéarité (qui serait même parfaite s’il n’y avait pas une clinique urbaine sans médecin). On ne peut donc distinguer l’effet de la présence d’un médecin de celui du milieu de résidence et il ne faut mettre qu’une seule de ces deux variables dans le modèle, sachant que du point de vue de l’interprétation elle capturera à la fois l’effet de la présence d’un médecin et celui du milieu de résidence.

Par contre, si dans notre région d’étude, seule la moitié des maternités urbaines disposait d’un médecin, alors le milieu de résidence n’aurait pas été suffisant pour prédire la présence d’un médecin. Certes, les deux variables seraient corrélées mais pas colinéaires. Un autre exemple de corrélation sans colinéarité, c’est la relation entre milieu de résidence et niveau d’instruction. Il y a une corrélation entre ces deux variables, les personnes résidant en ville étant généralement plus instruites. Cependant, il existe également des personnes non instruites en ville et des personnes instruites en milieu rural. Le milieu de résidence n’est donc pas suffisant pour prédire le niveau d’instruction.

Mesure de la colinéarité

Il existe différentes mesures de la multicolinéarité. L’extension mctest en fournie plusieurs, mais elle n’est utilisable que si l’ensemble des variables explicatives sont de type numérique.

L’approche la plus classique consiste à examiner les facteurs d’inflation de la variance (FIV) ou variance inflation factor (VIF) en anglais. Les FIV estimenent de combien la variance d’un coefficient est augmentée en raison d’une relation linéaire avec d’autres prédicteurs. Ainsi, un FIV de 1,8 nous dit que la variance de ce coefficient particulier est supérieure de 80 % à la variance que l’on aurait dû observer si ce facteur n’est absolument pas corrélé aux autres prédicteurs.

Si tous les FIV sont égaux à 1, il n’existe pas de multicolinéarité, mais si certains FIV sont supérieurs à 1, les prédicteurs sont corrélés. Il n’y a pas de consensus sur la valeur au-delà de laquelle on doit considérer qu’il y a multicolinéarité. Certains auteurs, comme Paul Allison1, disent regarder plus en détail les variables avec un FIV supérieur à 2,5. D’autres ne s’inquiètent qu’à partir de 5. Il n’existe pas de test statistique qui permettrait de dire s’il y a colinéarité ou non2.

L’extension car fournit une fonction vif permettant de calculer les FIV à partir d’un modèle. Elle implémente même une version généralisée permettant de considérer des facteurs catégoriels et des modèles lénaires généralisés comme la régression logistique.

Reprenons, pour exemple, un modèle logistique que nous avons déjà abordé dans d’autres chapitres.

```{r} library(questionr) data(hdv2003) d centrant les variables (c’est-à-dire en soustrayant leurs moyennes) avant de créer les puissances ou les produits. Mais la valeur p pour x2 ou pour xz sera exactement la même, que l’on centre ou non. Et tous les résultats pour les autres variables (y compris le R2 mais sans les termes d’ordre inférieur) seront les mêmes dans les deux cas. La multicollinéarité n’a donc pas de conséquences négatives.

3. Les variables avec des FIV élevés sont des variables indicatrices (factices) qui représentent une variable catégorielle avec trois catégories ou plus.

Si la proportion de cas dans la catégorie de référence est faible, les variables indicatrices auront nécessairement des FIV élevés, même si la variable catégorielle n’est pas associée à d’autres variables dans le modèle de régression.

Supposons, par exemple, qu’une variable de l’état matrimonial comporte trois catégories : actuellement marié, jamais marié et anciennement marié. Vous choisissez anciennement marié comme catégorie de référence, avec des variables d’indicateur pour les deux autres. Ce qui se passe, c’est que la corrélation entre ces deux indicateurs devient plus négative à mesure que la fraction de personnes dans la catégorie de référence diminue. Par exemple, si 45 % des personnes ne sont jamais mariées, 45 % sont mariées et 10 % sont anciennement mariées, les valeurs du FIV pour les personnes mariées et les personnes jamais mariées seront d’au moins 3,0.

Est-ce un problème ? Eh bien, cela signifie que les valeurs p des variables indicatrices peuvent être élevées. Mais le test global selon lequel tous les indicateurs ont des coefficients de zéro n’est pas affecté par des FIV élevés. Et rien d’autre dans la régression n’est affecté. Si vous voulez vraiment éviter des FIV élevés, il suffit de choisir une catégorie de référence avec une plus grande fraction des cas. Cela peut être souhaitable pour éviter les situations où aucun des indicateurs individuels n’est statistiquement significatif, même si l’ensemble des indicateurs est significatif.

A

ACM

ACP

AFC

âge

âge atteint dans l’année

âge au dernier anniversaire

âge exact

AIC

aide

aide en ligne

Akaike Information Criterion

aléatoire, échantillonnage

analyse de séquences

analyse de survie

analyse des biographies

analyse des correspondances multiples

analyse en composante principale

analyse factorielle

analyse factorielle des correspondances

analyse mixte de Hill et Smith

ANOVA

appariement optimal

arbre de classification

argument

argument nommé

argument non nommé

assignation par indexation

assignation, opérateur

attribut

autocomplétion

B

barres cumulées, graphique

barres, diagramme en

bâton, diagramme

bâtons, diagramme en

binaire, régression logistique

biographie, analyse

bitmap

boîte à moustache

boîte à moustaches

booléenne, valeur

booléenne, variable

boxplot

C

CAH

camembert, graphique

caractères, chaîne

catégorielle, variable

censure à droite

cercle de corrélation

chaîne de caractères

character

chemin relatif

Chi², distance

Chi², résidus

Chi², test

chunk

classe de valeurs

classe, homogénéité

classification ascendante hiérarchique

classification, arbre

Cleveland, diagramme

cluster

coefficient de contingence de Cramer

coefficient de corrélation

coefficient, modèle

coefficients du modèle

colinéarité

coloration syntaxique

commentaire

comparaison de courbes de survie (test du logrank)

comparaison de médianes, test

comparaison de moyennes

comparaison de proportions, test

comparaison, opérateur

Comprehensive R Archive Network

condition, indexation

confusion, matrice

console

corrélation

corrélation, cercle

corrélation, coefficient

corrélation, matrice de

correspondances, analyse factorielle

couleur, palette

courbe de densité

Cox, modèle

Cramer, coefficient de contingence

CRAN

croisé, tableau

CSV, fichier

D

data frame

data.frame

date, variable

dendrogramme

densité, courbe de

densité, estimation locale

descriptive, statistique

design

diagramme de Cleveland

diagramme de Lexis

diagramme en barres

diagramme en bâtons

diagramme en secteur

distance

distance de Gower

distance du Chi²

distance du Phi²

distance, matrice

distribution

donnée labelissée

données pondérées

données, exporter

données, tableau

droite de régression

droite, censure

E

écart-type

écart interquartile

échantillonnage aléatoire simple

échantillonnage équiprobable

échantillonnage par grappes

échantillonnage stratifié

échantillonnage, plan

éditeur de script

effet d’interaction

empirical cumulative distribution function

entier

entier, nombre

entropie transversale

environnement de développement

environnement de travail

équiprobable, échantillonnage

estimation locale de densité

estimation par noyau

étendue

étiquette de valeur

étiquette de variable

étiquettes de valeurs

event history analysis

exact, âge

explicative, variable

export de graphiques

exporter des données

expression régulière

extension

F

facteur

facteurs d’inflation de la variance

factor

factoriel, plan

factorielle, analyse

fichier CSV

fichier de commandes

fichier texte

fichiers Shapefile

Fisher, test exact

FIV

fonction

fonction de répartition empirique

formule

fréquence, tableau

fusion de tables

G

gestionnaire de versions

Gower, distance

Gower, indice de similarité

graphique en mosaïque

graphique en violon

graphique, export

grappe, échantillonnage

H

hazard ratio (HR)

Hill et Smith, analyse mixte

histogramme

historique des commandes

homogénéité des classes

I

image bitmap

image matricielle

image vectorielle

indépendance

indertie, perte relative

index plots

indexation

indexation bidimensionnelle

indexation directe

indexation par condition

indexation par nom

indexation par position

indexation, assignation

indice de similarité

indice de similarité de Gower

inertie

inertie, saut

installation

integer

interaction

intercept

interface

interquartilen écart

intervalle de confiance

intervalle de confiance d’un odds ratio

intervalle de confiance d’une moyenne

intervalle de confiance d’une proportion

invite de commande

K

Kaplan-Meier

L

labelled data

labellisé, vecteur

labellisée, donnée

labellisée, variable

level, factor

Lexis, diagramme

libre, logiciel

life course analysis

linéaire, régression

liste

logical

logiciel libre

logique, opérateur

logique, valeur

logistique, régression

logrank, test (comparaison de courbes de survie)

loi normale

M

Mann-Whitney, test

manquante, valeur

matching, optimal

matrice de confusion

matrice de corrélation

matrice de distances

maximum

médiane

médiane, test de comparaison

métadonnée

méthode de Ward

minimum

mise à jour, R

modalité

modalité de référence

modalité, facteur

modèle de Cox

modèle linéaire généralisé

mosaïque, graphique

moustaches, boîte

moyenne

moyenne, âge

moyenne, comparaison

moyenne, intervalle de confiance

multicolinéarité

multicolinéarité et corrélation. Si des variables colinéaires sont de facto fortement corrélées entre elles, deux variables corrélées ne sont pas forcément colinéaires. En termes non statistiques, il y a colinéarité lorsque deux ou plusieurs variables mesurent la même chose.

Prenons un exemple. Nous étudions les complications après l’accouchement dans différentes maternités d’un pays en développement. On souhaite mettre dans le modèle, à la fois le milieu de résidence (urbain ou rural) et le fait qu’il y ait ou non un médecin dans la clinique. Or, dans la zone d’enquête, les maternités rurales sont dirigées seulement par des sage-femmes tandis que l’on trouve un médecin dans toutes les maternités urbaines sauf une. Dès lors, dans ce contexte précis, le milieu de résidence prédit presque totalement la présence d’un médecin et on se retrouve face à une multicolinéarité (qui serait même parfaite s’il n’y avait pas une clinique urbaine sans médecin). On ne peut donc distinguer l’effet de la présence d’un médecin de celui du milieu de résidence et il ne faut mettre qu’une seule de ces deux variables dans le modèle, sachant que du point de vue de l’interprétation elle capturera à la fois l’effet de la présence d’un médecin et celui du milieu de résidence.

Par contre, si dans notre région d’étude, seule la moitié des maternités urbaines disposait d’un médecin, alors le milieu de résidence n’aurait pas été suffisant pour prédire la présence d’un médecin. Certes, les deux variables seraient corrélées mais pas colinéaires. Un autre exemple de corrélation sans colinéarité, c’est la relation entre milieu de résidence et niveau d’instruction. Il y a une corrélation entre ces deux variables, les personnes résidant en ville étant généralement plus instruites. Cependant, il existe également des personnes non instruites en ville et des personnes instruites en milieu rural. Le milieu de résidence n’est donc pas suffisant pour prédire le niveau d’instruction.

Mesure de la colinéarité

Il existe différentes mesures de la multicolinéarité. L’extension mctest en fournie plusieurs, mais elle n’est utilisable que si l’ensemble des variables explicatives sont de type numérique.

L’approche la plus classique consiste à examiner les facteurs d’inflation de la variance (FIV) ou variance inflation factor (VIF) en anglais. Les FIV estimenent de combien la variance d’un coefficient est augmentée en raison d’une relation linéaire avec d’autres prédicteurs. Ainsi, un FIV de 1,8 nous dit que la variance de ce coefficient particulier est supérieure de 80 % à la variance que l’on aurait dû observer si ce facteur n’est absolument pas corrélé aux autres prédicteurs.

Si tous les FIV sont égaux à 1, il n’existe pas de multicolinéarité, mais si certains FIV sont supérieurs à 1, les prédicteurs sont corrélés. Il n’y a pas de consensus sur la valeur au-delà de laquelle on doit considérer qu’il y a multicolinéarité. Certains auteurs, comme Paul Allison3, disent regarder plus en détail les variables avec un FIV supérieur à 2,5. D’autres ne s’inquiètent qu’à partir de 5. Il n’existe pas de test statistique qui permettrait de dire s’il y a colinéarité ou non4.

L’extension car fournit une fonction vif permettant de calculer les FIV à partir d’un modèle. Elle implémente même une version généralisée permettant de considérer des facteurs catégoriels et des modèles lénaires généralisés comme la régression logistique.

Reprenons, pour exemple, un modèle logistique que nous avons déjà abordé dans d’autres chapitres.

```{r} library(questionr) data(hdv2003) d centrant les variables (c’est-à-dire en soustrayant leurs moyennes) avant de créer les puissances ou les produits. Mais la valeur p pour x2 ou pour xz sera exactement la même, que l’on centre ou non. Et tous les résultats pour les autres variables (y compris le R2 mais sans les termes d’ordre inférieur) seront les mêmes dans les deux cas. La multicollinéarité n’a donc pas de conséquences négatives.

3. Les variables avec des FIV élevés sont des variables indicatrices (factices) qui représentent une variable catégorielle avec trois catégories ou plus.

Si la proportion de cas dans la catégorie de référence est faible, les variables indicatrices auront nécessairement des FIV élevés, même si la variable catégorielle n’est pas associée à d’autres variables dans le modèle de régression.

Supposons, par exemple, qu’une variable de l’état matrimonial comporte trois catégories : actuellement marié, jamais marié et anciennement marié. Vous choisissez anciennement marié comme catégorie de référence, avec des variables d’indicateur pour les deux autres. Ce qui se passe, c’est que la corrélation entre ces deux indicateurs devient plus négative à mesure que la fraction de personnes dans la catégorie de référence diminue. Par exemple, si 45 % des personnes ne sont jamais mariées, 45 % sont mariées et 10 % sont anciennement mariées, les valeurs du FIV pour les personnes mariées et les personnes jamais mariées seront d’au moins 3,0.

Est-ce un problème ? Eh bien, cela signifie que les valeurs p des variables indicatrices peuvent être élevées. Mais le test global selon lequel tous les indicateurs ont des coefficients de zéro n’est pas affecté par des FIV élevés. Et rien d’autre dans la régression n’est affecté. Si vous voulez vraiment éviter des FIV élevés, il suffit de choisir une catégorie de référence avec une plus grande fraction des cas. Cela peut être souhaitable pour éviter les situations où aucun des indicateurs individuels n’est statistiquement significatif, même si l’ensemble des indicateurs est significatif.

multicolinéarité parfaite

multidimensional scaling

multinomiale, régression logistique

N

NA

nom, indexation

nombre entier

nombre réel

normale, loi

normalité, test de Shapiro-Wilk

notation formule

notation scientifique

noyau, estimation

nuage de points

numeric

numérique, variable

O

observation

odds ratio

odds ratio, intervalle de confiance

opérateur de comparaison

opérateur logique

optimal matching

optimal, appariement

ordinaire, régression logistique

ordinale, régression logistique

ordonner le tri à plat

P

package

palette de couleurs

partition

pas à pas, sélection descendante

patron

perte relative d’inertie

Phi², distance

plan d’échantillonnage

plan factoriel

poids de réplication

points, nuage de

pondération

position, indexation

projets

prompt

proportion, intervalle de confiance

proportion, test de comparaison

proxy

Q

qualitative, variable

quantile

quantitative, variable

quartile

R

rapport des cotes

raster

recodage de variables

recyclage

recycling rule

réel, nombre

référence, modalité

régression linéaire

régression logistique

régression logistique binaire

régression logistique multinomiale

régression logistique ordinaire

régression logistique ordinale

régression, droite

régulière, expression

relatif, risque

répartition empirique, fonction

répertoire de travail

réplication, poids

résidus de Schoenfeld

résidus du modèle

résolution

ressemblance

révolu, âge

risque relatif

S

SAS, fichier

saut d’inertie

Schoenfeld, résidus

scientifique, notation

script

scripts

secteur, diagramme

section

sélection descendante pas à pas

séparateur de champs

séparateur décimal

séquence, analyse

séquence, tapis

Shapiro-Wilk, test de normalité

similarité, indice

sous-échantillon

SPSS, fichier

statistique bivariée

statistique descriptive

statistique univariée

strate

stratifié, échantillonnage

structure d’un objet

Student, test-t

Student, test t

survie, analyse

T

tableau croisé

tableau croisé, coefficient de contingence de Cramer

tableau croisé, graphique en mosaïque

tableau croisé, test exact de Fisher

tableau de donnée

tableau de données, fusion

tableau de données, tri

tableau de fréquences

tagged missing value

tagged NA

tapis

task view

test d’égalité des variances

test de comparaison de deux proportions

test de normalité de Shapiro-Wilk

test de Wilcoxon/Mann-Whitney

test du Chi²

test du Chi², résidus

test exact de Fisher

test t de Student

texte

texte tabulé, fichier

texte, fichier

tibble

tidy data

tidyverse

total

trajectoire biographique

transversale, entropie

tri à plat

tri à plat, ordonner

U

univariée, statistique

V

valeur booléenne

valeur logique

valeur manquante

valeur manquante déclarée

valeur, étiquette

variable

variable catégorielle

variable d’intérêt

variable explicative

variable labellisée

variable numérique

variable qualitative

variable quantitative

variable, étiquette

variable, recodage

variance

variance inflation factor

variance, analyse de

variance, test d’égalité

vecteur

vecteur labellisé

vector

viewer

VIF

violin plot

violon, graphique en

visionneusee

W

Ward, méthode

Wilcoxon, test


  1. https://statisticalhorizons.com/multicollinearity

  2. Pour plus de détails, voir ce post de Davig Giles qui explique pourquoi ce n’est pas possible.

  3. https://statisticalhorizons.com/multicollinearity

  4. Pour plus de détails, voir ce post de Davig Giles qui explique pourquoi ce n’est pas possible.