est survival.

Un très bon tutoriel (en anglais et en 3 étapes), introduisant les concepts de l’analyse de survie, des courbes de Kaplan-Meier et des modèles de Cox et leur mise en oeuvre pratique sous R est disponible en ligne :

Pour un autre exemple (toujours en anglais) d’analyse de survie avec survival, on pourra se référer à .

Pour représenter vos résultats avec ggplot2, on pourra avoir recours à l’extension survminer présentée en détails sur son site officiel (en anglais) : . On pourra également avoir recours à la fonction ggsurv de l’extension GGally présentée à l’adresse .

A noter, il est possible d’utiliser la fonction step sur un modèle de Cox, pour une sélection pas à pas d’un meilleur modèle basé sur une minimisation de l’AIC (voir le chapitre sur la régression logistique).

L’excellente extension broom peut également être utilisée sur des modèles de survie (Kaplan-Meier ou Cox) pour en convertir les résultats sous la forme d’un tableau de données.

Pour approfondir les possibilités offertes par l’extension survival, on pourra également consulter les différentes vignettes fournies avec l’extension (voir ).

Un exemple concret : mortalité infanto-juvénile

Dans cet exemple, nous allons utiliser le jeu de données fecondite fourni par l’extension questionr. Ce jeu de données comporte trois tableaux de données : menages, femmes et enfants.

Nous souhaitons étudier ici la survie des enfants entre la naissance et l’âge de 5 ans. Dans un premier temps, nous comparerons la survie des jeunes filles et des jeunes garçons. Dans un second temps, nous procéderons à une analyse multivariée en prenant en compte les variables suivantes :

  • sexe de l’enfant
  • milieu de résidence
  • niveau de vie du ménage
  • structure du ménage
  • niveau d’éducation de la mère
  • âge de la mère à la naissance de l’enfant
  • enfin, une variable un peu plus compliquée, à savoir si le rang de naissance de l’enfant (second, troisième, quatrième, etc.) est supérieur au nombre idéal d’enfants selon la mère.

Nous allons préparer les données selon deux approches : soit en utilisant l’extension data.table (voir l’introduction à data.table), soit en utilisant l’extension dplyr (voir l’introduction à dplyr).

Chargeons les données en mémoire et listons les variables disponibles.

library(questionr)
data(fecondite)
lookfor(menages)
lookfor(femmes)
lookfor(enfants)

Préparation des données avec data.table

Tout d’abord, regardons sous quel format elles sont stockées.

class(menages)
describe(menages)

Les tableaux de données sont au format tibble (c’est-à-dire sont de la classe tbl_df) et les variables catégorielles sont du type labelled (voir le chapitre sur les vecteurs labellisés). Ce format correspond au format de données si on les avait importées depuis SPSS avec l’extension haven (voir le chapitre sur l’import de données).

En premier lieu, il nous faut convertir les tableaux de données au format data.table, ce qui peut se faire avec la fonction setDT1. Par ailleurs, nous allons également charger en mémoire l’extension labelled pour la gestion des vecteurs labellisés.

{r, message=FALSE} library(labelled) library(data.table) setDT(menages) setDT(femmes) setDT(enfants)

En premier lieu, il nous faut calculer la durée d’observation des enfants, à savoir le temps passé entre la date de naissance (variable du fichier enfants) et la date de passation de l’entretien (fournie par le tableau de données femmes). Pour récupérer des variables du fichier femmes dans le fichier enfants, nous allons procéder à une fusion de table (voir le chapitre dédié). Pour le calcul de la durée d’observation, nous allons utiliser le package lubridate (voir le chapitre calculer un âge et celui sur la gestion des dates). Nous effectuerons l’analyse en mois (puisque l’âge au décès est connu en mois). Dès lors, la durée d’observation sera calculée en mois.

```{r, message=FALSE} enfants censure à droite

ou tagged missing value. Plus de détails sur ces données manquantes étiquettées, on se référera à la page d’aide de la fonction tagged_na.

.

. Plus de détails sur ces données manquantes étiquettées, on se référera à la page d’aide de la fonction tagged_na.

A

ACM

ACP

AFC

âge

âge atteint dans l’année

âge au dernier anniversaire

âge exact

AIC

aide

aide en ligne

Akaike Information Criterion

aléatoire, échantillonnage

analyse de séquences

analyse de survie est survival.

Un très bon tutoriel (en anglais et en 3 étapes), introduisant les concepts de l’analyse de survie, des courbes de Kaplan-Meier et des modèles de Cox et leur mise en oeuvre pratique sous R est disponible en ligne :

Pour un autre exemple (toujours en anglais) d’analyse de survie avec survival, on pourra se référer à .

Pour représenter vos résultats avec ggplot2, on pourra avoir recours à l’extension survminer présentée en détails sur son site officiel (en anglais) : . On pourra également avoir recours à la fonction ggsurv de l’extension GGally présentée à l’adresse .

A noter, il est possible d’utiliser la fonction step sur un modèle de Cox, pour une sélection pas à pas d’un meilleur modèle basé sur une minimisation de l’AIC (voir le chapitre sur la régression logistique).

L’excellente extension broom peut également être utilisée sur des modèles de survie (Kaplan-Meier ou Cox) pour en convertir les résultats sous la forme d’un tableau de données.

Pour approfondir les possibilités offertes par l’extension survival, on pourra également consulter les différentes vignettes fournies avec l’extension (voir ).

Un exemple concret : mortalité infanto-juvénile

Dans cet exemple, nous allons utiliser le jeu de données fecondite fourni par l’extension questionr. Ce jeu de données comporte trois tableaux de données : menages, femmes et enfants.

Nous souhaitons étudier ici la survie des enfants entre la naissance et l’âge de 5 ans. Dans un premier temps, nous comparerons la survie des jeunes filles et des jeunes garçons. Dans un second temps, nous procéderons à une analyse multivariée en prenant en compte les variables suivantes :

  • sexe de l’enfant
  • milieu de résidence
  • niveau de vie du ménage
  • structure du ménage
  • niveau d’éducation de la mère
  • âge de la mère à la naissance de l’enfant
  • enfin, une variable un peu plus compliquée, à savoir si le rang de naissance de l’enfant (second, troisième, quatrième, etc.) est supérieur au nombre idéal d’enfants selon la mère.

Nous allons préparer les données selon deux approches : soit en utilisant l’extension data.table (voir l’introduction à data.table), soit en utilisant l’extension dplyr (voir l’introduction à dplyr).

Chargeons les données en mémoire et listons les variables disponibles.

library(questionr)
data(fecondite)
lookfor(menages)
lookfor(femmes)
lookfor(enfants)

Préparation des données avec data.table

Tout d’abord, regardons sous quel format elles sont stockées.

class(menages)
describe(menages)

Les tableaux de données sont au format tibble (c’est-à-dire sont de la classe tbl_df) et les variables catégorielles sont du type labelled (voir le chapitre sur les vecteurs labellisés). Ce format correspond au format de données si on les avait importées depuis SPSS avec l’extension haven (voir le chapitre sur l’import de données).

En premier lieu, il nous faut convertir les tableaux de données au format data.table, ce qui peut se faire avec la fonction setDT2. Par ailleurs, nous allons également charger en mémoire l’extension labelled pour la gestion des vecteurs labellisés.

{r, message=FALSE} library(labelled) library(data.table) setDT(menages) setDT(femmes) setDT(enfants)

En premier lieu, il nous faut calculer la durée d’observation des enfants, à savoir le temps passé entre la date de naissance (variable du fichier enfants) et la date de passation de l’entretien (fournie par le tableau de données femmes). Pour récupérer des variables du fichier femmes dans le fichier enfants, nous allons procéder à une fusion de table (voir le chapitre dédié). Pour le calcul de la durée d’observation, nous allons utiliser le package lubridate (voir le chapitre calculer un âge et celui sur la gestion des dates). Nous effectuerons l’analyse en mois (puisque l’âge au décès est connu en mois). Dès lors, la durée d’observation sera calculée en mois.

``{r, message=FALSE} enfants censure à droite). Par ailleurs, une seconde variable indiquant si les individus ont vécu l'évènement (0 pour non, 1 pour oui). Or, ici, la variable survie est codée 0 pour les décès et 1 pour ceux ayant survécu. Pour plus de détails, voir l'aide de la fonctionSurv`{data-pkg=“survival”}.

``{r} enfants[, deces := 0] enfants[survie == 0, deces := 1] var_label(enfants$deces) id_menage de la tablefemmespour pouvoir fusionner ensuite la tableenfantsavec la tablemenages. Par ailleurs, pour éviter une confusion sur la variable date_naissance, nous renommons à la volée cette variable de la tablefemmes` en date_naissance_mere.

```{r} enfants structure.

freq(enfants$structure)

Tout d’abord, la modalité pas d’adulte n’est pas représentée dans l’échantillon. On aura donc recours à l’argument drop_unused_labels pour ne pas conserver cette modalité. Par ailleurs, nous considérons que la situation familiale à partir de laquelle nous voudrons comparer les autres dans notre modèle, donc celle qui doit être considérée comme la modalité de référence, est celle du ménage nucléaire. Cette modalité (deux adultes de sexe opposé) n’étant pas la première, nous aurons recours à la fonction relevel{data-pkg = “stats”}.

enfants[, structure := to_factor(structure)]
enfants[, structure := relevel(structure, "deux adultes de sexe opposé")]

Regardons la variable educ.

freq(enfants$educ)

La modalité supérieur est peu représentée dans notre échantillon. Nous allons la fusionner avec la modalité secondaire (voir la section Regrouper les modalités d’une variable du chapitre Recodage).

enfants[, educ2 := educ]
enfants[educ == 3, educ2 := 2]
val_label(enfants$educ2, 2)  nb_enf_ideal, rang_apres_ideal := "oui"]
enfants[, rang_apres_ideal := factor(rang_apres_ideal)]
enfants[, rang_apres_ideal := relevel(rang_apres_ideal, "non")]

Préparation des données avec dplyr

Tout d’abord, regardons sous quel format elles sont stockées.

data(fecondite)
class(menages)
describe(menages)

Les tableaux de données sont déjà au format tibble (c’est-à-dire sont de la classe tbl_df)3 et les variables catégorielles sont du type labelled (voir le chapitre sur les vecteurs labellisés). Ce format correspond au format de données si on les avait importées depuis SPSS avec l’extension haven (voir le chapitre sur l’import de données).

Nous allons charger en mémoire l’extension labelled pour la gestion des vecteurs labellisés en plus de dplyr.

{r, message=FALSE} library(dplyr) library(labelled)

En premier lieu, il nous faut calculer la durée d’observation des enfants, à savoir le temps passé entre la date de naissance (variable du fichier enfants) et la date de passation de l’entretien (fournie par le tableau de données femmes). Pour récupérer des variables du fichier femmes dans le fichier enfants, nous allons procéder à une fusion de table (voir le chapitre dédié). Pour le calcul de la durée d’observation, nous allons utiliser le package lubridate (voir le chapitre calculer un âge et celui sur la gestion des dates). Nous effectuerons l’analyse en mois (puisque l’âge au décès est connu en mois). Dès lors, la durée d’observation sera calculée en mois.

{r, message=FALSE} library(lubridate) enfants % left_join( femmes %>% select(id_femme, date_entretien), by = "id_femme" ) %>% mutate(duree_observation = time_length( interval(date_naissance, date_entretien), unit = "months" ))

ATTENTION : il y r enfants %>% filter(duree_observation < 0) %>% nrow() enfants soi-disant nés après la date d’enquête ! Quelle que soit l’enquête, il est rare de ne pas observer d’incohérences. Dans le cas présent, il est fort possible que la date d’entretien puisse parfois être erronnée (par exemple si l’enquêteur a inscrit une date sur le questionnaire papier le jour du recensement du ménage mais n’ai pu effectué le questionnaire individuel que plus tard). Nous décidons ici de procéder à une correction en ajoutant un mois aux dates d’entretien problématiques. D’autres approches auraient pu être envisagées, comme par exemple exclure ces observations problématiques. Cependant, cela aurait impacté le calcul du range de naissance pour les autres enfants issus de la même mère. Quoiqu’il en soit, il n’y a pas de réponse unique. À vous de vous adapter au contexte particulier de votre analyse.

enfants$date_entretien[enfants$duree_observation < 0] %
  mutate(duree_observation = time_length(
    interval(date_naissance, date_entretien), 
    unit = "months"
  ))

Regardons maintenant comment les âges au décès ont été collectés.

freq(enfants$age_deces)

Les âges au décès sont ici exprimés en mois révolus. Les décès à un mois révolu correspondent à des décès entre 1 et 2 mois exacts. Par ailleurs, les durées d’observation que nous avons calculées avec time_length sont des durées exactes, c’est-à-dire avec la partie décimale. Pour une analyse de survie, on ne peut mélanger des durées exactes et des durées révolues. Trois approches peuvent être envisagées :

  1. faire l’analyse en mois révolus, auquel cas on ne gardera que la partie entière des durées d’observations avec la fonction trunc ;
  2. considérer qu’un âge au décès de 3 mois révolus correspond en moyenne à 3,5 mois exacts et donc ajouter 0,5 à tous les âges révolus ;
  3. imputer un âge au décès exact en distribuant aléatoirement les décès à 3 mois révolus entre 3 et 4 mois exacts, autrement dit en ajoutant aléatoirement une partie décimale aux âges révolus.

Nous allons ici adopter la troisième approche en considérant que les décès se répartissent de manière uniforme au sein d’un même mois. Nous aurons donc recours à la fonction runif qui permets de générer des valeurs aléatoires entre 0 et 1 selon une distribustion uniforme.

enfants %
  mutate(age_deces_impute = age_deces + runif(n()))

Pour définir notre objet de survie, il nous faudra deux variables. Une première, temporelle, indiquant la durée à laquelle survient l’évènement étudié (ici le décès) pour ceux ayant vécu l’évènement et la durée d’observation pour ceux n’ayant pas vécu l’évènement (censure à droite). Par ailleurs, une seconde variable indiquant si les individus ont vécu l’évènement (0 pour non, 1 pour oui). Or, ici, la variable survie est codée 0 pour les décès et 1 pour ceux ayant survécu. Pour plus de détails, voir l’aide de la fonction Surv.

enfants %
  mutate(deces = if_else(survie == 0, 1, 0)) %>%
  set_variable_labels(deces = "Est décédé ?") %>%
  set_value_labels(deces = c(non = 0, oui = 1)) %>%
  mutate(time = if_else(deces == 1, age_deces_impute, duree_observation))

Occupons-nous maintenant des variables explicatives que nous allons inclure dans l’analyse. Tout d’abord, ajoutons à la table enfants les variables nécessaires des tables femmes et menages. Notons qu’il nous faudra importer id_menage de la table femmes pour pouvoir fusionner ensuite la table enfants avec la table menages. Par ailleurs, pour éviter une confusion sur la variable date_naissance, nous renommons à la volée cette variable de la table femmes en date_naissance_mere.

enfants %
  left_join(
    select(femmes,
      id_femme, id_menage, milieu, educ, 
      date_naissance_mere = date_naissance, nb_enf_ideal
    ),
    by = "id_femme"
  ) %>%
  left_join(
    select(menages, id_menage, structure, richesse),
    by = "id_menage"
  )

Les variables catégorielles sont pour l’heure sous formes de vecteurs labellisés. Or, dans un modèle, il est impératif de les convertir en facteurs pour qu’elles soient bien traitées comme des variables catégorielles (autrement elles seraient traitées comme des variables continues). On aura donc recours à la fonction to_factor de l’extension labelled.

enfants %
  mutate(sexe = to_factor(sexe), richesse = to_factor(richesse))

Regardons plus attentivement, la variable structure.

freq(enfants$structure)

Tout d’abord, la modalité pas d’adulte n’est pas représentée dans l’échantillon. On aura donc recours à l’argument drop_unused_labels pour ne pas conserver cette modalité. Par ailleurs, nous considérons que la situation familiale à partir de laquelle nous voudrons comparer les autres dans notre modèle, donc celle qui doit être considérée comme la modalité de référence, est celle du ménage nucléaire. Cette modalité (deux adultes de sexe opposé) n’étant pas la première, nous aurons recours à la fonction relevel{data-pkg = “stats”}.

enfants %
  mutate(structure = relevel(
    to_factor(structure, drop_unused_labels = TRUE),
    "deux adultes de sexe opposé"
  ))

Regardons la variable educ.

freq(enfants$educ)

La modalité supérieur est peu représentée dans notre échantillon. Nous allons la fusionner avec la modalité secondaire (voir la section Regrouper les modalités d’une variable du chapitre Recodage).

enfants %
  mutate(educ2 = ifelse(educ == 3, 2, educ)) %>%
  set_value_labels(educ2 = c(
    aucun = 0,
    primaire = 1,
    "secondaire ou plus" = 2
  )) %>%
  mutate(educ2 = to_factor(educ2))
freq(enfants$educ2)

Calculons maintenant l’âge de la mère à la naissance de l’enfant (voir le chapitre Caluler un âge) et découpons le en groupes d’âges (voir la section Découper une variable numérique en classes du chapitre Recodage).

enfants %
  mutate(
    age_mere_naissance = time_length(
      interval(date_naissance_mere, date_naissance), 
      unit = "years"
    ),
    gpage_mere_naissance = cut(
      age_mere_naissance, 
      include.lowest = TRUE, right = FALSE,
      breaks=c(13, 20, 30, 50)
    )
  )
  
levels(enfants$gpage_mere_naissance) %
  arrange(id_femme, date_naissance) %>%
  group_by(id_femme) %>%
  mutate(
    rang = rank(date_naissance, ties.method = "max"),
    rang_apres_ideal = ifelse(rang > nb_enf_ideal, "oui", "non"),
    rang_apres_ideal = factor(rang_apres_ideal, levels = c("non", "oui"))
  )

Kaplan-Meir

La courbe de survie de Kaplan-Meir s’obtient avec la fonction survfit de l’extension survival.

{r} library(survival) km_global{r} library(survminer) ggsurvplot(km_global) ``` Courbe de survie de Kaplan-Meier

On peut facilement représenter à la place la courbe cumulée des évènements (l’inverse de la courbe de survie) et la table des effectifs en fonction du temps.

ggsurvplot(km_global, fun = "event", risk.table = TRUE, surv.scale = "percent")

Courbe cumulée des évènements et table des effectifs

Pour comparer deux groupes (ici les filles et les garçons), il suffit d’indiquer la variable de comparaison à survfit.

```{r} km_sexe test du logrank

analyse des biographies

analyse des correspondances multiples

analyse en composante principale

analyse factorielle

analyse factorielle des correspondances

analyse mixte de Hill et Smith

appariement optimal

arbre de classification

argument

argument nommé

argument non nommé

assignation par indexation

assignation, opérateur

attribut

autocomplétion

B

barres cumulées, graphique

barres, diagramme en

bâton, diagramme

bâtons, diagramme en

binaire, régression logistique

biographie, analyse

bitmap

boîte à moustache

boîte à moustaches

booléenne, valeur

booléenne, variable

boxplot

C

CAH

camembert, graphique

caractères, chaîne

catégorielle, variable

censure à droite

cercle de corrélation

chaîne de caractères

character

chemin relatif

Chi², distance

Chi², résidus

Chi², test

classe de valeurs

classe, homogénéité

classification ascendante hiérarchique

classification, arbre

Cleveland, diagramme

cluster

coefficient de contingence de Cramer

coefficient de corrélation

coefficient, modèle

coloration syntaxique

commentaire

comparaison de courbes de survie (test du logrank)

comparaison de médianes, test

comparaison de moyennes

comparaison de proportions, test

comparaison, opérateur

Comprehensive R Archive Network

condition, indexation

confusion, matrice

console

corrélation, cercle

corrélation, coefficient

corrélation, matrice de

correspondances, analyse factorielle

couleur, palette

courbe de densité

Cox, modèle

Cramer, coefficient de contingence

CRAN

croisé, tableau

CSV, fichier

D

data frame

data.frame

date, variable

dendrogramme

densité, courbe de

densité, estimation locale

descriptive, statistique

design

diagramme de Cleveland

diagramme de Lexis

diagramme en barres

diagramme en bâtons

diagramme en secteur

distance

distance de Gower

distance du Chi²

distance du Phi²

distance, matrice

distribution

donnée labelissée

données pondérées

données, exporter

données, tableau

droite de régression

droite, censure

E

écart-type

écart interquartile

échantillonnage aléatoire simple

échantillonnage équiprobable

échantillonnage par grappes

échantillonnage stratifié

échantillonnage, plan

éditeur de script

empirical cumulative distribution function

entier

entier, nombre

entropie transversale

environnement de développement

environnement de travail

équiprobable, échantillonnage

estimation locale de densité

estimation par noyau

étendue

étiquette de valeur

étiquette de variable

étiquettes de valeurs

event history analysis

exact, âge

explicative, variable

export de graphiques

exporter des données

extension

F

facteur

factor

factoriel, plan

factorielle, analyse

fichier CSV

fichier de commandes

fichier texte

fichiers Shapefile

Fisher, test exact

fonction

fonction de répartition empirique

formule

fréquence, tableau

fusion de tables

G

gestionnaire de versions

Gower, distance

Gower, indice de similarité

graphique en mosaïque

graphique en violon

graphique, export

grappe, échantillonnage

H

hazard ratio (HR)

Hill et Smith, analyse mixte

histogramme

historique des commandes

homogénéité des classes

I

image bitmap

image matricielle

image vectorielle

indépendance

indertie, perte relative

index plots

indexation

indexation bidimensionnelle

indexation directe

indexation par condition

indexation par nom

indexation par position

indexation, assignation

indice de similarité

indice de similarité de Gower

inertie

inertie, saut

installation

integer

interface

interquartilen écart

intervalle de confiance

intervalle de confiance d’un odds ratio

intervalle de confiance d’une moyenne

intervalle de confiance d’une proportion

invite de commande

K

Kaplan-Meir

L

labelled data

labellisé, vecteur

labellisée, donnée

labellisée, variable

level, factor

Lexis, diagramme

libre, logiciel

life course analysis

linéaire, régression

liste

logical

logiciel libre

logique, opérateur

logique, valeur

logistique, régression

logrank, test (comparaison de courbes de survie)

loi normale

M

Mann-Whitney, test

manquante, valeur

matching, optimal

matrice de confusion

matrice de corrélation

matrice de distances

maximum

médiane

médiane, test de comparaison

métadonnée

méthode de Ward

minimum

mise à jour, R

modalité

modalité de référence

modalité, facteur

modèle de Cox

modèle linéaire généralisé

mosaïque, graphique

moustaches, boîte

moyenne

moyenne, âge

moyenne, comparaison

moyenne, intervalle de confiance

multidimensional scaling

multinomiale, régression logistique

N

NA

nom, indexation

nombre entier

nombre réel

normale, loi

normalité, test de Shapiro-Wilk

notation formule

notation scientifique

noyau, estimation

nuage de points

numeric

numérique, variable

O

observation

odds ratio

odds ratio, intervalle de confiance

opérateur de comparaison

opérateur logique

optimal matching

optimal, appariement

ordinaire, régression logistique

ordonner le tri à plat

P

package

palette de couleurs

partition

pas à pas, sélection descendante

patron

perte relative d’inertie

Phi², distance

plan d’échantillonnage

plan factoriel

points, nuage de

pondération

position, indexation

projets

prompt

proportion, intervalle de confiance

proportion, test de comparaison

proxy

Q

qualitative, variable

quantile

quantitative, variable

quartile

R

rapport des cotes

recodage de variables

recyclage

recycling rule

réel, nombre

référence, modalité

régression linéaire

régression logistique

régression logistique binaire

régression logistique multinomiale

régression logistique ordinaire

régression, droite

relatif, risque

répartition empirique, fonction

répertoire de travail

résidus de Schoenfeld

résolution

ressemblance

révolu, âge

risque relatif

S

SAS, fichier

saut d’inertie

Schoenfeld, résidus

scientifique, notation

script

scripts

secteur, diagramme

section

sélection descendante pas à pas

séparateur de champs

séparateur décimal

séquence, analyse

séquence, tapis

Shapiro-Wilk, test de normalité

similarité, indice

sous-échantillon

SPSS, fichier

statistique bivariée

statistique descriptive

statistique univariée

strate

stratifié, échantillonnage

structure d’un objet

Student, test-t

Student, test t

survie, analyse

T

tableau croisé

tableau croisé, coefficient de contingence de Cramer

tableau croisé, graphique en mosaïque

tableau croisé, test exact de Fisher

tableau de donnée

tableau de données, fusion

tableau de données, tri

tableau de fréquences

tagged missing value. Plus de détails sur ces données manquantes étiquettées, on se référera à la page d’aide de la fonction tagged_na.

tagged NA ou tagged missing value. Plus de détails sur ces données manquantes étiquettées, on se référera à la page d’aide de la fonction tagged_na.

tapis

task view

test d’égalité des variances

test de comparaison de deux proportions

test de normalité de Shapiro-Wilk

test de Wilcoxon/Mann-Whitney

test du Chi²

test du Chi², résidus

test exact de Fisher

test t de Student

texte

texte tabulé, fichier

texte, fichier

tibble

tidyverse

total

trajectoire biographique

transversale, entropie

tri à plat

tri à plat, ordonner

U

univariée, statistique

V

valeur booléenne

valeur logique

valeur manquante

valeur manquante déclarée

valeur, étiquette

variable

variable catégorielle

variable d’intérêt

variable explicative

variable labellisée

variable numérique

variable qualitative

variable quantitative

variable, étiquette

variable, recodage

variance

variance, test d’égalité

vecteur

vecteur labellisé

vector

viewer

violin plot

violon, graphique en

W

Ward, méthode

Wilcoxon, test


  1. Pour utiliser simultanément data.table et dplyr, nous aurions préféré la fonction tbl_dt de l’extension dtplyr.

  2. Pour utiliser simultanément data.table et dplyr, nous aurions préféré la fonction tbl_dt de l’extension dtplyr.

  3. Si cela n’avait pas été le cas, nous aurions eu recours à la fonction tbl_df.