Tableaux statistiques avancés avec gtsummary

Remarques sur les types de variables et les sélecteurs associés
Remarques sur la syntaxe des options
Thèmes
Statistiques descriptives avec tbl_summary()
Tableau croisé avec tbl_cross()
Données pondérées et tbl_svysummary()
Statistiques personnalisées avec tbl_continous() et tbl_custom_summary()
Résultats d’un modèle avec tbl_regression()
Combiner des tableaux
Régressions univariées multiples avec tbl_uvregression()
Tables de survie avec tbl_survfit()
Exporter un tableau
Plus d’options avec bstfun

Le package gtsummary est, entre autres, abordé sur guide-R dans les chapitres suivants : Statistique univariée & Intervalles de confiance, Statistique bivariée & Tests de comparaison, Échelles de Likert, Régression linéaire, Régression logistique binaire, Prédictions marginales, contrastes marginaux & effets marginaux.

Ce chapitre est évoqué dans le webin-R #22 (tableaux statistiques avec gtsummary) sur YouTube.

Ce chapitre est évoqué dans le webin-R #23 (tableaux statistiques avec gtsummary : suite) sur YouTube.

L’extension gtsummary a déjà été abordée dans d’autres chapitres, notamment via les fonctions tbl_summary et tbl_svysummary dans le chapitre sur la statistique bivariée ou la fonction tbl_regression dans le chapitre sur la régression logistique.

Dans ce chapitre, nous allons explorer plus en profondeur les différentes options offertes gtsummary pour la réalisation de tableaux statistiques prêts à être publiés.

Les personnes anglophones pourront également se référer à l’excellent site de documentation du package : https://www.danieldsjoberg.com/gtsummary/

library(gtsummary)

Remarques sur les types de variables et les sélecteurs associés

gtsummary permets de réaliser des tableaux statistiques combinant plusieurs variables, l’affichage des résultats pouvant dépendre du type de variables.

Par défaut, gtsummary considère qu’une variable est catégorielle s’il s’agit d’un facteur, d’une variable textuelle ou d’une variable numérique ayant moins de 10 valeurs différentes.

Une variable sera considérée comme dichotomique (variable catégorielle à seulement deux modalités) s’il s’agit d’un vecteur logique (TRUE/FALSE), d’une variable textuelle codée yes/no ou d’une variable numérique codée 0/1.

Dans les autres cas, une variable numérique sera considérée comme continue.

Si vous utilisez des vecteurs labellisés (voir le chapitre dédié), vous devez les convertir, en amont, en facteur ou en variables numériques. Voir l’extension labelled et les fonctions to_factor, unlabelled et unclass.

Nous verrons plus loin qu’il est possible de forcer le type d’une variable et l’existence d’autres types de variables.

gtsummary fournit des sélecteurs qui pourront être utilisés dans les options des différentes fonctions, en particulier all_continuous pour les variables continues, all_dichotolous pour les variables dichotomiques et all_categorical pour les variables catégorielles (incluant les variables dichotomiques, utiliser all_categorical(dichotomous = FALSE) pour sélectionner les variables catégorielles en excluant les variables dichotomiques).

Dans le cadre des tableaux présentant les résultats d’un modèle statistique, il existe en plus d’autres sélecteurs pour sélectionner certains termes spécifiques : all_intercepts (pour sélectionner seulement le ou les intercepts du modèle), all_interaction pour les termes d’interactions entre plusieurs variables, all_contrasts pour sélectionner les variables catégorielles codées avec un contraste particulier.

Remarques sur la syntaxe des options

De nombreuses options des fonctions de gtsummary peuvent s’appliquer seulement à une ou certaines variables. Pour ces options-là, gtsummary attends une formule de la forme variables concernées ~ valeur de l'option ou bien une liste de formules ayant cette forme.

Par exemple, pour modifier l’étiquette associée à une certaine variable, on peut utiliser l’option label de tbl_summary.

tbl_summary(trial, label = age ~ "Âge")
tbl_summary(trial, label = list(age ~ "Âge", trt ~ "Traitement"))

gtsummary est très flexible sur la manière d’indiquer la ou les variables concernées. Il peut s’agir du nom de la variable, d’une chaîne de caractères contenant le nom de la variable, ou d’un vecteur contenant le nom de la variable. Les syntaxes ci-dessous sont ainsi équivalentes.

tbl_summary(trial, label = age ~ "Âge")
tbl_summary(trial, label = "age" ~ "Âge")
v <- "age"
tbl_summary(trial, label = v ~ "Âge")
tbl_summary(trial, label = vars(age) ~ "Âge")

Pour appliquer le même changement à plusieurs variables, plusieurs syntaxes sont acceptées pour lister plusieurs variables.

tbl_summary(trial, label = c("age", "trt") ~ "Une même étiquette")
tbl_summary(trial, label = c(age, trt) ~ "Une même étiquette")
tbl_summary(trial, label = vars(age, trt) ~ "Une même étiquette")

Il est également possible d’utiliser la syntaxe tidyselect et les sélecteurs de tidyselect comme everything, starts_with, contains ou all_of. Ces différents sélecteurs peuvent être combinés au sein d’un c() ou de vars().

tbl_summary(trial, label = everything() ~ "Une même étiquette")
tbl_summary(trial, label = starts_with("a") ~ "Une même étiquette")
tbl_summary(trial, label = c(everything(), -age, -trt) ~ "Une même étiquette")
tbl_summary(trial, label = age:trt ~ "Une même étiquette")

Bien sûr, il est possible d’utiliser les sélecteurs propres à gtsummary.

tbl_summary(trial, label = all_continuous() ~ "Une même étiquette")
tbl_summary(trial, label = list(
  all_continuous() ~ "Variable continue",
  all_dichotomous() ~ "Variable dichotomique",
  all_categorical(dichotomous = FALSE) ~ "Variable catégorielle"
))

Enfin, si l’on ne précise rien à gauche du ~, ce sera considéré comme équivalent à everything(). Les deux syntaxes ci-dessous sont donc équivalentes.

tbl_summary(trial, label = ~"Une même étiquette")
tbl_summary(trial, label = everything() ~ "Une même étiquette")

Thèmes

gtsummary fournit plusieurs fonctions préfixées theme_gtsummary_*() permettant de modifier l’affichage par défaut des tableaux.

La fonction theme_gtsummary_journal permets d’adopter les standards de certaines grandes revues scientifiques telles que JAMA (Journal of the American Medical Association), The Lancet ou encore le NEJM (New England Journal of Medicine).

Par défaut, tbl_summary utilise la médiane et l’intervalle interquartile pour les variables continues. Si on applique theme_gtsummary_mean_sd, la moyenne et l’écart-type seront utilisés par défaut.

La fonction theme_gtsummary_language permet de modifier la langue utilisée par défaut dans les tableaux. Les options decimal.mark et big.mark permettent de définir respectivement le séparateur de décimales et le séparateur des milliers. Ainsi, pour présenter un tableau en français, on appliquera en début de script :

theme_gtsummary_language(language = "fr", decimal.mark = ",", big.mark = " ")

Setting theme `language: fr`

Statistiques descriptives avec tbl_summary()

La fonction tbl_summary permets de réaliser des tris à plats de plusieurs variables, éventuellement croisés selon une variable catégorielle.

On lui passe en entrée un tableaux de données (data.frame) et par défaut toutes les variables sont résumées.

trial %>%
  tbl_summary()

Caractéristique	N = 200¹
Chemotherapy Treatment
Drug A	98 (49%)
Drug B	102 (51%)
Age	47 (38 – 57)
Manquant	11
Marker Level (ng/mL)	0,64 (0,22 – 1,39)
Manquant	10
T Stage
T1	53 (27%)
T2	54 (27%)
T3	43 (22%)
T4	50 (25%)
Grade
I	68 (34%)
II	68 (34%)
III	64 (32%)
Tumor Response	61 (32%)
Manquant	7
Patient Died	112 (56%)
Months to Death/Censor	22,4 (16,0 – 24,0)
¹ n (%); Médiane (EI)

Sélection des variables (include)

La paramètre include permets de spécifier les variables à inclure dans le tableau (et leur ordre). On peut lui passer un vecteur de noms de variables, ou bien utiliser des sélecteurs tidyselect (utiliser c() si plusieurs sélecteurs).

trial %>%
  tbl_summary(include = c("age", "marker", "response"))

Caractéristique	N = 200¹
Age	47 (38 – 57)
Manquant	11
Marker Level (ng/mL)	0,64 (0,22 – 1,39)
Manquant	10
Tumor Response	61 (32%)
Manquant	7
¹ Médiane (EI); n (%)

trial %>%
  tbl_summary(include = c(age:stage, starts_with("t")))

Caractéristique	N = 200¹
Age	47 (38 – 57)
Manquant	11
Marker Level (ng/mL)	0,64 (0,22 – 1,39)
Manquant	10
T Stage
T1	53 (27%)
T2	54 (27%)
T3	43 (22%)
T4	50 (25%)
Chemotherapy Treatment
Drug A	98 (49%)
Drug B	102 (51%)
Months to Death/Censor	22,4 (16,0 – 24,0)
¹ Médiane (EI); n (%)

En fonction d’une seconde variable (by, add_overall)

Le paramètre by permets de résumer chacune des variables inclues en fonction d’une variable catégorielle.

trial %>%
  tbl_summary(
    include = c(age, stage, response),
    by = trt
  )

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹
Age	46 (37 – 59)	48 (39 – 56)
Manquant	7	4
T Stage
T1	28 (29%)	25 (25%)
T2	25 (26%)	29 (28%)
T3	22 (22%)	21 (21%)
T4	23 (23%)	27 (26%)
Tumor Response	28 (29%)	33 (34%)
Manquant	3	4
¹ Médiane (EI); n (%)

La fonction add_overall, appliquée après tbl_summary, permets, lorsqu’une variable by a été définie, de rajouter une colonne avec l’ensemble du fichier. L’option last permets de spécifier si l’on veut ajouter cette colonne à la droite du tableau et col_label permet de personnaliser le titre de la colonne (noter le recours aux ** pour indiquer ce qui doit être affiché en gras et {N} qui sera remplacé par le nombre d’observations).

trial %>%
  tbl_summary(
    include = c(age, stage, response),
    by = trt
  ) %>%
  add_overall(last = TRUE, col_label = "**Ensemble** (effectif total: {N})")

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹	Total, N = 200¹
Age	46 (37 – 59)	48 (39 – 56)	47 (38 – 57)
Manquant	7	4	11
T Stage
T1	28 (29%)	25 (25%)	53 (27%)
T2	25 (26%)	29 (28%)	54 (27%)
T3	22 (22%)	21 (21%)	43 (22%)
T4	23 (23%)	27 (26%)	50 (25%)
Tumor Response	28 (29%)	33 (34%)	61 (32%)
Manquant	3	4	7
¹ Médiane (EI); n (%)

Statistiques affichées (statistic, percent, sort)

Le paramètre statistic permets de sélectionner les statistiques à afficher pour chaque variable. On indiquera une chaîne de caractères dont les différentes statistiques seront indiquées entre accolades ({}).

Pour une variable continue, on pourra utiliser {median} pour la médiane, {mean} pour la moyenne, {sd} pour l’écart type, {var} pour la variance, {min} pour le minimum, {max} pour le maximum, ou encore {p##} (en remplacant ## par un nombre entier entre 00 et 100) pour le percentile correspondant (par exemple p25 et p75 pour le premier et le troisième quartile). Utilisez all_continous pour sélectionner toutes les variables continues.

trial %>%
  tbl_summary(
    include = c(age, marker),
    statistic = all_continuous() ~ "Moy. : {mean} [min-max : {min} - {max}]"
  )

Caractéristique	N = 200¹
Age	Moy. : 47 [min-max : 6 - 83]
Manquant	11
Marker Level (ng/mL)	Moy. : 0,92 [min-max : 0,00 - 3,87]
Manquant	10
¹ Moy. : Moyenne [min-max : Étendue]

Il est possible d’afficher des statistiques différentes pour chaque variable.

trial %>%
  tbl_summary(
    include = c(age, marker),
    statistic = list(
      age ~ "Méd. : {median} [{p25} - {p75}]",
      marker ~ "Moy. : {mean} ({sd})"
    )
  )

Caractéristique	N = 200¹
Age	Méd. : 47 [38 - 57]
Manquant	11
Marker Level (ng/mL)	Moy. : 0,92 (0,86)
Manquant	10
¹ Méd. : Médiane [EI]; Moy. : Moyenne (ET)

Pour les variables continues, il est également possible d’indiquer le nom d’une fonction personnalisée qui prends un vecteur et renvoie une valeur résumé. Par exemple, pour afficher la moyenne des carrés :

moy_carres <- function(x) {
  mean(x^2, na.rm = TRUE)
}
trial %>%
  tbl_summary(
    include = marker,
    statistic = ~"MC : {moy_carres}"
  )

Caractéristique	N = 200¹
Marker Level (ng/mL)	MC : 1,57
Manquant	10
¹ MC : moy_carres

Pour une variable catégorielle, les statistiques possibles sont {n} le nombre d’observations, {N} le nombre total d’observations, et {p} le pourcentage correspondant. Utilisez all_categorical pour sélectionner toutes les variables catégorielles.

trial %>%
  tbl_summary(
    include = c(stage, response),
    statistic = all_categorical() ~ "{p} % ({n}/{N})"
  )

Caractéristique	N = 200¹
T Stage
T1	27 % (53/200)
T2	27 % (54/200)
T3	22 % (43/200)
T4	25 % (50/200)
Tumor Response	32 % (61/193)
Manquant	7
¹ % % (n/N)

Il est possible, pour une variable catégorielle, de trier les modalités de la plus fréquente à la moins fréquente avec le paramètre sort.

trial %>%
  tbl_summary(
    include = c(stage, response),
    sort = all_categorical() ~ "frequency"
  )

Caractéristique	N = 200¹
T Stage
T2	54 (27%)
T1	53 (27%)
T4	50 (25%)
T3	43 (22%)
Tumor Response	61 (32%)
Manquant	7
¹ n (%)

Lorsqu’une variable by est définie, on peut utiliser percent pour indiquer le type de pourcentages : en ligne avec "row", en colonne avec "column" et "cell" pour les pourcentages totaux.

trial %>%
  tbl_summary(
    include = c(stage, response),
    by = grade,
    statistic = all_categorical() ~ "{p} % ({n}/{N})",
    percent = "row"
  ) %>%
  add_overall(last = TRUE)

Caractéristique	I, N = 68¹	II, N = 68¹	III, N = 64¹	Total, N = 200¹
T Stage
T1	32 % (17/53)	43 % (23/53)	25 % (13/53)	100 % (53/53)
T2	33 % (18/54)	31 % (17/54)	35 % (19/54)	100 % (54/54)
T3	42 % (18/43)	26 % (11/43)	33 % (14/43)	100 % (43/43)
T4	30 % (15/50)	34 % (17/50)	36 % (18/50)	100 % (50/50)
Tumor Response	34 % (21/61)	31 % (19/61)	34 % (21/61)	100 % (61/61)
Manquant	1	5	1	7
¹ % % (n/N)

Pour toutes les variables (catégorielles et continues), les statistiques suivantes sont également disponibles : {N_obs} le nombre total d’observations, {N_miss} le nombre d’observations manquantes (NA), {N_nonmiss} le nombre d’observations non manquantes, {p_miss} le pourcentage d’observations manquantes (i.e. N_miss / N_obs) et {p_nonmiss} le pourcentage d’observations non manquantes (i.e. N_nonmiss / N_obs).

Affichage du nom des statistiques (add_stat_label)

Lorsque l’on affiche de multiples statistiques, la liste des statistiques est regroupée dans une note de tableau qui peut vite devenir un peu confuse.

tbl <- trial %>%
  tbl_summary(
    include = c(age, marker, grade),
    by = trt,
    statistic = list(
      age ~ "{median} [{p25} - {p75}]",
      marker ~ "{mean} ({sd})"
    )
  )
tbl

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹
Age	46 [37 - 59]	48 [39 - 56]
Manquant	7	4
Marker Level (ng/mL)	1,02 (0,89)	0,82 (0,83)
Manquant	6	4
Grade
I	35 (36%)	33 (32%)
II	32 (33%)	36 (35%)
III	31 (32%)	33 (32%)
¹ Médiane [EI]; Moyenne (ET); n (%)

La fonction add_stat_label permets d’indiquer le type de statistique à côté du nom des variables ou bien dans une colonne dédiée, plutôt qu’en note de tableau.

tbl %>% add_stat_label()

Caractéristique	Drug A, N = 98	Drug B, N = 102
Age, Médiane [EI]	46 [37 - 59]	48 [39 - 56]
Manquant	7	4
Marker Level (ng/mL), Moyenne (ET)	1,02 (0,89)	0,82 (0,83)
Manquant	6	4
Grade, n (%)
I	35 (36%)	33 (32%)
II	32 (33%)	36 (35%)
III	31 (32%)	33 (32%)

tbl %>% add_stat_label(location = "column")

Caractéristique	Statistique	Drug A, N = 98	Drug B, N = 102
Age	Médiane [EI]	46 [37 - 59]	48 [39 - 56]
Manquant	n	7	4
Marker Level (ng/mL)	Moyenne (ET)	1,02 (0,89)	0,82 (0,83)
Manquant	n	6	4
Grade
I	n (%)	35 (36%)	33 (32%)
II	n (%)	32 (33%)	36 (35%)
III	n (%)	31 (32%)	33 (32%)

Forcer le type de variable (type, value)

Comme abordé plus haut, gtsummary détermine automatiquement le type de chaque variable. Par défaut, la variabe age est traitée comme variable continue, death comme dichotomique (seule la valeur 1 est affichée) et grade comme variable catégorielle.

trial %>%
  tbl_summary(
    include = c(grade, age, death)
  )

Caractéristique	N = 200¹
Grade
I	68 (34%)
II	68 (34%)
III	64 (32%)
Age	47 (38 – 57)
Manquant	11
Patient Died	112 (56%)
¹ n (%); Médiane (EI)

Il est cependant possible de forcer un certain type avec l’argument type. Précision, lorsque l’on force une variable en dichotomique, il faut indiquer avec value la valeur à afficher (les autres sont alors masquées).

trial %>%
  tbl_summary(
    include = c(grade, age, death),
    type = list(
      grade ~ "dichotomous",
      age ~ "categorical",
      death ~ "categorical"
    ),
    value = grade ~ "III",
    label = grade ~ "Grade III"
  )

Caractéristique	N = 200¹
Grade III	64 (32%)
Age
6	1 (0,5%)
9	1 (0,5%)
10	1 (0,5%)
17	1 (0,5%)
19	2 (1,1%)
20	1 (0,5%)
21	2 (1,1%)
23	1 (0,5%)
25	2 (1,1%)
26	2 (1,1%)
27	1 (0,5%)
28	2 (1,1%)
30	1 (0,5%)
31	7 (3,7%)
32	2 (1,1%)
33	2 (1,1%)
34	6 (3,2%)
35	2 (1,1%)
36	5 (2,6%)
37	4 (2,1%)
38	7 (3,7%)
39	5 (2,6%)
40	2 (1,1%)
41	3 (1,6%)
42	4 (2,1%)
43	7 (3,7%)
44	6 (3,2%)
45	6 (3,2%)
46	3 (1,6%)
47	7 (3,7%)
48	7 (3,7%)
49	6 (3,2%)
50	4 (2,1%)
51	6 (3,2%)
52	4 (2,1%)
53	6 (3,2%)
54	5 (2,6%)
55	2 (1,1%)
56	3 (1,6%)
57	5 (2,6%)
58	3 (1,6%)
59	1 (0,5%)
60	4 (2,1%)
61	5 (2,6%)
62	1 (0,5%)
63	4 (2,1%)
64	1 (0,5%)
65	3 (1,6%)
66	4 (2,1%)
67	4 (2,1%)
68	3 (1,6%)
69	2 (1,1%)
70	1 (0,5%)
71	3 (1,6%)
74	1 (0,5%)
75	1 (0,5%)
76	2 (1,1%)
78	1 (0,5%)
83	1 (0,5%)
Manquant	11
Patient Died
0	88 (44%)
1	112 (56%)
¹ n (%)

Afficher des statistiques sur plusieurs lignes (continuous2)

Pour les variables continues, gtsummary a introduit un type de variable "continuous2", qui doit être attribué manuellement via type, et qui permets d’afficher plusieurs lignes de statistiques (en indiquant plusieurs chaînes de caractères dans statistic). À noter le sélecteur dédié all_continuous2.

trial %>%
  tbl_summary(
    include = c(age, marker, ttdeath),
    type = c(age, marker) ~ "continuous2",
    statistic = all_continuous2() ~ c("{median} ({p25} - {p75}", "{mean} ({sd})", "{min} - {max}")
  )

Caractéristique	N = 200¹
Age
Médiane (EI	47 (38 - 57
Moyenne (ET)	47 (14)
Étendue	6 - 83
Manquant	11
Marker Level (ng/mL)
Médiane (EI	0,64 (0,22 - 1,39
Moyenne (ET)	0,92 (0,86)
Étendue	0,00 - 3,87
Manquant	10
Months to Death/Censor	22,4 (16,0 – 24,0)
¹ Médiane (EI)

Mise en forme des statistiques (digits)

L’argument digits permet de spécifier comment mettre en forme les différentes statistiques. Le plus simple est d’indiquer le nombre de décimales à afficher. Il est important de tenir compte que plusieurs statistiques peuvent être affichées pour une même variable. On peut alors indiquer une valeur différente pour chaque statistique.

trial %>%
  tbl_summary(
    include = c(age, stage),
    by = trt,
    digits = list(
      all_continuous() ~ 1,
      all_categorical() ~ c(0, 1)
    )
  )

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹
Age	46,0 (37,0 – 59,0)	48,0 (39,0 – 56,0)
Manquant	7	4
T Stage
T1	28 (28,6%)	25 (24,5%)
T2	25 (25,5%)	29 (28,4%)
T3	22 (22,4%)	21 (20,6%)
T4	23 (23,5%)	27 (26,5%)
¹ Médiane (EI); n (%)

Au lieu d’un nombre de décimales, on peut indiquer plutôt une fonction à appliquer pour mettre en forme le résultat. Par exemple, gtsummary fournit les fonctions suivantes : style_number pour les nombres de manière générale, style_percent pour les pourcentages (les valeurs sont multipliées par 100, mais le symbole % n’est pas ajouté), style_pvalue pour les p-valeurs, style_sigfig qui n’affiche (par défaut) que deux chiffres significatifs, ou encore style_ratio qui est une variante de style_sigfig pour les ratios (comme les odds ratios) que l’on compare à 1.

Il faiut bien noter que ce qui est attendu par digits, c’est une fonction et non le résultat d’une fonction. On indiquera donc le nom de la fonction sans parenthèse.

trial %>%
  tbl_summary(include = marker)

Caractéristique	N = 200¹
Marker Level (ng/mL)	0,64 (0,22 – 1,39)
Manquant	10
¹ Médiane (EI)

trial %>%
  tbl_summary(
    include = marker,
    digits = all_continuous() ~ c(style_percent, style_pvalue, style_ratio)
  )

Caractéristique	N = 200¹
Marker Level (ng/mL)	64 (0,2 – 1,39)
Manquant	10
¹ Médiane (EI)

Comme digits attends à recevoir une fonction (et non le résultat) d’une fonction, on ne peut pas passer directement des arguments aux fonctions style_*() de gtsummary. Pour cela il faut créer une fonction à la levée :

trial %>%
  tbl_summary(
    include = marker,
    statistic = ~"{mean} pour 100",
    digits = ~ function(x) {
      style_percent(x, digits = 1)
    }
  )

Caractéristique	N = 200¹
Marker Level (ng/mL)	91,6 pour 100
Manquant	10
¹ Moyenne pour 100

Une syntaxe alternative consiste à avoir recours à la fonction partial de purrr qui permet d’appeler partiellement une fonction et de renvoyer une nouvelle fonction.

trial %>%
  tbl_summary(
    include = marker,
    statistic = ~"{mean} pour 100",
    digits = ~ purrr::partial(style_percent, digits = 1)
  )

Caractéristique	N = 200¹
Marker Level (ng/mL)	91,6 pour 100
Manquant	10
¹ Moyenne pour 100

À noter dans l’exemple précédent que les fonctions style_*() de gtsummary tiennent compte du thème défini (ici la virgule comme séparateur de décimale).

Pour une mise en forme plus avancée des nombres, il faut se tourner vers l’extension scales (choir le chapitre dédié). ATTENTION : les fonctions de scales n’héritent pas des paramètres du thème gtsummary actif. Il faut donc personnaliser le séparateur de décimal dans l’appel à la fonction.

trial %>%
  tbl_summary(
    include = marker,
    statistic = ~"{mean}",
    digits = ~ scales::label_number(accuracy = .01, suffix = " ng/mL", decimal.mark = ",")
  )

Caractéristique	N = 200¹
Marker Level (ng/mL)	0,92 ng/mL
Manquant	10
¹ Moyenne

Données manquantes (missing, missing_text)

Le paramètre missing permets d’indiquer s’il faut afficher le nombre d’observations manquantes (c’est-à-dire égales à NA) : "ifany" (valeur par défaut) affiche ce nombre seulement s’il y en a, "no" masque ce nombre et "always" force l’affichage de ce nombre même s’il n’y pas de valeur manquante. Le paramètre missing_text permets de personnaliser le texte affiché.

trial %>%
  tbl_summary(include = c(trt, age))

Caractéristique	N = 200¹
Chemotherapy Treatment
Drug A	98 (49%)
Drug B	102 (51%)
Age	47 (38 – 57)
Manquant	11
¹ n (%); Médiane (EI)

trial %>%
  tbl_summary(
    include = c(trt, age),
    missing = "always",
    missing_text = "Nbre observations manquantes"
  )

Caractéristique	N = 200¹
Chemotherapy Treatment
Drug A	98 (49%)
Drug B	102 (51%)
Nbre observations manquantes	0
Age	47 (38 – 57)
Nbre observations manquantes	11
¹ n (%); Médiane (EI)

Il est à noter, pour les variables catégorielles, que les valeurs manquantes ne sont jamais pris en compte pour le calcul des pourcentages. Pour les inclure dans le calcul, il faut les transformer en valeurs explicites, par exemple avec fct_explicit_na de forcats.

trial %>%
  tbl_summary(include = response, type = response ~ "categorical")

Caractéristique	N = 200¹
Tumor Response
0	132 (68%)
1	61 (32%)
Manquant	7
¹ n (%)

trial %>%
  mutate(response = response %>% as.factor() %>% forcats::fct_explicit_na(na_level = "non observé")) %>%
  tbl_summary(include = response)

Warning: There was 1 warning in `mutate()`.
ℹ In argument: `response = response %>% as.factor() %>%
  forcats::fct_explicit_na(na_level = "non observé")`.
Caused by warning:
! `fct_explicit_na()` was deprecated in forcats 1.0.0.
ℹ Please use `fct_na_value_to_level()` instead.

Caractéristique	N = 200¹
response
0	132 (66%)
1	61 (31%)
non observé	7 (3,5%)
¹ n (%)

Étiquettes des variables (label)

gtsummary, par défaut, prends en compte les étiquettes de variables, si elles existent, et sinon utilisera le nom de chaque variable dans le tableau. Pour rappel, les étiquettes de variables peuvent être manipulées avec l’extension labelled et les fonctions var_label et set_variable_labels.

Il est aussi possible d’utiliser l’option label de tbl_summary pour indiquer des étiquettes personnalisées.

iris %>%
  labelled::set_variable_labels(
    Petal.Length = "Longueur du pétale",
    Petal.Width = "Largeur du pétale"
  ) %>%
  tbl_summary(label = Species ~ "Espèce")

Caractéristique	N = 150¹
Sepal.Length	5,80 (5,10 – 6,40)
Sepal.Width	3,00 (2,80 – 3,30)
Longueur du pétale	4,35 (1,60 – 5,10)
Largeur du pétale	1,30 (0,30 – 1,80)
Espèce
setosa	50 (33%)
versicolor	50 (33%)
virginica	50 (33%)
¹ Médiane (EI); n (%)

Pour modifier les modalités d’une variable catégorielle, il faut modifier en amont les niveaux du facteur correspondant.

Afficher les effectifs (add_n)

La fonction add_n permets d’ajouter une colonne avec le nombre d’observations (non manquantes par défaut). Plusieurs options permettent de personnaliser le résultat : col_label pour modifier l’intitulé de la colonne; statistic pour personnaliser la ou les statistiques affichées (la liste des statistiques disponibles est disponible dans le fichier d’aide add_n.tbl_summary); last pour la positition de la colonne; footnote pour l’ajout d’une note de tableau.

trial %>%
  tbl_summary(include = c(age, marker)) %>%
  add_n()

Caractéristique	N	N = 200¹
Age	189	47 (38 – 57)
Manquant		11
Marker Level (ng/mL)	190	0,64 (0,22 – 1,39)
Manquant		10
¹ Médiane (EI)

trial %>%
  tbl_summary(
    include = c(age, marker),
    by = trt,
    missing = "no"
  ) %>%
  add_n(
    statistic = "{n}/{N}",
    col_label = "**Effectifs** (observés / total)",
    last = TRUE,
    footnote = TRUE
  ) %>%
  add_overall(last = TRUE)

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹	Effectifs (observés / total)²	Total, N = 200¹
Age	46 (37 – 59)	48 (39 – 56)	189/200	47 (38 – 57)
Marker Level (ng/mL)	0,84 (0,24 – 1,57)	0,52 (0,19 – 1,20)	190/200	0,64 (0,22 – 1,39)
¹ Médiane (EI)
² N non manquant/N total

Mise en forme du tableau (bold_labels, italicize_levels)

Les fonctions bold_labels, bold_levels, italicize_labels et italicize_levels permettent d’afficher les étiquettes de variables et les modalités des variables catégorielles en gras ou en italique.

trial %>%
  tbl_summary(
    include = c(marker, grade, stage),
    by = trt
  ) %>%
  bold_labels() %>%
  italicize_levels()

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹
Marker Level (ng/mL)	0,84 (0,24 – 1,57)	0,52 (0,19 – 1,20)
Manquant	6	4
Grade
I	35 (36%)	33 (32%)
II	32 (33%)	36 (35%)
III	31 (32%)	33 (32%)
T Stage
T1	28 (29%)	25 (25%)
T2	25 (26%)	29 (28%)
T3	22 (22%)	21 (21%)
T4	23 (23%)	27 (26%)
¹ Médiane (EI); n (%)

Modifer en-têtes et notes (modify_header, modify_spanning_header, modify_footnote)

La fonction modify_header permet de modifier les en-têtes des colonnes, modify_spanning_header d’ajouter un chapeau regroupant plusieurs colonnes et modify_footnote. On doit indiquer une formule ou une liste de formules indiquant les colonnes concernées et la modification souhaitée.

Il faut néanmoins connaître le nom interne des différentes colonnes. Ceux-ci peuvent âtre affichés avec la fonction show_header_names :

tbl <- trial %>%
  tbl_summary(
    include = c(age, grade),
    by = trt
  ) %>%
  add_overall() %>%
  add_p()
tbl

Caractéristique	Total, N = 200¹	Drug A, N = 98¹	Drug B, N = 102¹	p-valeur²
Age	47 (38 – 57)	46 (37 – 59)	48 (39 – 56)	0,7
Manquant	11	7	4
Grade				0,9
I	68 (34%)	35 (36%)	33 (32%)
II	68 (34%)	32 (33%)	36 (35%)
III	64 (32%)	31 (32%)	33 (32%)
¹ Médiane (EI); n (%)
² test de Wilcoxon-Mann-Whitney; test du khi-deux d’indépendance

show_header_names(tbl)

ℹ As a usage guide, the code below re-creates the current column headers.

modify_header(
  label = "**Caractéristique**",
  stat_0 = "**Total**, N = 200",
  stat_1 = "**Drug A**, N = 98",
  stat_2 = "**Drug B**, N = 102",
  p.value = "**p-valeur**"
)



Column Name   Column Header       
------------  --------------------
label         **Caractéristique** 
stat_0        **Total**, N = 200  
stat_1        **Drug A**, N = 98  
stat_2        **Drug B**, N = 102 
p.value       **p-valeur**

label est la colonne affichant le nom des variables, stat_0 la colonne totale crée par add_overall (ou la colonne unique de statistiques en l’absence de paramètre by) et p.value la colonne crée par add_p. Lorsqu’il y a un paramètre by, des colonnes nommées stat_1, stat_2, etc. sont crées pour chaque valeur de by. La fonction all_stat_cols permets de sélectionner toutes les colonnes dont le nom commence par stat_. On peut également utiliser all_stat_cols(stat_0 = FALSE) sélectionner toutes les colonnes associées à by mais pas celle crée par add_overall.

Dans les étiquettes, on peut utiliser des doubles étoiles (**) pour indiquer du gras et des tirets simples (_) pour de l’italique (il s’agit de codes markdown). On peut utliser {N} pour afficher le nombre total d’observations. Pour les colonnes associées à by, {level}, {n} et {p} correspondent respectivement au niveau du facteur, au nombre d’observations et à la proportion de ce facteur dans l’échantillon total. La valeur NA peut être utilisée pour supprimer les notes associées aux colonnes concernées.

tbl %>%
  modify_header(
    list(
      label ~ "**Variable**",
      all_stat_cols(stat_0 = FALSE) ~ "_{level}_ (n={n}, {style_percent(p)}%)",
      stat_0 ~ "**TOTAL** (n={N})",
      p.value ~ "**Test de comparaison** (p-valeur)"
    )
  ) %>%
  modify_footnote(everything() ~ NA) %>%
  modify_spanning_header(all_stat_cols() ~ "**Traitement**")

Variable	Traitement			Test de comparaison (p-valeur)
Variable	TOTAL (n=200)	Drug A (n=98, 49%)	Drug B (n=102, 51%)	Test de comparaison (p-valeur)
Age	47 (38 – 57)	46 (37 – 59)	48 (39 – 56)	0,7
Manquant	11	7	4
Grade				0,9
I	68 (34%)	35 (36%)	33 (32%)
II	68 (34%)	32 (33%)	36 (35%)
III	64 (32%)	31 (32%)	33 (32%)

Tests de comparaisons (add_p, separate_p_footnotes)

Lorsqu’une variable by est définie, la fonction add_p permets d’ajouter des tests de comparaisons entre les groupes et d’afficher les p-valeurs.

trial %>%
  tbl_summary(
    include = c(trt, marker, age, response, stage),
    by = trt
  ) %>%
  add_p()

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹	p-valeur²
Marker Level (ng/mL)	0,84 (0,24 – 1,57)	0,52 (0,19 – 1,20)	0,085
Manquant	6	4
Age	46 (37 – 59)	48 (39 – 56)	0,7
Manquant	7	4
Tumor Response	28 (29%)	33 (34%)	0,5
Manquant	3	4
T Stage			0,9
T1	28 (29%)	25 (25%)
T2	25 (26%)	29 (28%)
T3	22 (22%)	21 (21%)
T4	23 (23%)	27 (26%)
¹ Médiane (EI); n (%)
² test de Wilcoxon-Mann-Whitney; test du khi-deux d’indépendance

Par défaut, pour les variables continues, un test de Kruskal-Wallis calculé avec la fonction kruskal.test est utilisé lorsqu’il y a trois groupes ou plus, et un test de Wilcoxon-Mann-Whitney calculé avec wilcox.test (test de comparaison des rangs) lorsqu’il n’y a que deux groupes.

Si l’on affiche des moyennes, il serait plus juste d’utiliser un test t de Student (test de compairaison des moyennes) calculé avec t.test.

Pour les variables catégorielles, un test du Chi² calculé avec chisq.test est utilisé par défaut lorsque les effectifs théoriques sont supérieurs à 5, sinon un test de Fosher calculé avec fisher.test est utilisé.

D’autres tests sont disponibles et sont détaillés dans le fichier d’aide add_p.tbl_summary.

Le paramètre test permets de spécifier pour chaque variable le type de tests à utiliser. La fonction separate_p_footnotes peut être utilisée pour créer une note de tableau différente pour chaque test. Le paramètre pvalue_fun permet d’indiquer une fonction personnalisée pour la mise en forme des p-valeurs.

trial %>%
  tbl_summary(
    include = c(trt, marker, age, response, stage),
    statistic = age ~ "{mean} ({sd})",
    by = trt
  ) %>%
  add_stat_label() %>%
  add_p(
    test = list(
      response ~ "fisher.test",
      age ~ "t.test"
    ),
    pvalue_fun = scales::label_pvalue(accuracy = .0001)
  ) %>%
  separate_p_footnotes()

Caractéristique	Drug A, N = 98	Drug B, N = 102	p-valeur
Marker Level (ng/mL), Médiane (EI)	0,84 (0,24 – 1,57)	0,52 (0,19 – 1,20)	0.0847¹
Manquant	6	4
Age, Moyenne (ET)	47 (15)	47 (14)	0.8344²
Manquant	7	4
Tumor Response, n (%)	28 (29%)	33 (34%)	0.5403³
Manquant	3	4
T Stage, n (%)			0.8662⁴
T1	28 (29%)	25 (25%)
T2	25 (26%)	29 (28%)
T3	22 (22%)	21 (21%)
T4	23 (23%)	27 (26%)
¹ test de Wilcoxon-Mann-Whitney
² test de Student
³ test exact de Fisher
⁴ test du khi-deux d’indépendance

Intervalles de confiance (add_ci)

La fonction add_ci permets d’ajouter des intervalles de confiance dans des colonnes additionnelles. ATTENTION : par défaut, pour les variables continues, cela calcule les intervalles de confiance d’une moyenne et non d’une médiane. Le type d’intervalle peut être modifié avec method (par exemple "wilcox.test" pour l’intervalle de confiance d’une médiane). statistic permet de personnaliser la présentation de l’intervalle. conf.level permets de changer le niveau de confiance. style_fun permets de modifier la fonction de formatage des

trial %>%
  tbl_summary(
    include = c(age, stage),
    by = trt,
    statistic = all_continuous() ~ "{mean}"
  ) %>%
  add_overall() %>%
  add_ci()

Caractéristique	Total, N = 200¹	95% CI²	Drug A, N = 98¹	95% CI²	Drug B, N = 102¹	95% CI²
Age	47		47	44, 50	47	45, 50
Manquant	11		7		4
T Stage
T1	53 (27%)	21%, 33%	28 (29%)	20%, 39%	25 (25%)	17%, 34%
T2	54 (27%)	21%, 34%	25 (26%)	17%, 35%	29 (28%)	20%, 38%
T3	43 (22%)	16%, 28%	22 (22%)	15%, 32%	21 (21%)	13%, 30%
T4	50 (25%)	19%, 32%	23 (23%)	16%, 33%	27 (26%)	18%, 36%
¹ Moyenne; n (%)
² IC = intervalle de confiance

trial %>%
  tbl_summary(
    include = c(age, marker),
    statistic = ~"{median}"
  ) %>%
  add_ci(
    method = ~"wilcox.test",
    statistic = ~"entre {conf.low} et {conf.high}",
    conf.level = .9,
    style_fun = ~ scales::label_number(accuracy = .01, decimal.mark = ",")
  )

Caractéristique	N = 200¹	90% CI²
Age	47	entre 45,50 et 49,00
Manquant	11
Marker Level (ng/mL)	0,64	entre 0,71 et 0,94
Manquant	10
¹ Médiane
² IC = intervalle de confiance

Différences entre groupes (add_difference)

Si la variable spécfiée dans by a exactement 2 niveaux, il est possible de calculer la différence entre deux moyennes (variable continue) ou entre deux proportions (variables dichotomiques uniquement, pas les variables catégorielles), d’afficher l’intervalle de confiance de cette différence et la p-valeur associée (la différence est-elle significativement différente de 0) avec add_difference.

trial %>%
  tbl_summary(
    include = c(age, marker, response),
    by = trt,
    statistic = list(
      all_continuous() ~ "{mean}",
      all_categorical() ~ "{p}%"
    ),
    digits = list(
      all_continuous() ~ 2,
      all_categorical() ~ 1
    )
  ) %>%
  add_difference()

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹	Difference²	95% IC^2,3	p-valeur²
Age	47,01	47,45	-0,44	-4,6 – 3,7	0,8
Manquant	7	4
Marker Level (ng/mL)	1,02	0,82	0,20	-0,05 – 0,44	0,12
Manquant	6	4
Tumor Response	29,5%	33,7%	-4,2%	-18% – 9,9%	0,6
Manquant	3	4
¹ Moyenne; %
² test de Student; Two sample test for equality of proportions
³ IC = intervalle de confiance

D’autres options sont disponibles (comme la possibilité de calculer des différences ajustées sur d’autres variables) et sont explicitées dans le fichier d’aide de add_difference.

Tableau croisé avec tbl_cross()

La fonction tbl_cross est une variation de tbl_summary permettant de croiser deux variables spécfiées avec les arguments row et col. Le type de pourcentage peut-être précisé avec l’arguement percent. Il est possible d’ajouter le résultat d’un test du Chi² avec add_p.tbl_cross.

trial %>%
  tbl_cross(
    row = grade,
    col = trt,
    percent = "row"
  ) %>%
  add_p(source_note = TRUE)

	Chemotherapy Treatment		Total
	Drug A	Drug B	Total
Grade
I	35 (51%)	33 (49%)	68 (100%)
II	32 (47%)	36 (53%)	68 (100%)
III	31 (48%)	33 (52%)	64 (100%)
Total	98 (49%)	102 (51%)	200 (100%)
test du khi-deux d’indépendance, p=0,9

Données pondérées et tbl_svysummary()

La fonction tbl_svysummary est similaire à tbl_summary à l’exception qu’elle prend en entrée un objet de type survey défini avec l’extension homonyme. Cela permet de définir une pondération des observations et un plan d’échantillonnage complexe. Les options de tbl_svysummary sont similaires et il est possible d’utiliser les autres fonctions de gtsummary telles que add_overall, add_p, add_n, add_stat_label, etc.

Il faut noter que les tests statistiques disponibles ne sont pas les mêmes et sont détaillés dans le fichier d’aide de add_p.tbl_svysummary.

Titanic %>%
  as.data.frame() %>%
  survey::svydesign(~1, data = ., weights = ~Freq) %>%
  tbl_svysummary(
    by = Survived,
    percent = "row"
  ) %>%
  add_stat_label(location = "column") %>%
  add_n() %>%
  add_overall(last = TRUE) %>%
  add_p() %>%
  separate_p_footnotes()

Caractéristique	N	Statistique	No, N = 1 490	Yes, N = 711	Total, N = 2 201¹	p-valeur
Class	2 201					0,7²
1st		n (%)	122 (38%)	203 (62%)	325 (100%)
2nd		n (%)	167 (59%)	118 (41%)	285 (100%)
3rd		n (%)	528 (75%)	178 (25%)	706 (100%)
Crew		n (%)	673 (76%)	212 (24%)	885 (100%)
Sex	2 201					0,048²
Male		n (%)	1 364 (79%)	367 (21%)	1 731 (100%)
Female		n (%)	126 (27%)	344 (73%)	470 (100%)
Age	2 201					0,4²
Child		n (%)	52 (48%)	57 (52%)	109 (100%)
Adult		n (%)	1 438 (69%)	654 (31%)	2 092 (100%)
Freq	2 201	Médiane (EI)	342 (140 – 513)	79 (64 – 144)	183 (92 – 438)	0,013³
¹ n (%); Médiane (EI)
² test du Chi² avec la correction du second ordre de Rao & Scott
³ test de Wilcoxon sur la somme des rangs adapté aux plans d’échantillonnage complexes

Statistiques personnalisées avec tbl_continous() et tbl_custom_summary()

tbl_continuous()

La fonction tbl_continuous permets de résumer une variable continue en fonction de deux ou plusieurs variables catégorielles.

Par exemple, pour afficher l’âge moyen de plusieurs sous-groupes :

trial %>%
  tbl_continuous(
    variable = age,
    statistic = ~"{mean}",
    include = c(stage, grade),
    by = trt,
    digits = ~1
  )

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹
T Stage
T1	44,1	49,5
T2	50,2	46,4
T3	48,8	50,0
T4	45,3	44,3
Grade
I	45,9	46,4
II	44,6	50,3
III	51,0	45,7
¹ Age: Moyenne

tbl_custom_summary()

La fonction tbl_custom_summary permets encore plus de personnalisation que tbl_continuous.

Comme précédemment, un tableau va être créé avec les paramètres include et by. On doit également fournir via stat_fns une fonction personnalisée qui va recevoir un sous tableau de données (obtenu en croisant include et by), contenant toutes les variables du fichier, et qui renverra des statistiques personnalisées que l’on affichera avec statistic. La fonction peut-être différente pour chaque variable.

Il est également possible d’utiliser quelques fonctions dédiées fournies directement par gtsummary.

À noter que l’option overall_raw permets d’afficher une ligne total, overall_raw_label de personnaliser l’étiquette de cette ligne et overall_raw_last de choisir si on souhaite l’afficher en début ou en fin de tableau.

tbl_custom_summary() & continuous_summary()

La fonction continuous_summary permet de reproduire avec tbl_custom_summary le fonctionnement de tbl_continuous. continuous_summary prend un seul argument (le nom d’une variable du fichier). Les statistiques à afficher sont directement précisées avec statistic.

Ainsi, pour afficher l’âge moyen (avec l’écart-type) en fonction des variables trt, grade et stage :

trial %>%
  tbl_custom_summary(
    include = c("grade", "stage"),
    by = "trt",
    stat_fns = ~ continuous_summary("age"),
    statistic = ~"{mean} ({sd})",
    overall_row = TRUE,
    digits = ~1
  ) %>%
  add_overall() %>%
  modify_footnote(
    update = all_stat_cols() ~ "Âge moyen (ET)"
  )

Caractéristique	Total, N = 200¹	Drug A, N = 98¹	Drug B, N = 102¹
Total	47,2 (14,3)	47,0 (14,7)	47,4 (14,0)
Grade
I	46,2 (15,2)	45,9 (16,0)	46,4 (14,6)
II	47,5 (13,7)	44,6 (14,8)	50,3 (12,1)
III	48,1 (14,1)	51,0 (12,6)	45,7 (15,0)
T Stage
T1	46,8 (14,7)	44,1 (14,7)	49,5 (14,5)
T2	48,1 (12,6)	50,2 (12,8)	46,4 (12,4)
T3	49,4 (14,1)	48,8 (14,0)	50,0 (14,5)
T4	44,8 (16,0)	45,3 (17,3)	44,3 (15,0)
¹ Âge moyen (ET)

Astuce : la fonction modify_footnote peut être utilisée pour mettre à jour la note de tableau.

tbl_custom_summary() & proportion_summary()

La fonction proportion_summary permets de calculer une proportion (et son intervalle de confiance). Elle prends en entrée la variable à partir de laquelle calculer la proportion et le ou les valeurs à inclure dans cette proportion. Il faut préciser l’affichage souhaité avec statistic et la mise enforme avec digits.

Par exemple, pour afficher la proportion de personnes étant à l’étape “T3” ou “T4” (variable stage) :

trial %>%
  tbl_custom_summary(
    include = c("grade", "trt"),
    stat_fns = ~ proportion_summary(variable = "stage", value = c("T3", "T4")),
    statistic = ~"{prop}% [{conf.low}-{conf.high}]",
    digits = ~ scales::label_percent(accuracy = .1, decimal.mark = ",", suffix = "")
  )

Caractéristique	N = 200¹
Grade
I	48,5% [36,4-60,9]
II	41,2% [29,6-53,8]
III	50,0% [38,1-61,9]
Chemotherapy Treatment
Drug A	45,9% [35,9-56,3]
Drug B	47,1% [37,2-57,2]
¹ prop% [conf.low-conf.high]

tbl_custom_summary() & ratio_summary()

La fonction ratio_summary calcule le ratio entre deux variables. Elle peut ainsi être utilisée pour produire un tableau d’incidence (nombre de cas / exposition exprimée en personnes-années). On lui indique le nom de la variable à prendre en compte pour le numérateur et celui de la variable pour le dénominateur. Pour chaque sous-groupe, la fonction renvoie {num} (somme de la variable définie pour le numérateur), {denom} (somme de la variable définie pour le dénominateur) et {ratio} (i.e. {num}/{denom}). Si {num} est un nombre entier, l’intervalle de confiance de {ratio} est calculé à l’aide de la fonction poisson.test et accessible via {conf.high} et {conf.high}.

trial %>%
  tbl_custom_summary(
    include = c("stage", "grade"),
    by = "trt",
    stat_fns = ~ ratio_summary("response", "ttdeath"),
    statistic = ~"{ratio} [{conf.low}; {conf.high}] ({num}/{denom})",
    digits = ~ c(3, 2, 2, 0, 0),
    overall_row = TRUE,
    overall_row_label = "Total"
  ) %>%
  bold_labels() %>%
  modify_footnote(
    update = all_stat_cols() ~ "Ratio [95% CI] (n/N)"
  )

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹
Total	0,014 [0,01; 0,02] (28/1 983)	0,017 [0,01; 0,02] (33/1 942)
T Stage
T1	0,012 [0,00; 0,02] (7/583)	0,021 [0,01; 0,04] (11/522)
T2	0,011 [0,00; 0,02] (6/528)	0,012 [0,01; 0,03] (7/560)
T3	0,019 [0,01; 0,04] (8/426)	0,016 [0,01; 0,03] (7/425)
T4	0,016 [0,01; 0,03] (7/445)	0,018 [0,01; 0,04] (8/434)
Grade
I	0,011 [0,00; 0,02] (8/734)	0,019 [0,01; 0,03] (13/690)
II	0,011 [0,00; 0,02] (7/651)	0,019 [0,01; 0,03] (12/645)
III	0,022 [0,01; 0,04] (13/598)	0,013 [0,01; 0,03] (8/607)
¹ Ratio [95% CI] (n/N)

tbl_custom_summary() & écriture d’une fonction personnalisée

Il est également possible, et c’est là toute la puissance de tbl_custom_summary, de définir une fonction personnelle et de la passer via stat_fns.

Cette fonction sera appellée pour chaque cellule du tableau, chaque cellule étant calculée indépendamment.

Une telle fonction recevra les arguments suivants :

data est un tableau de données contenant un sous-ensemble des données transmises à tbl_custom_summary, plus précisément le sous-ensemble défini par la valeur courante de variable et de by. Il faut noter que les valeurs manquantes (NA) de variable sont également exclues de data.
full_data est le tableau de données complet transmis à tbl_custom_summary.
variable est une valeur textuelle contenant le nom de la variable sur laquelle porte le calcul en cours.
by est une valeur textuelle contenant le nom de la variable by s’il y en a une, NULL sinon.
type est une valeur textuelle indiquant le type de variable (continuous, categorical, …).
stat_display est une valeur textuelle indiquant les statistiques qui seront affichées (i.e. la valeur indiquée dans l’argument statistic de tbl_custom_summary).

La plupart du temps, une fonction personnalisée n’aura pas besoin de tous ces éléments. C’est pourquoi il est recommandé d’inclure ... dans la définition de la fonction, par exemple ma_fonction <- function(data, ...){}.

La fonction devra impérativement renvoyé un tibble composé d’une seule ligne et avec une colonne par statistique calculée, le nom de la colonne correspondant avec la statistique demandée dans statistic.

Voyons un premier exemple, avec une fonction calculant la somme de marker et l’âge moyen.

ma_fonction <- function(data, ...) {
  marker_sum <- sum(data$marker, na.rm = TRUE)
  mean_age <- mean(data$age, na.rm = TRUE)
  dplyr::tibble(
    marker_sum = marker_sum,
    mean_age = mean_age
  )
}

ma_fonction(trial)

Construisons un tableau à partir de cette dernière.

trial %>%
  tbl_custom_summary(
    include = c(stage, grade),
    by = trt,
    stat_fns = ~ma_fonction,
    statistic = ~"A: {mean_age} - M: {marker_sum}",
    digits = everything() ~ c(1, 0),
    overall_row = TRUE
  ) %>%
  add_overall(last = TRUE) %>%
  modify_footnote(
    update = all_stat_cols() ~ "A: âge moyen - M: somme de marker"
  ) %>%
  bold_labels()

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹	Total, N = 200¹
Total	A: 47,0 - M: 94	A: 47,4 - M: 80	A: 47,2 - M: 174
T Stage
T1	A: 44,1 - M: 19	A: 49,5 - M: 15	A: 46,8 - M: 35
T2	A: 50,2 - M: 29	A: 46,4 - M: 29	A: 48,1 - M: 59
T3	A: 48,8 - M: 21	A: 50,0 - M: 18	A: 49,4 - M: 39
T4	A: 45,3 - M: 24	A: 44,3 - M: 18	A: 44,8 - M: 42
Grade
I	A: 45,9 - M: 39	A: 46,4 - M: 31	A: 46,2 - M: 70
II	A: 44,6 - M: 24	A: 50,3 - M: 19	A: 47,5 - M: 43
III	A: 51,0 - M: 30	A: 45,7 - M: 30	A: 48,1 - M: 61
¹ A: âge moyen - M: somme de marker

Dans notre second exemple, nous souhaitons calculer la moyenne et l’intervalle de confiance de la variable affichée en ligne. Cette fois-ci, la variable en cours n’est pas connue à l’avance mais son nom est accessible via l’argument variable. On peut donc y accéder avec la syntaxe data[[variable]].

mean_ci <- function(data, variable, ...) {
  test <- t.test(data[[variable]])
  dplyr::tibble(
    mean = test$estimate,
    conf.low = test$conf.int[1],
    conf.high = test$conf.int[2]
  )
}

trial %>%
  tbl_custom_summary(
    include = c("marker", "ttdeath"),
    by = "trt",
    stat_fns = ~mean_ci,
    statistic = ~"{mean} [{conf.low}; {conf.high}]"
  ) %>%
  add_overall(last = TRUE) %>%
  modify_footnote(
    update = all_stat_cols() ~ "moyenne [IC 95%"
  )

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹	Total, N = 200¹
Marker Level (ng/mL)	1,02 [0,83; 1,20]	0,82 [0,65; 0,99]	0,92 [0,79; 1,04]
Manquant	6	4	10
Months to Death/Censor	20,2 [19,2; 21,2]	19,0 [18,0; 20,1]	19,6 [18,9; 20,4]
¹ moyenne [IC 95%

Allons un peu plus loin avec notre troisième exemple. Nous nous intéressons non seulement à la moyenne de la variable marker pour une sous-catégorie donnée, mais également si cette moyenne est supérieure ou inférieuree à la grande moyenne (toutes catégories confondues). Nous aurons donc besoin de l’ensemble du jeu de données avec full_data. Cet exemple nous permets également de voir qu’il est possible de renvoyer une statistique textuelle.

diff_to_great_mean <- function(data, full_data, ...) {
  mean <- mean(data$marker, na.rm = TRUE)
  great_mean <- mean(full_data$marker, na.rm = TRUE)
  diff <- mean - great_mean
  dplyr::tibble(
    mean = mean,
    great_mean = great_mean,
    diff = diff,
    level = ifelse(diff > 0, "haut", "bas")
  )
}

trial %>%
  tbl_custom_summary(
    include = c("grade", "stage"),
    by = "trt",
    stat_fns = ~diff_to_great_mean,
    statistic = ~"{mean} ({level}, diff: {diff})",
    digits = ~ list(1, as.character, 1),
    overall_row = TRUE
  ) %>%
  bold_labels()

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹
Total	1,0 (haut, diff: 0,1)	0,8 (bas, diff: -0,1)
Grade
I	1,2 (haut, diff: 0,2)	1,0 (haut, diff: 0,1)
II	0,9 (bas, diff: -0,1)	0,5 (bas, diff: -0,4)
III	1,0 (haut, diff: 0,1)	1,0 (haut, diff: 0,1)
T Stage
T1	0,7 (bas, diff: -0,2)	0,7 (bas, diff: -0,3)
T2	1,2 (haut, diff: 0,3)	1,0 (haut, diff: 0,1)
T3	1,1 (haut, diff: 0,1)	0,9 (haut, diff: 0,0)
T4	1,1 (haut, diff: 0,2)	0,7 (bas, diff: -0,2)
¹ Moyenne (level, diff: diff)

Il n’existe pas encore de fonction tbl_custom_svysummary acceptant un objet survey en entrée, mais une telle fonction devrait être disponible dans une future version de gtsummary.

add_stat()

D’un usage plus avancé, add_stat permets de rajouter une colonne de statistiques personnalisées à un objet gtsummary existant. Le calcul ne se fait pas ici cellule par cellule mais variable par variable.

On pourra se référer à l’aide la fonction pour des exemples d’utilisation.

Résultats d’un modèle avec tbl_regression()

Déjà abordé dans le chapitre sur la régression logistique, tbl_regression permets d’afficher les coefficients d’un modèle statistique, avec les intervalles de confiance et les p-valeurs.

tbl_regression utilise de manière sous-jacente l’extension broom.helpers et est donc compatible avec tous les types de modèles compatibles.

mod <- glm(
  response ~ grade * age + trt,
  data = trial,
  family = binomial
)
mod %>% tbl_regression()

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Grade
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2
Chemotherapy Treatment
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Grade * Age
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Afficher seulement certains coefficients (include)

Le paramètre include permets de choisir les variables / termes à afficher.

mod %>%
  tbl_regression(include = c(trt, all_interaction()))

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Chemotherapy Treatment
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Grade * Age
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Étiquettes des variables (label)

On peut personnaliser les étiquettes des variables avec label.

mod %>%
  tbl_regression(label = list(
    trt ~ "Traitement",
    "grade:age" ~ "Interaction entre grade et âge"
  ))

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Grade
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2
Traitement
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Interaction entre grade et âge
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Exponentiation des coefficients (exponentiate)

Pour une régression logistique, il est d’usage d’afficher l’exponentiel des coefficients, ce que l’on peut faire en indiquant exponentiate = TRUE.

mod %>%
  tbl_regression(exponentiate = TRUE)

Caractéristique	OR¹	95% IC¹	p-valeur
Grade
I	—	—
II	1,57	0,09 – 26,3	0,8
III	1,38	0,09 – 21,5	0,8
Age	1,03	0,99 – 1,07	0,2
Chemotherapy Treatment
Drug A	—	—
Drug B	1,14	0,60 – 2,16	0,7
Grade * Age
II * Age	0,99	0,93 – 1,04	0,7
III * Age	0,99	0,94 – 1,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Changer l’intitulé des colonnes

Comme pour tout tableau gtsummary, l’intitulé des colonnes peut être modifié avec modify_header. On pourra avoir recours à show_header_names pour connaître le nom de chaque colonne.

tbl <- mod %>% tbl_regression(exponentiate = TRUE)
show_header_names(tbl)

ℹ As a usage guide, the code below re-creates the current column headers.

modify_header(
  label = "**Caractéristique**",
  estimate = "**OR**",
  ci = "**95% IC**",
  p.value = "**p-valeur**"
)



Column Name   Column Header       
------------  --------------------
label         **Caractéristique** 
estimate      **OR**              
ci            **95% IC**          
p.value       **p-valeur**

tbl %>%
  modify_header(estimate ~ "**Odds Ratio**")

Caractéristique	Odds Ratio¹	95% IC¹	p-valeur
Grade
I	—	—
II	1,57	0,09 – 26,3	0,8
III	1,38	0,09 – 21,5	0,8
Age	1,03	0,99 – 1,07	0,2
Chemotherapy Treatment
Drug A	—	—
Drug B	1,14	0,60 – 2,16	0,7
Grade * Age
II * Age	0,99	0,93 – 1,04	0,7
III * Age	0,99	0,94 – 1,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Afficher des étoiles de signification (add_significance_stars)

La fonction add_significance_stars ajoute des étoiles de significativité à côté des coefficients. Les options hide_ci, hide_p et hide_se permettent de masquer/afficher les intervalles de confiance, les p-valeurs et les écarts-types.

lm(time ~ ph.ecog + sex, survival::lung) %>%
  tbl_regression() %>%
  add_significance_stars(
    hide_ci = FALSE,
    hide_p = FALSE,
    hide_se = TRUE
  )

Caractéristique	Beta¹	95% IC²	p-valeur
ph.ecog	-58**	-96 – -21	0,003
sex	52	-2,5 – 107	0,061
¹ p<0.05; p<0.01; **p<0.001
² IC = intervalle de confiance

Variables dichotomiques sur une ligne (show_single_row)

L’argument show_single_row permet d’indiquer une liste de variables dichotomiques que l’on souhaite afficher sur une seule ligne (la modalité de référence étant alors masquée). Il est possible d’indiquer all_dichotomous() pour appliquer cette option à toutes les variables dichotomiques.

mod %>%
  tbl_regression(show_single_row = trt)

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Grade
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2
Chemotherapy Treatment	0,13	-0,50 – 0,77	0,7
Grade * Age
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Afficher l’intercept (intercept)

Par défaut, l’intercept n’est pas affiché. Mais on peut forcer son affichage avec intercept = TRUE.

mod %>%
  tbl_regression(intercept = TRUE)

Caractéristique	log(OR)¹	95% IC¹	p-valeur
(Intercept)	-2,0	-4,0 – -0,22	0,038
Grade
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2
Chemotherapy Treatment
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Grade * Age
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Mise en forme des coefficients (estimate_fun, pvalue_fun)

L’argument estimate_fun permet de fournir une fonction qui sera utilisée pour mettre en forme les coefficients (et les intervalles de confiance) et pvalue_fun pour une fonction utilisée pour les p-valeurs. Voir le chapitre dédié à la mise en forme des nombres.

mod %>%
  tbl_regression(
    estimate_fun = scales::label_number(accuracy = .001, decimal.mark = ","),
    pvalue_fun = scales::label_pvalue(accuracy = .001, decimal.mark = ",", add_p = TRUE)
  )

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Grade
I	—	—
II	0,453	-2,359 – 3,271	p=0,750
III	0,318	-2,417 – 3,066	p=0,818
Age	0,025	-0,010 – 0,063	p=0,183
Chemotherapy Treatment
Drug A	—	—
Drug B	0,131	-0,505 – 0,771	p=0,687
Grade * Age
II * Age	-0,013	-0,069 – 0,043	p=0,654
III * Age	-0,006	-0,061 – 0,047	p=0,813
¹ OR = rapport de cotes, IC = intervalle de confiance

Afficher les coefficients pour les références (add_estimate_to_reference_rows)

L’option add_estimate_to_reference_rows = TRUE ajoute la valeur du coefficient pour les modalités de références.

mod %>%
  tbl_regression(add_estimate_to_reference_rows = TRUE, exponentiate = TRUE)

Caractéristique	OR¹	95% IC¹	p-valeur
Grade
I	1,00	—
II	1,57	0,09 – 26,3	0,8
III	1,38	0,09 – 21,5	0,8
Age	1,03	0,99 – 1,07	0,2
Chemotherapy Treatment
Drug A	1,00	—
Drug B	1,14	0,60 – 2,16	0,7
Grade * Age
II * Age	0,99	0,93 – 1,04	0,7
III * Age	0,99	0,94 – 1,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

P-valeurs globales (add_global_p)

La fonction add_global_p calcule une p-valeur globale pour chaque variable. On ajoutera keep = TRUE pour conserver les p-valeurs individuelles de chaque coefficient.

Note : par défaut, les p-valeurs globales calculées sont du type III. Voir la note dédiée aux p-valeurs globales dans le chapitre sur la régression logistique.

mod %>%
  tbl_regression() %>%
  add_global_p(keep = TRUE)

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Grade			>0,9
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2
Chemotherapy Treatment			0,7
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Grade * Age			>0,9
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance

Ajouter les VIF (add_vif)

Dans le chapitre sur la multicolinéarité, nous avons abordé les facteurs d’inflation de la variance (FIV) ou variance inflation factor (VIF) en anglais. Ils peuvent être facilement calculés avec add_vif.

mod %>%
  tbl_regression() %>%
  add_vif()

there are higher-order terms (interactions) in this model
consider setting type = 'predictor'; see ?vif

Caractéristique	log(OR)¹	95% IC¹	p-valeur	GVIF¹	Adjusted GVIF^2,1
Grade				174	3,6
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2	2,6	1,6
Chemotherapy Treatment				1,0	1,0
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Grade * Age				199	3,8
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
¹ OR = rapport de cotes, IC = intervalle de confiance, GVIF = Generalized Variance Inflation Factor
² GVIF^[1/(2*df)]

Représenter graphiquement le modèle (plot)

Nous avons déjà abordé dans d’autres chapitres la fonction ggcoef_model de GGally pour la représentation graphiques des coefficients. Pour un graphique rapide, on peut appliquer plot() à un tableau généré avec tbl_regression pour produire rapidement un graphique des coefficients.

mod %>%
  tbl_regression(exponentiate = TRUE) %>%
  plot()

Cependant, si l’on souhaite plus d’options de personnalisation, on utilisera directement ggcoef_model de GGally.

mod %>%
  GGally::ggcoef_model(exponentiate = TRUE)

Registered S3 method overwritten by 'GGally':
  method from   
  +.gg   ggplot2

Afficher des statistiques globales du modèle (add_glance_table, add_glance_source_note)

La méthode glance de broom permets de calculer des statistiques globales sur un modèle (comme le R² ou l’AIC, les statistiques calculées dépendant de chaque modèle).

mod %>% broom::glance()

Ces statistiques globales peuvent être ajoutées au tableau avec add_glance_table ou en notes avec add_glance_source_note. Le paramètre include permets de choisir les éléments à afficher parmi les colonnes du tableau générés par glance.

mod %>%
  tbl_regression() %>%
  add_glance_table()

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Grade
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2
Chemotherapy Treatment
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Grade * Age
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
déviance nulle	229
degrés de liberté du modèle nul	182
Log-likelihood	-113
AIC	239
BIC	262
Deviance	225
degrés de liberté des résidus	176
No. Obs.	183
¹ OR = rapport de cotes, IC = intervalle de confiance

mod %>%
  tbl_regression() %>%
  add_glance_source_note(include = c("nobs", "AIC"))

Caractéristique	log(OR)¹	95% IC¹	p-valeur
Grade
I	—	—
II	0,45	-2,4 – 3,3	0,8
III	0,32	-2,4 – 3,1	0,8
Age	0,02	-0,01 – 0,06	0,2
Chemotherapy Treatment
Drug A	—	—
Drug B	0,13	-0,50 – 0,77	0,7
Grade * Age
II * Age	-0,01	-0,07 – 0,04	0,7
III * Age	-0,01	-0,06 – 0,05	0,8
No. Obs. = 183; AIC = 239
¹ OR = rapport de cotes, IC = intervalle de confiance

Combiner des tableaux

tbl_stack() & tbl_merge()

La fonction tbl_stack permets de coller deux (ou plus) tableaux l’un au-dessus de l’autre tandis que tbl_merge les placera côte-à-côte, en s’assurant qu’une même variable sera bien affichée sur la même ligne.

t1 <-
  glm(response ~ trt, trial, family = binomial) %>%
  tbl_regression(exponentiate = TRUE)

t2 <-
  glm(response ~ grade + trt + stage + marker, trial, family = binomial) %>%
  tbl_regression(exponentiate = TRUE)

tbl_stack(
  list(t1, t2),
  group_header = c("Modèle bivarié", "Modèle multivarié")
)

Caractéristique	OR¹	95% IC¹	p-valeur
Modèle bivarié
Chemotherapy Treatment
Drug A	—	—
Drug B	1,21	0,66 – 2,24	0,5
Modèle multivarié
Grade
I	—	—
II	1,18	0,52 – 2,66	0,7
III	1,14	0,52 – 2,50	0,7
Chemotherapy Treatment
Drug A	—	—
Drug B	1,48	0,78 – 2,86	0,2
T Stage
T1	—	—
T2	0,46	0,18 – 1,14	0,10
T3	1,04	0,41 – 2,61	>0,9
T4	0,69	0,28 – 1,64	0,4
Marker Level (ng/mL)	1,47	1,00 – 2,15	0,048
¹ OR = rapport de cotes, IC = intervalle de confiance

tbl_merge(
  list(t1, t2),
  tab_spanner = c("Modèle bivarié", "Modèle multivarié")
)

Caractéristique	Modèle bivarié			Modèle multivarié
Caractéristique	OR¹	95% IC¹	p-valeur	OR¹	95% IC¹	p-valeur
Chemotherapy Treatment
Drug A	—	—		—	—
Drug B	1,21	0,66 – 2,24	0,5	1,48	0,78 – 2,86	0,2
Grade
I				—	—
II				1,18	0,52 – 2,66	0,7
III				1,14	0,52 – 2,50	0,7
T Stage
T1				—	—
T2				0,46	0,18 – 1,14	0,10
T3				1,04	0,41 – 2,61	>0,9
T4				0,69	0,28 – 1,64	0,4
Marker Level (ng/mL)				1,47	1,00 – 2,15	0,048
¹ OR = rapport de cotes, IC = intervalle de confiance

tbl_strata()

La fonction tbl_strata permet de calculer un tableau gtsummary pour chaque modalité d’une variable catégorielle définie via strata, puis de combiner les tableaux entre eux. Le paramètre .tbl_fun indique la fonction à utiliser pour le calcul du tableau. On peut utiliser la syntaxe rapide d’écritude de fonction propre au tidyverse en indiquant une formule (qui commence par ~) et en utilisant .x pour indiquer où passer le sous-ensemble de données.

Par défaut les sous-tableaux produits sont combinés avec tbl_merge.

trial %>%
  select(age, grade, stage, trt) %>%
  mutate(grade = paste("Grade", grade)) %>%
  tbl_strata(
    strata = grade,
    .tbl_fun =
      ~ .x %>%
        tbl_summary(by = trt, missing = "no") %>%
        add_n()
  )

Caractéristique	Grade I			Grade II			Grade III
Caractéristique	N	Drug A, N = 35¹	Drug B, N = 33¹	N	Drug A, N = 32¹	Drug B, N = 36¹	N	Drug A, N = 31¹	Drug B, N = 33¹
Age	66	46 (36 – 60)	48 (42 – 55)	62	45 (31 – 55)	51 (43 – 57)	61	52 (42 – 60)	45 (36 – 52)
T Stage	68			68			64
T1		8 (23%)	9 (27%)		14 (44%)	9 (25%)		6 (19%)	7 (21%)
T2		8 (23%)	10 (30%)		8 (25%)	9 (25%)		9 (29%)	10 (30%)
T3		11 (31%)	7 (21%)		5 (16%)	6 (17%)		6 (19%)	8 (24%)
T4		8 (23%)	7 (21%)		5 (16%)	12 (33%)		10 (32%)	8 (24%)
¹ Médiane (EI); n (%)

Pour les combiner avec tbl_stack, on indiquera .combine_with = "tbl_stack".

trial %>%
  select(age, grade, stage, trt) %>%
  mutate(grade = paste("Grade", grade)) %>%
  tbl_strata(
    strata = grade,
    .tbl_fun =
      ~ .x %>%
        tbl_summary(by = trt, missing = "no") %>%
        add_n(),
    .combine_with = "tbl_stack"
  )

ℹ Column headers among stacked tables differ. Headers from the first table are
used. Use `quiet = TRUE` to supress this message.

Caractéristique	N	Drug A, N = 35¹	Drug B, N = 33¹
Grade I
Age	66	46 (36 – 60)	48 (42 – 55)
T Stage	68
T1		8 (23%)	9 (27%)
T2		8 (23%)	10 (30%)
T3		11 (31%)	7 (21%)
T4		8 (23%)	7 (21%)
Grade II
Age	62	45 (31 – 55)	51 (43 – 57)
T Stage	68
T1		14 (44%)	9 (25%)
T2		8 (25%)	9 (25%)
T3		5 (16%)	6 (17%)
T4		5 (16%)	12 (33%)
Grade III
Age	61	52 (42 – 60)	45 (36 – 52)
T Stage	64
T1		6 (19%)	7 (21%)
T2		9 (29%)	10 (30%)
T3		6 (19%)	8 (24%)
T4		10 (32%)	8 (24%)
¹ Médiane (EI); n (%)

tbl_split()

Lorsqu’un tableau est trop long et qu’on souhaite le couper en plusieurs tableaux, on pourra utiliser tbl_spit en indiquant le nom des variables après lesquelles le tableau doit être coupé.

trial %>%
  tbl_summary() %>%
  tbl_split(variables = c(marker, grade))

Régressions univariées multiples avec tbl_uvregression()

La fonction tbl_uvregression est utile pour réaliser plusieurs régressions univariées. Il faut lui passer un tableau ne contenant que la variable à expliquer et les variables explicatives. La variable à expliquer sera indiquée avec y. L’argument method indique la fonction à utiliser pour le calcul des modèles univariés, par exemple glm pour une régression logistique ordinale. On pourra indiquer des paramètres à transmettre à cette fonction avec method.args, par exemple list(family = binomial) dans le cadre d’une régreession logistique binaire.

tbl_uni <- tbl_uvregression(
  trial %>% select(response, age, grade, stage),
  method = glm,
  y = response,
  method.args = list(family = binomial),
  exponentiate = TRUE,
  hide_n = TRUE
)
tbl_uni

Caractéristique	OR¹	95% IC¹	p-valeur
Age	1,02	1,00 – 1,04	0,10
Grade
I	—	—
II	0,95	0,45 – 2,00	0,9
III	1,10	0,52 – 2,29	0,8
T Stage
T1	—	—
T2	0,63	0,27 – 1,46	0,3
T3	1,13	0,48 – 2,68	0,8
T4	0,83	0,36 – 1,92	0,7
¹ OR = rapport de cotes, IC = intervalle de confiance

On peut facilement présenter côte-à-côte l’analyse descriptive, l’analyse bivariée et l’analyse multivariée avec tbl_merge.

tbl_desc <- trial %>%
  tbl_summary(
    by = response,
    include = c(age, grade, stage)
  )

7 observations missing `response` have been removed. To include these observations, use `forcats::fct_na_value_to_level()` on `response` column before passing to `tbl_summary()`.

tbl_multi <- trial %>%
  glm(
    response ~ age + grade + stage,
    data = .,
    family = binomial
  ) %>%
  tbl_regression(exponentiate = TRUE)

tbl_merge(
  list(tbl_desc, tbl_uni, tbl_multi),
  tab_spanner = c("**Analyse descriptive**", "**Modèles bivariés**", "**Modèle multivarié**")
)

Caractéristique	Analyse descriptive		Modèles bivariés			Modèle multivarié
Caractéristique	0, N = 132¹	1, N = 61¹	OR²	95% IC²	p-valeur	OR²	95% IC²	p-valeur
Age	46 (36 – 55)	49 (43 – 59)	1,02	1,00 – 1,04	0,10	1,02	1,00 – 1,04	0,092
Manquant	7	3
Grade
I	46 (35%)	21 (34%)	—	—		—	—
II	44 (33%)	19 (31%)	0,95	0,45 – 2,00	0,9	0,84	0,38 – 1,85	0,7
III	42 (32%)	21 (34%)	1,10	0,52 – 2,29	0,8	1,05	0,49 – 2,25	>0,9
T Stage
T1	34 (26%)	18 (30%)	—	—		—	—
T2	39 (30%)	13 (21%)	0,63	0,27 – 1,46	0,3	0,57	0,23 – 1,34	0,2
T3	25 (19%)	15 (25%)	1,13	0,48 – 2,68	0,8	0,91	0,37 – 2,22	0,8
T4	34 (26%)	15 (25%)	0,83	0,36 – 1,92	0,7	0,76	0,31 – 1,85	0,6
¹ Médiane (EI); n (%)
² OR = rapport de cotes, IC = intervalle de confiance

Tables de survie avec tbl_survfit()

L’analyse de survie et les courbes de Kaplan-Meier sont abordées dans un chapitre dédié. La fonction tbl_survfit permets de représenter la probabilité encore en vie à différents points de temps définis avec times.

library(survival)
km <- survfit(Surv(ttdeath, death) ~ trt, trial)
survminer::ggsurvplot(km)

km %>%
  tbl_survfit(
    times = c(0, 6, 12, 18, 24),
    label_header = "**Mois {time}**"
  )

Caractéristique	Mois 0	Mois 6	Mois 12	Mois 18	Mois 24
Chemotherapy Treatment
Drug A	100% (100% – 100%)	99% (97% – 100%)	91% (85% – 97%)	70% (62% – 80%)	47% (38% – 58%)
Drug B	100% (100% – 100%)	99% (97% – 100%)	86% (80% – 93%)	60% (51% – 70%)	41% (33% – 52%)

On peut alternativement représenter la proportion ayant vécu l’évènement avec reverse = TRUE.

km %>%
  tbl_survfit(
    times = c(6, 12),
    reverse = TRUE
  )

Caractéristique	Temps 6	Temps 12
Chemotherapy Treatment
Drug A	1,0% (0% – 3,0%)	9,2% (3,3% – 15%)
Drug B	1,0% (0% – 2,9%)	14% (6,8% – 20%)

Au lieu d’indiquer des points de temps, on peut indiquer des quantiles avec probs et représenter le temps requis pour atteindre ces quantiles.

km %>%
  tbl_survfit(probs = c(.25, .5, .75))

Caractéristique	25% Percentile	50% Percentile	75% Percentile
Chemotherapy Treatment
Drug A	17 (16 – 20)	24 (21 – —)	— (— – —)
Drug B	15 (13 – 17)	21 (18 – —)	— (— – —)

Il est également possible de passer une liste d’objets survfit.

list(
  survfit(Surv(ttdeath, death) ~ 1, trial),
  survfit(Surv(ttdeath, death) ~ trt, trial),
  survfit(Surv(ttdeath, death) ~ grade, trial)
) %>%
  tbl_survfit(
    times = c(6, 12, 18),
    label_header = "**Mois {time}**"
  )

Caractéristique	Mois 6	Mois 12	Mois 18
Total	99% (98% – 100%)	89% (84% – 93%)	65% (59% – 72%)
Chemotherapy Treatment
Drug A	99% (97% – 100%)	91% (85% – 97%)	70% (62% – 80%)
Drug B	99% (97% – 100%)	86% (80% – 93%)	60% (51% – 70%)
Grade
I	100% (100% – 100%)	97% (93% – 100%)	75% (65% – 86%)
II	100% (100% – 100%)	82% (74% – 92%)	60% (50% – 73%)
III	97% (93% – 100%)	86% (78% – 95%)	59% (48% – 73%)

Dernière possibilité, il est possible de passer un tableau de données et d’indiquer les variables à analyser. Les tables de survie seront alors calculées à la volée.

trial %>%
  tbl_survfit(
    y = Surv(ttdeath, death),
    include = c(trt, grade, stage),
    probs = 0.5,
    label_header = "**Survie médiane en mois** (IC 95%)",
    estimate_fun = scales::label_number(accuracy = .1)
  )

Caractéristique	Survie médiane en mois (IC 95%)
Chemotherapy Treatment
Drug A	23.5 (21.2 – —)
Drug B	21.2 (18.2 – —)
Grade
I	— (22.1 – —)
II	22.2 (18.0 – —)
III	19.7 (17.6 – 23.2)
T Stage
T1	— (22.7 – —)
T2	— (20.1 – —)
T3	22.9 (18.3 – —)
T4	17.2 (15.6 – 22.4)

Exporter un tableau

Les tableaux produits par gtsummary peuvent être rendus avec plusieurs moteurs de tableaux, grace aux fonctions as_flex_table, as_hux_table, as_kable_extra, et as_kable. Ils peuvent même être convertis en tableaux de données avec , as_tibble.

Dans un document R Markdown, gtsummary utilisera le moteur de tableaux le plus adapté selon la sortie (HTML, PDF ou Word).

Formats d’export d’un tableau gtsummary

tbl <- trial %>%
  tbl_summary(
    include = c(age, grade),
    by = trt
  ) %>%
  add_p()

tbl %>% as_gt()

Caractéristique	Drug A, N = 98¹	Drug B, N = 102¹	p-valeur²
Age	46 (37 – 59)	48 (39 – 56)	0,7
Manquant	7	4
Grade			0,9
I	35 (36%)	33 (32%)
II	32 (33%)	36 (35%)
III	31 (32%)	33 (32%)
¹ Médiane (EI); n (%)
² test de Wilcoxon-Mann-Whitney; test du khi-deux d’indépendance

tbl %>% as_flex_table()

Caractéristique	Drug A, N = 981	Drug B, N = 1021	p-valeur2
Age	46 (37 – 59)	48 (39 – 56)	0,7
Manquant	7	4
Grade			0,9
I	35 (36%)	33 (32%)
II	32 (33%)	36 (35%)
III	31 (32%)	33 (32%)
1Médiane (EI); n (%)
2test de Wilcoxon-Mann-Whitney; test du khi-deux d'indépendance

tbl %>% as_hux_table()

Caractéristique	Drug A, N = 98	Drug B, N = 102	p-valeur
Age	46 (37 – 59)	48 (39 – 56)	0,7
Manquant	7	4
Grade			0,9
I	35 (36%)	33 (32%)
II	32 (33%)	36 (35%)
III	31 (32%)	33 (32%)
Médiane (EI); n (%)
test de Wilcoxon-Mann-Whitney; test du khi-deux d'indépendance

tbl %>% as_kable_extra()

Caractéristique	Drug A, N = 98	Drug B, N = 102	p-valeur
Age	46 (37 – 59)	48 (39 – 56)	0,7
Manquant	7	4
Grade			0,9
I	35 (36%)	33 (32%)
II	32 (33%)	36 (35%)
III	31 (32%)	33 (32%)
¹ Médiane (EI); n (%)
² test de Wilcoxon-Mann-Whitney; test du khi-deux d’indépendance

tbl %>% as_tibble()

# A tibble: 6 × 4
  `**Caractéristique**` `**Drug A**, N = 98`
  <chr>                 <chr>               
1 Age                   46 (37 – 59)        
2 Manquant              7                   
3 Grade                 <NA>                
4 I                     35 (36%)            
5 II                    32 (33%)            
6 III                   31 (32%)            
# ℹ 2 more variables: `**Drug B**, N = 102` <chr>,
#   `**p-valeur**` <chr>

En dehors d’un fichier R markdown, pour exporter un tableau dans un fichier HTML, TeX ou RTF, on pourra utiliser gtsave de gt.

tbl %>%
  as_gt() %>%
  gt::gtsave(filename = ".") # use extensions .html .tex .ltx .rtf

Pour exporter un tableau dans un fichier Word, on pourra avoir recours à save_as_docx de flextable.

tbl %>%
  as_flex_table() %>%
  flextable::save_as_docx()

Plus d’options avec bstfun

L’extension bstfun est une petite sœur de gtsummary, développée par la même équipe. Cette extension n’est pas disponible sur CRAN mais seulement sur GitHub et elle permet, entre autres, de tester certaines fonctionnalités avant leur éventuelle intégration dans gtsummary.

Cette extension n’étant disponible que sur GitHub, elle s’installe avec la commande ci-après. ATTENTION : sous Windows, vous aurez besoin d’avoir installer en amont l’outil R Tools disponible sur https://cran.r-project.org/bin/windows/Rtools/.

devtools::install_github("ddsjoberg/bstfun")

tbl_likert()

En sciences sociales, il est fréquent de mesurer des connaissances ou des opinions selon une échelle de Likert. Dans cette situation, nous avons alors plusieurs variables catégorielles partageant les mêmes modalités.

Prenons les données utilisées dans le chapitre Exemples de graphiques avancés.

load(url("https://larmarange.github.io/analyse-R/data/connaissances.RData"))

library(labelled)
quest %>% lookfor("conn")

 pos variable label col_type missing values
 2   conn_a   —     fct      21      oui   
                                     non   
                                     NSP   
 3   conn_b   —     fct      0       oui   
                                     non   
                                     NSP   
 4   conn_c   —     fct      0       oui   
                                     non   
                                     NSP   
 5   conn_d   —     fct      104     oui   
                                     non   
                                     NSP   
 6   conn_e   —     fct      17      oui   
                                     non   
                                     NSP   
 7   conn_f   —     fct      10      oui   
                                     non   
                                     NSP   
 8   conn_g   —     fct      12      oui   
                                     non   
                                     NSP

Nous avons une série de 8 variables avec les mêmes modalités (Oui, Non et NSP). Un tri à plat peut-être un peu fastidieux à lire.

quest %>%
  tbl_summary(include = starts_with("conn_"))

Caractéristique	N = 500¹
conn_a
oui	36 (7,5%)
non	442 (92%)
NSP	1 (0,2%)
Manquant	21
conn_b
oui	500 (100%)
non	0 (0%)
NSP	0 (0%)
conn_c
oui	495 (99%)
non	2 (0,4%)
NSP	3 (0,6%)
conn_d
oui	138 (35%)
non	244 (62%)
NSP	14 (3,5%)
Manquant	104
conn_e
oui	458 (95%)
non	19 (3,9%)
NSP	6 (1,2%)
Manquant	17
conn_f
oui	452 (92%)
non	31 (6,3%)
NSP	7 (1,4%)
Manquant	10
conn_g
oui	469 (96%)
non	15 (3,1%)
NSP	4 (0,8%)
Manquant	12
¹ n (%)

La fonction tbl_likert de bstfun est plus adaptée pour présenter ce type de données.

library(bstfun)


Attachement du package : 'bstfun'

L'objet suivant est masqué depuis 'package:gtsummary':

    trial

quest %>%
  tbl_likert(
    include = starts_with("conn_"),
    statistic = ~"{p}%"
  ) %>%
  add_n()

Caractéristique	N	oui¹	non¹	NSP¹
conn_a	479	7,5%	92%	0,2%
conn_b	500	100%	0%	0%
conn_c	500	99%	0,4%	0,6%
conn_d	396	35%	62%	3,5%
conn_e	483	95%	3,9%	1,2%
conn_f	490	92%	6,3%	1,4%
conn_g	488	96%	3,1%	0,8%
¹ %

Ajouter un graphique de tendances (add_sparkline)

La fonction add_sparkline ajoute une représentation graphique de la distribution d’une variable continue.

trial %>%
  tbl_summary(include = c(age, marker)) %>%
  add_sparkline(column_header = "**Distribution**")

Représentation graphique des coefficients dans le tableau (add_inline_forest_plot)

La fonction add_inline_forest_plot ajoute aux tableaux représentant les coefficients d’un modèle une représentation graphique de ces coefficients et de leur intervalle de confiance.

mod %>%
  tbl_regression(exponentiate = TRUE) %>%
  add_inline_forest_plot()

Forest plot (as_forest_plot)

La fonction as_forest_plot permets d’afficher un graphique des coefficients utilisant la fonction forestplot de l’extension homonyme forestplot à partir d’un tableau construit avec tbl_regression.

mod %>%
  tbl_regression() %>%
  as_forest_plot()

analyse-R n'est plus :vive guide-R !

Tableaux statistiques avancés avec gtsummary

Remarques sur les types de variables et les sélecteurs associés

Remarques sur la syntaxe des options

Thèmes

Statistiques descriptives avec tbl_summary()

Sélection des variables (include)

En fonction d’une seconde variable (by, add_overall)

Statistiques affichées (statistic, percent, sort)

Affichage du nom des statistiques (add_stat_label)

Forcer le type de variable (type, value)

Afficher des statistiques sur plusieurs lignes (continuous2)

Mise en forme des statistiques (digits)

Données manquantes (missing, missing_text)

Étiquettes des variables (label)

Afficher les effectifs (add_n)

Mise en forme du tableau (bold_labels, italicize_levels)

Modifer en-têtes et notes (modify_header, modify_spanning_header, modify_footnote)

Tests de comparaisons (add_p, separate_p_footnotes)

Intervalles de confiance (add_ci)

Différences entre groupes (add_difference)

Tableau croisé avec tbl_cross()

Données pondérées et tbl_svysummary()

Statistiques personnalisées avec tbl_continous() et tbl_custom_summary()

tbl_continuous()

tbl_custom_summary()

tbl_custom_summary() & continuous_summary()

tbl_custom_summary() & proportion_summary()

tbl_custom_summary() & ratio_summary()

tbl_custom_summary() & écriture d’une fonction personnalisée

add_stat()

Résultats d’un modèle avec tbl_regression()

Afficher seulement certains coefficients (include)

Étiquettes des variables (label)

Exponentiation des coefficients (exponentiate)

Changer l’intitulé des colonnes

Afficher des étoiles de signification (add_significance_stars)

Variables dichotomiques sur une ligne (show_single_row)

Afficher l’intercept (intercept)

Mise en forme des coefficients (estimate_fun, pvalue_fun)

Afficher les coefficients pour les références (add_estimate_to_reference_rows)

P-valeurs globales (add_global_p)

Ajouter les VIF (add_vif)

Représenter graphiquement le modèle (plot)

Afficher des statistiques globales du modèle (add_glance_table, add_glance_source_note)

Combiner des tableaux

tbl_stack() & tbl_merge()

tbl_strata()

tbl_split()

Régressions univariées multiples avec tbl_uvregression()

Tables de survie avec tbl_survfit()

Exporter un tableau

Plus d’options avec bstfun

tbl_likert()

Ajouter un graphique de tendances (add_sparkline)

Représentation graphique des coefficients dans le tableau (add_inline_forest_plot)

Forest plot (as_forest_plot)

analyse-R n'est plus :
vive guide-R !