Les enquêtes cas-témoins : quand, comment ?

Sang Thrombose Vaisseaux. Volume 10, Numéro 2, 116-22, Février 1998, Note méthodologie

Auteur(s) : Laurent Letrilliart,

Mots-clés : études cas-témoins, épidémiologie, maladie, cardiovasculaires.

ARTICLE
En épidémiologie, on oppose schématiquement l'étude expérimentale, représentant le modèle de référence, aux études non expérimentales. La première est caractérisée par le recours à la randomisation ou tirage au sort des sujets dans les groupes à comparer, qui seule autorise en théorie à conclure en termes de causalité ; l'essai thérapeutique constitue le prototype de l'étude expérimentale. Les études non expérimentales, ou enquêtes d'observation, rassemblent principalement les enquêtes de cohorte et les enquêtes cas-témoins, qui comportent des groupes de comparaison non randomisés. Si l'on hiérarchise ces différentes approches en fonction de leur degré de crédibilité scientifique, l'étude expérimentale représente le schéma épidémiologique le plus robuste, loin devant l'enquête de cohorte, suivie de l'enquête cas-témoins. Aussi ne doit-on envisager de recourir à une approche non expérimentale que lorsqu'une étude expérimentale n'est pas réalisable. Cette situation est très souvent rencontrée en pratique, au regard de considérations éthiques ou logistiques (en termes de délai et/ou de coût financier). Il est impossible, par exemple pour étudier le rôle protecteur de la consommation d'alcool dans l'insuffisance coronaire, de tirer au sort un échantillon d'individus auxquels on proposerait de s'astreindre à consommer régulièrement de l'alcool et de surveiller la survenue ou non d'un angor ou d'un infarctus du myocarde par comparaison avec un groupe non exposé à l'alcool.
Au sein de l'arsenal épidémiologique, l'enquête de type cas-témoins ( case-control survey dans la terminologie anglo-saxonne) occupe une place importante. C'est l'approche la plus couramment utilisée pour l'étude des facteurs de risque des maladies. Elle est aussi très utilisée en pharmacovigilance. En 1997, une recherche bibliographique sur la base de données MEDLINE ®révèle qu'en moyenne 30 nouveaux articles sont référencés quotidiennement sous le mot clé « étude cas-témoins ». Parmi ceux-ci, 5 (17 %) en moyenne sont référencés conjointement sous le mot clé « maladie cardiovasculaire ».
Cette note a pour objectif d'apporter au clinicien des repères méthodologiques utiles à la lecture critique des travaux reposant sur l'approche cas-témoins. Elle présente le concept d'estimation d'un risque, puis décrit les principales étapes d'un protocole d'enquête (choix d'une enquête cas-témoins, définition de l'échantillon, recueil des données, analyse statistique, jugement de causalité) en précisant les limites de cette approche (biais potentiels). Nous prendrons pour illustration principale une étude cas-témoins franco-irlandaise [1] étudiant le rôle de la consommation d'alcool dans la survenue de l'infarctus du myocarde, issue du programme de recherche ECTIM (enquête cas-témoins de l'infarctus du myocarde).


Concepts de base
Mesure du risque dans une population

Considérons une population composée de N sujets, qu'on appellera population cible. Admettons que l'on s'interroge sur l'existence présumée d'une association entre un facteur d'exposition et une maladie au sein de cette population. S'il était possible de mener une investigation auprès de chacun des N sujets, on pourrait répartir l'ensemble de la population cible en quatre groupes : sujets exposés et malades, exposés et non malades, non exposés et malades, non exposés et non malades (tableau I ). Cette procédure pourrait s'inscrire à un moment donné et identifier les malades « prévalents » (présents à ce moment), ou plus sûrement sur une période donnée et identifier les malades « incidents » (nouveaux malades au cours de cette période). L'approche en termes de malades « prévalents » n'est envisageable que pour l'étude d'une maladie d'évolution brève, à savoir une maladie aiguë. Le tableau II présente les différents indicateurs que l'on peut mesurer sur cette population. Un risque absolu plus élevé dans le groupe des exposés que dans celui des non-exposés signifie que le facteur d'exposition est effectivement un facteur de risque pour la maladie considérée. Le risque relatif est défini comme le rapport des risques absolus de maladie chez les sujets exposés et non exposés (tableau II ). Il mesure la force de l'association entre la maladie et le facteur d'exposition. L'odds ratio est défini comme le rapport des « cotes » d'exposition. En cas de maladie de faible prévalence, A et C sont « petits » devant B et D ; le risque relatif et l'odds ratio sont alors à peu près égaux puisque
(A/A + B)/(C/C + D) = (A/B)/(C/D) ~ AD/BC.


Estimation du risque dans un échantillon cas-témoins
En pratique, il est quasiment impossible de faire l'investigation de toute une population cible. C'est pourquoi il est le plus souvent nécessaire de constituer un échantillon issu de cette population. Dans le cas d'une enquête cas-témoins, les sujets inclus dans l'échantillon sont sélectionnés selon leur statut par rapport à la maladie étudiée et répartis en deux groupes : les malades ou « cas » et les non-malades ou « témoins » (tableau III ). Le nombre de cas et de témoins dans cet échantillon est choisi en fonction de la puissance statistique attendue (voir plus loin) et des possibilités de recrutement de témoins. Le ratio cas/témoins (a + c)/(b + d) est compris habituellement entre 1:1 et 1:4, le gain de puissance étant négligeable au-delà de 4 témoins pour 1 cas.
Du fait du mode de constitution de l'échantillon, il n'y a aucune raison a priori pour que ce ratio dans l'échantillon soit identique au ratio malades/non-malades dans la population cible (tableau II ). De même, il est impossible de connaître les risques absolus des exposés et des non-exposés, et donc de calculer directement le risque relatif sur cet échantillon. En revanche, le calcul de l'odds ratio est possible (odds ratio = ad/bc) et, en cas de maladie de faible prévalence (< 5 %), on pourra l'utiliser comme une bonne approximation du risque relatif. L'odds ratio, comme toute estimation réalisée sur un échantillon, doit être présenté avec son intervalle de confiance à 95 %, qui mesure la précision de l'estimation.


Le choix d'une enquête cas-témoins
Il n'existe pas d'indication type de l'enquête cas-témoins. Le plus souvent, plusieurs types d'enquête sont envisageables pour étudier une hypothèse scientifique donnée. Certains critères peuvent toutefois orienter le choix en faveur d'une enquête cas-témoins plutôt que d'une enquête de cohorte (tableau IV ). Ces critères portent sur les caractéristiques des maladies et expositions étudiées (nature, nombre et fréquence) mais également sur des considérations logistiques. Schématiquement, l'enquête cas-témoins nécessite d'inclure moins de sujets et est plus rapide à réaliser (surtout si la maladie étudiée a une latence prolongée) qu'une enquête de cohorte ; c'est pourquoi son coût est habituellement moindre.
Lorsque la prévalence de la maladie est supérieure à 5 %, il est préférable de recourir à un plan d'étude de type « cas-cohorte » plutôt qu'à une enquête cas-témoins [2].


Les biais potentiels
Qu'est-ce qu'un biais ?

Dans les enquêtes d'observation, l'investigateur ne contrôle pas l'affectation des sujets au facteur d'exposition. Il observe simplement la relation entre l'exposition à un facteur et la survenue de la maladie. Ces enquêtes peuvent de ce fait présenter une grande variété de biais susceptibles de fausser ou d'invalider les résultats. Ce risque est particulièrement important pour les études cas-témoins. La plupart de ces biais peuvent néanmoins être évités ou contrôlés, à la condition que l'enquête soit bien conçue et correctement analysée [3]. Un biais est défini comme une distorsion de l'estimation de la mesure d'une association entre l'exposition à un facteur et la survenue d'une maladie. L'effet peut être une surestimation ou une sous-estimation de la force de l'association (mesurée par l'odds ratio), voire une inversion du sens de l'association.


Les principaux types de biais
On regroupe habituellement les biais en trois catégories principales [4] : les biais de sélection, d'information et de confusion (tableau V ).
Les biais de sélection ( selection bias dans la terminologie anglo-saxonne) peuvent affecter les cas et plus souvent encore les témoins. Ils existent lorsque les groupes de cas et témoins ne sont pas représentatifs de la population cible. C'est une situation fréquemment rencontrée dans des études réalisées en milieu hospitalier spécialisé (biais d'admission).
Les biais d'information ou de mesure (information bias ,measurement bias) traduisent des erreurs de mesure sur l'exposition. Le biais de mémorisation est particulièrement fréquent dans les enquêtes cas-témoins.
Les biais de confusion (confounding bias) sont liés à l'influence de tiers facteurs sur l'association entre l'exposition et la maladie. Ces tiers facteurs, appelés facteurs de confusion, sont associés à la fois au facteur d'exposition et à la maladie étudiés, et modifient l'estimation de l'association entre les deux. L'appariement des cas et des témoins est un procédé utile pour contrôler, dès l'étape de constitution de l'échantillon, certains facteurs de confusion connus et jugés inintéressants. Les facteurs d'appariement les plus fréquemment utilisés sont l'âge, le sexe et le lieu de résidence.
À la différence des biais de confusion, les biais de sélection et d'information ne peuvent pratiquement pas être corrigés au moment de l'analyse des résultats.


Validation de la qualité méthodologique de l'étude
Définition des cas

La définition retenue doit être simple et précise. Elle repose habituellement sur des critères cliniques ou paracliniques (biologiques...) ainsi que sur des caractéristiques personnelles, qui doivent être mesurables de façon objective et standardisée. S'il existe une définition officielle de la maladie étudiée (Organisation Mondiale de la Santé, Centers for Disease Control...), il est utile de s'y référer.
Dans l'étude prise pour illustration, le groupe des cas était constitué de 561 hommes de 25 à 64 ans, selectionnés entre 1988 et 1991 à partir de trois registres MONICA (monitoring of trends and determinants in cardiovascular disease) , un en Irlande du Nord et deux en France. L'utilisation de registres assure, si ceux-ci sont exhaustifs, une représentativité optimale des cas sélectionnés par rapport à l'ensemble des patients ayant eu un antécédent récent d'infarctus du myocarde. Seuls étaient inclus comme cas les sujets ayant eu un antécédent d'infarctus du myocarde dans les 3 à 6 mois précédents. La validité du choix des cas dans cette étude reposait sur une définition très précise et objective de l'infarctus du myocarde, qui comportait des critères électro-cardiographiques (apparition d'une onde Q pathologique, ou développement d'une onde Q non caractéristique associée à un sous-décalage ou sus-décalage du segment ST, ou sus-décalage persistant du segment ST avec inversion de l'onde T) ou biologiques (élévation des enzymes cardiaques à plus de deux fois la limite supérieure de la normale, associée à des symptômes ou une évolution électro-cardiographique évocateurs). On pourrait objecter que les registres d'où étaient issus les cas n'identifiaient que les sujets ayant présenté un infarctus du myocarde symptomatique ; selon certains auteurs, la proportion d'infarctus du myocarde non diagnostiqués (asymptomatiques ou atypiques) pourrait pourtant représenter 25 % de l'ensemble de cette pathologie. Les infarctus du myocarde asymptomatiques survenant de préférence chez des sujets diabétiques ou hypertendus, certains résultats ont pu être influencés par ce choix.


Choix des témoins
Le groupe témoin est un groupe de référence qui permet de déterminer la fréquence de base de l'exposition à un facteur de risque dans la population d'où sont issus les cas. Ce groupe doit être aussi représentatif que possible des non-malades de la population cible. La constitution du groupe témoin est un élément clé dans toute enquête cas-témoins, en raison du risque de biais de sélection [5].
Dans l'exemple précédemment cité, le groupe témoin était constitué de 643 hommes de 25 à 64 ans, tirés au sort à partir de listes électorales en France, à partir de listes de médecins généralistes en Irlande du Nord. Les cas déclarés dans des registres étant issus de la population générale, les témoins devaient également être issus de la population générale de la même région. Cette exigence est respectée avec le recours aux listes électorales et aux listes de médecins généralistes, qui sont relativement représentatives de la population générale d'âge adulte.


Taille de l'échantillon
Le nombre de sujets inclus ainsi que le ratio cas/témoins conditionnent la puissance de l'enquête, qui estime la probabilité de mettre en évidence une association lorsqu'elle existe. On admet classiquement qu'elle ne doit pas être inférieure à 80 % [6]. C'est pourquoi le nombre de sujets nécessaire doit être calculé avant d'entreprendre l'enquête, en fonction des hypothèses initiales concernant la fréquence d'exposition chez les témoins et l'odds ratio attendu. Si la maladie étudiée est rare, la fréquence d'exposition dans la population (lorsqu'elle est connue) est une bonne estimation a priori de la fréquence d'exposition chez les témoins (tableau II ). À défaut d'effectuer les calculs exacts, on se référera utilement aux tables publiées [7].


Mesure des expositions
Dans une enquête cas-témoins, le recueil des données est rétrospectif. La mesure des expositions passées doit être précise et objective, et doit comporter lorsque cela est possible le dosage de marqueurs biologiques. Les données recueillies doivent inclure les informations relatives aux facteurs de confusion potentiels qui ont été identifiés avant le début de l'enquête [8]. Il est souhaitable que le recueil de l'ensemble des données se déroule « en aveugle », c'est-à-dire dans l'ignorance du statut des sujets (cas ou témoin), de façon à limiter les biais d'information. En pratique, cette contrainte est souvent difficile à respecter lorsque le recrutement s'effectue dans une structure de soins.
Dans l'étude franco-irlandaise prise en exemple, les données avaient été collectées par un interrogatoire standardisé administré par des enquêteurs médicaux au domicile des sujets français, dans un centre médical pour les sujets nord-irlandais. L'interrogatoire concernait en particulier la consommation d'alcool et de tabac (avant l'infarctus du myocarde pour les cas et au moment de l'interrogatoire pour les témoins). La consommation d'alcool a été décrite précisément, en termes de fréquence et de quantités, pour chaque type de boisson alcoolisée (vin, alcools autres que le vin). L'existence ou non de facteurs pouvant influencer la survenue d'un infarctus du myocarde a été précisée, à partir de données cliniques et de tests biologiques : hypertension artérielle, hyperlipidémie (hypercholestérolémie ou hypertriglycéridémie), diabète. La pression artérielle, par exemple, était mesurée à deux reprises, avec une précision de 2 mmHg ; une hypertension artérielle était définie par une pression systolique >= 160 mmHg ou une pression diastolique >= 95 mmHg, ou par la prise d'un traitement antihypertenseur.


Analyse statistique
L'analyse des données se décompose classiquement en deux étapes : l'analyse univariée puis l'analyse multivariée.
L'analyse univariée consiste à estimer les odds ratio « bruts » (tels que définis infra ), mesurant séparément la force des associations entre la maladie et chacun des facteurs d'exposition, sans ajustement sur les facteurs de confusion potentiels. Un odds ratio égal à 1 signifie l'absence d'association. Un odds ratio significativement supérieur à 1 signifie que le facteur d'exposition est un facteur de risque pour la maladie, alors qu'un odds ratio significativement inférieur à 1 signifie que le facteur d'exposition est un facteur protecteur contre la maladie. Ces résultats sont toujours estimés à un risque d'erreur près, représenté par le degré de signification p, qui permet classiquement de conclure lorsqu'il est inférieur à 5 % (p < 0,05). En pratique, l'association est statistiquement significative lorsque l'intervalle de confiance à 95 % de l'odds ratio n'inclut pas la valeur 1. Ainsi par exemple, un odds ratio égal à 3,0 avec un intervalle de confiance (2,1-4,4) indique une association statistiquement significative, avec un risque trois fois plus élevé de survenue de la maladie chez les sujets exposés par rapport aux sujets non exposés.
Dans l'étude franco-irlandaise, l'analyse univariée évaluait la relation brute entre la consommation d'alcool et la survenue d'un infarctus du myocarde. Elle a été stratifiée selon le pays d'étude, c'est-à-dire qu'elle a été conduite séparément pour les données françaises et pour les données nord-irlandaises, de façon à pouvoir comparer les résultats. La consommation totale d'alcool ne différait pas significativement entre les cas et les témoins, tant en France qu'en Irlande du Nord (tableau VI ). On observait par ailleurs la consommation d'alcool principalement sous forme de vin en France (27,4 g/jour chez les témoins), principalement sous forme de boissons autres que le vin en Irlande du Nord (35,5 g/jour chez les témoins). Les odds ratio bruts ne figuraient pas dans les résultats univariés.
En épidémiologie, particulièrement dans le domaine des maladies cardiovasculaires qui sont fréquemment d'origine multifactorielle [9], il est habituel d'évaluer simultanément le rôle de différents facteurs d'exposition dans la survenue d'une maladie ou d'une événement donné. L'analyse est alors de type multivarié, ce qui permet un ajustement réciproque des facteurs d'exposition étudiés. Le modèle multivarié de référence dans les études cas-témoins est la régression logistique ( cf. note ultérieure), qui permet d'estimer les différents odds ratio (dits ajustés) avec leurs intervalles de confiance respectifs. Dans notre exemple, l'analyse multivariée a permis d'ajuster l'estimation du risque associé à la consommation d'alcool sur les facteurs de confusion potentiels, représentés par les facteurs de risque connus de l'infarctus du myocarde : le pays d'étude, l'âge, le tabagisme, l'indice de masse corporelle, une hyperlipidémie, une hypertension artérielle (tableau VII ). La consommation d'alcool (ici codée en variable quantitative) est alors apparue comme un facteur protecteur contre l'infarctus du myocarde, avec un odds ratio de 0,80 ajusté différant significativement de 1 avec intervalle de confiance (0,66-0,97]) ; ce résultat signifie que le risque d'infarctus du myocarde est diminué de 20 % pour une augmentation de 50 g/jour d'alcool consommé. Les auteurs expliquaient la mise en évidence de cette association lors de l'analyse multivariée (et non lors de l'analyse univariée) notamment par le rôle confondant du tabagisme, dont la corrélation avec la consommation d'alcool, d'une part, et le rôle de facteur de risque de maladie coronaire, d'autre part, sont bien établis.


Comment établir un lien de causalité entre l'exposition et la maladie ?
Une association n'est pas toujours causale
À la différence d'une étude expérimentale, une enquête d'observation (particulièrement dans le cas de l'approche cas-témoins) ne peut pas prouver le rôle causal d'un facteur d'exposition dans la survenue d'une maladie, mais seulement le suggérer. La mise en évidence d'une association statistiquement significative entre un facteur d'exposition et une maladie ne permet pas, par elle-même, de conclure à l'existence d'une relation causale. L'imputabilité causale dans une enquête d'observation, c'est-à-dire la démonstration de la relation causale entre exposition et maladie, repose en pratique sur un ensemble de critères, internes et externes à l'étude, dont aucun n'est nécessaire ni suffisant pour affirmer le lien de causalité [10].


Les critères de causalité
Ces critères, largement admis, sont présentés dans le tableau VIII . La force de l'association entre l'exposition et la maladie est mesurée, dans une enquête cas-témoins, par la valeur de l'odds ratio. En général, un odds ratio supérieur à 4 (ou inférieur à 0,25) a peu de chances d'être dû à des biais. Un effet dose-réponse est présent lorsque la fréquence de la maladie (et en conséquence l'odds ratio) augmente en fonction de la dose ou du niveau de l'exposition. L'élévation du rôle protecteur de l'alcool sur la survenue de l'infarctus du myocarde en fonction de la quantité consommée quotidiennement est un exemple de relation dose-réponse. Il est essentiel dans une étude cas-témoins de vérifier l'antériorité de l'exposition par rapport à la survenue de la maladie (critère de temporalité).
La probabilité qu'une association soit causale est d'autant plus élevée que cette association est constante et reproductible, c'est-à-dire qu'elle est retrouvée dans différentes populations et dans différentes circonstances. Ce critère est précisément vérifié dans le cas de la relation entre consommation d'alcool et survenue de maladies coronaires, qui a été observée de façon concordante dans différents pays et continents (Europe et États-Unis notamment). La plausibilité biologique, c'est-à-dire la connaissance antérieure d'un mécanisme d'action possible de l'exposition sur la maladie, renforce la vraisemblance d'une relation causale. L'essentiel de l'effet protecteur attaché à la consommation d'alcool dans la survenue de l'infarctus du myocarde pourrait provenir de l'élévation du cholestérol lié aux lipoprotéines de haute densité, selon différentes données publiées. La cohérence d'une association se réfère à la concordance des résultats avec les données connues sur l'histoire naturelle de la maladie. L'identification de l'alcool conjointement comme facteur de risque de l'infarctus du myocarde et comme facteur de risque de l'athérosclérose coronaire obéit au critère de cohérence. La relation entre un facteur et une maladie est spécifique si cette maladie n'est associée à aucun autre facteur et si ce facteur n'est associé à aucune autre maladie. Ce critère est rarement vérifié en pratique, en particulier dans le cadre des maladies cardiovasculaires dont les déterminants sont souvent multiples (environnementaux, comportementaux et génétiques).


REFERENCES
1. Marques-Vidal P, Ducimetière P, Evans A, Cambou JP, Arveiler D. Alcohol consumption and myocardial infarction : a case-control study in France and Northern Ireland. Am J Epidemiol 1996 ; 143 : 1089-93.
2. Hogue CJ, Gaylor DW, Schulz KF. Estimators of relative risk for case-control studies. Am J Epidemiol 1983 ; 118 : 396-407.
3. Hayden GF, Kramer MS, Horwitz RI. The case-control study. A practical review for the clinician. JAMA 1982 ; 247 : 326-31.
4. Rothman KJ. Modern epidemiology . Boston : Little Brown, 1986 ; 7 : 77-97.
5. Wacholder S, McLaughlin JK, Silverman DT, Mandel JS. Selection of controls in case-control studies I. Principles. Am J Epidemiol 1992 ; 135 : 1019-28.
6. Bouyer J, Hémon D, Cordier S, et al. Épidémiologie. Principes et méthodes quantitatives. Paris : Éditions INSERM, 1993 ; 23 : 457-77.
7. Schlesselman JJ. Cases-control studies. Design, conduct, analysis. New York : Oxford University Press, 1982, Appendix C : 319-24.
8. Datta M. You cannot exclude the explanation you have not considered. Lancet 1993 ; 342 : 345-7.
9. Kornitzer M. Vingt ans d'épidémiologie cardio-vasculaire. Le point de vue de l'épidémiologiste. Rev Epidemiol Sante Publ 1996 ; 44 : 563-76.
10. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic research. Principle and quantitative methods. New York : Lifetime learning publications, 1982 ; 2 : 19-39.

Copyright © 2003 John Libbey Eurotext - Tous droits réservés