Ce texte est une version modifiée d’un article de blog écrit il y a deux ans. Etant donné l’intérêt croissant pour les tests d’ascendance génétique au cours de ces deux dernières années, la question « qu’est-ce que l’ascendance génétique ? » mérite d’être reposée.
Article originel de Joe Pickrell.
Toute personne ayant utilisé les tests génétiques commerciaux comme ceux proposés par 23andMe, AncestryDNA ou Gencove connaît la notion « d’ascendance génétique ». Après vous avoir fait parvenir un kit salivaire, nous vous renvoyons les résultats de l’analyse qui vous indiquent le pourcentage de votre ADN qui se rapproche le plus de telle ou telle population de la planète.
A un niveau superficiel, il semble relativement facile d’en arriver à cette estimation : on observe le génome de quelqu’un, on applique des statistiques fantaisie et on en arrive à des chiffres du style « 21,5 % Britannique ou Irlandais » ou « 40 % Grande Bretagne, 6 % Irlande, ou « 79 % Europe du Nord et Centrale » (ce sont les chiffres de mes propres résultats, qui m’ont été remis respectivement par 23andMe, AncestryDNA et Gencove. Un lecteur astucieux se demandera : Mais attendez, ces chiffres ne devraient-ils pas être les mêmes partout ? Gardez-donc ceci à l’esprit pour la suite).
Résultats d’ascendance génétique de trois entreprises différentes (GenePlaza, 23andMe et AncestryDNA) pour un même individu
Dès que l’on se penche un peu plus sur « l’inférence de l’ascendance génétique », on se retrouve très vite aux royaumes de la sociologie et de la psychologie plutôt que dans les domaines de la statistique et de la génétique.
Pour comprendre pourquoi, il est important de commencer par le début : quel est donc le but de « l’inférence de l’ascendance génétique » ?
« Qu’est-ce que l’ascendance génétique » ?
Il est une question utile pour les personnes qui travaillent sur des algorithmes et souhaitent en savoir plus sur l’ascendance en utilisant des données génétiques : « Comment décririez-vous vos ancêtres ? » Essayez donc de répondre à cette question. Demandez à des amis. Enquiquinez des étrangers sur la toile.
Si les gens à qui vous vous adressez ressemblent un tant soit peu à ceux avec qui j’ai discuté, les réponses se diviseront en deux grandes catégories :
- Beaucoup de gens utilisent des classifications géographiques pour décrire leurs ascendants, souvent en fonction des frontières politiques actuelles. Par exemple, « Français » ou « Chinois ».
- Beaucoup de gens utilisent des catégories ethniques pour décrire leurs ascendants. Par exemple « Juif » ou « Caucasien » [1].
Imaginons que la définition « correcte » de « l’ascendance génétique » ait quelque chose à voir avec ces réponses, données sans trop réfléchir. Cela suggère que les gens s’attendent à ce qu’un « test d’ascendance » génétique augure les catégories géographiques et/ou ethniques dans lesquelles s’inscriraient leurs ancêtres.
Malheureusement, lorsqu’on s’assied et que l’on essaie d’écrire un algorithme pour atteindre cet objectif, on voit immédiatement apparaître deux problèmes décourageants.
Problème numéro 1 : de quelle distance dans le temps parlons-nous ?
Nos ancêtres ont évidemment vécu à des époques différentes. Il se peut que huit de vos ancêtres aient vécu il y a 100 ans, mais que des milliers d’entre eux aient vécu il y a 500 ans. Alors à qui appartiennent les catégories géographique et/ou ethnique que l’on essaie de découvrir ? A des ancêtres ayant vécu 100 ans en arrière ou à ceux qui vivaient il y a 500 ans ? (Ou 1 000 ans ? Ou… ?)
Une première hypothèse raisonnable nous mène à penser que lorsque les gens parlent de leur ascendance, ils se réfèrent en général à des ancêtres récents, de telle sorte que la « bonne » réponse à cette question pourrait être quelque chose de l’ordre de « 100 ans auparavant ». Ce qui n’est pas totalement satisfaisant : aux Etats-Unis il y a beaucoup de gens dont les ancêtres ont immigré des centaines d’années auparavant mais qui pensent que leur ascendance est (par exemple) « britannique » ou « chinoise » plutôt que « michiganienne » ou « californienne ».
Il n’est donc pas toujours évident de savoir à quelle époque se réfèrent les gens lorsqu’ils pensent à leur ascendance. D’ailleurs, il semble plausible que la distance temporelle « correcte » à donner dans un test d’ascendance dépende… de l’ascendance de l’utilisateur. Ce qui devrait nous amener à comprendre que l’ascendance génétique est un concept plus complexe qu’il n’y paraît au premier abord.
Problème numéro 2 : Les marqueurs d’ascendance génétique sont influencés par des facteurs sociaux et politiques
Tout cela devient encore plus évident lorsque l’on aborde un problème fondamental : certaines des catégories que nous considérons comme faisant partie de l’ « ascendance » sont fortement influencées — parfois même déterminées — par des facteurs sociaux et politiques. De toute évidence, aucun marqueur ne change lorsque quelqu’un se convertit au judaïsme, ou lorsque le territoire où vit une personne est annexé par un pays voisin. Mais ces évènements ont souvent des influences dramatiques sur la façon dont les descendants perçoivent leurs ancêtres, de par la transmission culturelle de la langue et des traditions.
En effet, la construction d’une identité ancestrale partagée a été (et reste) une façon de consolider un pouvoir politique sur diverses cultures (voir par exemple le cas de Franco en Espagne). La génétique ne perçoit pas toutes ces données, sauf après des centaines ou des milliers d’années (si les identités partagées influencent les modèles de mariage et/ou de migration ultérieurs).
Une solution possible
Pour contourner tous ces problèmes, on pourrait rêver d’une liste détaillée de nos ancêtres à différentes époques ; pour chaque ancêtre, on indiquerait sa localisation géographique et toutes ses auto-identifications ethniques. On pourrait alors dire, par exemple, qu’il y a 100 ans, 25 % de nos ancêtres vivaient dans l’Illinois et étaient identifiés comme Juifs, alors que 500 ans en arrière, 5 % de vos ancêtres vivaient dans ce que l’on connaît aujourd’hui comme l’Andalousie et étaient identifiés à des Musulmans [2].
Malheureusement, l’obtention d’une bonne partie de ces informations à partir de données génétiques est actuellement impossible, et nous devons donc faire des compromis et des approximations dramatiques [3]. Plus être plus précis, l’approche adoptée par toutes les entreprises commerciales tente d’évaluer les régions géographiques globales où ont vécu vos ancêtres (et dans un tout petit nombre de cas leurs marqueurs d’appartenance ethnique), à une certaine époque indéterminée du passé, probablement quelques centaines d’années auparavant.
Tout cela vous semble un peu vague ? C’est sûrement parce que ça l’est. Les expressions « régions géographiques globales » et « certaines époques indéterminées du passé » laissent énormément de marge de manœuvre et permettent des interprétations fort diverses [4].
Mais la clé du problème réside dans ce qui suit : si l’on substitue l’objectif actuellement irréalisable de comprendre à la perfection la géographie et l’ethnicité de nos ancêtres par celui, plus réaliste, d’une compréhension globale de certains d’entre eux, on peut avancer un peu. Bien sûr, cela peut sembler un peu décevant, en ce sens que nous avons abandonné l’exactitude et l’objectivité promises par un « test génétique », mais il y a tout de même deux raisons de rester optimistes :
- Dans de nombreux cas, la compréhension approximative peut déjà être riche de sens. Des millions de personnes ont acheté ces tests. Certaines ont découvert des aspects de leur histoire familiale cachés (je suis d’ailleurs l’une d’entre elles). D’autres ont découvert des erreurs hospitalières qui les ont conduits à des incompatibilités déroutantes entre leurs ascendances culturelle et ethnique. D’autres enfin ont été confrontées à l’héritage génétique de l’esclavage dans leurs propres génomes. Ce type d’informations peut être extrêmement fort.
- Plus il y a de gens qui participent, mieux c’est. Le développement des bases de données génétiques permet l’émergence de nouvelles méthodes statistiques pour étudier l’ascendance génétique. Chez Gencove nous avons réussi à mettre à jour nos algorithmes plusieurs fois au cours des derniers mois pour fournir des analyses plus détaillées ; et cela pour une simple et bonne raison : comme pour la plupart des algorithmes d’apprentissage automatique, plus les données d’entraînement sont nombreuses, plus on obtient de bonnes performances, puisque l’on identifie les variantes/combinaisons de variantes qui sont le plus à même de prédire la localisation géographique de vos ancêtres.
Si vous souhaitez nous aider dans notre travail sur la prochaine génération d’algorithmes d’inférence d’ascendance génétique, contactez-nous !
Références :
[1] Bien que le Caucase soit une région géographique, le mot « caucasien » est utilisé aux Etats-Unis en tant qu’identificateur ethnique, pratiquement synonyme de « blanc ».
[2] On pourrait avoir envie de savoir si l’on a réellement hérité du matériel génétique d’un ancêtre ou d’un autre, mais évitons pour le moment d’ouvrir cette boîte de Pandore et supposons que les propriétés de vos ancêtres généalogiques sont les mêmes que celles de vos ancêtres génétiques.
[3] Dans la version antérieure de cet article, j’ai écrit que cela était en fait impossible. Je suis aujourd’hui convaincu que je me trompais, et que c’est un problème extrêmement difficile — mais pas impossible — à résoudre.
[4] Notez les différentes proportions d’ascendance que 23andMe, AncestryDNA, et Gencove m’ont fait parvenir. La plupart des gens considère ces différences comme des solutions algorithmiques à une seule et même question, mais il est tout à fait possible que les algorithmes utilisés par les trois entreprises répondent à des questions légèrement différentes ! Par exemple, il se peut que l’algorithme de 23andMe se penche sur une ascendance à peine plus récente en moyenne que celui d’AncestryDNA (Je crois d’ailleurs que c’est effectivement le cas). Sur ce sujet en général, la publication géniale de Debbie Kennett qui compare les résultats des trois firmes vaut vraiment le détour.