
Échantillon
Les données proviennent de l’étude de cohorte norvégienne sur la mère, le père et l’enfant (MoBa), une étude prospective de cohorte de grossesse basée sur la population menée par l’Institut norvégien de santé publique. Des femmes enceintes de toute la Norvège ont été recrutées entre 1999 et 2008, et 41 % de toutes les femmes enceintes ont participé à l’étude. La cohorte comprend environ 114 500 enfants, 95 000 mères et 75 000 pères. Le MoBa a été relié aux données des registres norvégiens fournies par Statistics Norway. La version 12 des fichiers de données MoBa, dont la qualité est assurée, a été utilisée, en lien avec les données des registres collectées entre 1960 et 2018. L’étude actuelle est basée sur les données des registres des parents MoBa (n= 170,202). Nous avons recueilli des mesures de l’éducation, du revenu, de la richesse et de la profession à partir des données du registre de Statistics Norway liées aux parents du MoBa. Les données sont de grande qualité et ne sont pas sujettes à l’attrition.
Éthique
La mise en place du MoBa et la collecte initiale des données ont été effectuées sur la base d’une licence délivrée par l’Agence norvégienne de protection des données et de l’approbation des Comités régionaux d’éthique de la recherche médicale et sanitaire. La cohorte MoBa est désormais basée sur les réglementations liées à la loi norvégienne sur les registres de santé. L’étude actuelle a été approuvée par les comités régionaux d’éthique de la recherche médicale et sanitaire (projet # 2017/2205). Le projet a été examiné par des conseillers en éthique indépendants nommés par le Conseil européen de la recherche (convention de subvention n° 101045526).
Contrôle de qualité du génotype
Des échantillons de sang ont été prélevés sur les deux parents pendant la grossesse et sur les mères et les enfants (cordon ombilical) à la naissance. Des données de génotypage contrôlées par la qualité ont été récemment générées pour l’ensemble des 207 569 participants uniques au MoBa.65. La mise en phase et l’imputation ont été réalisées avec IMPUTE4.1.2_r300.3, en utilisant comme référence le panel Haplotype Reference Consortium release 1.1 disponible publiquement. Pour identifier une sous-population d’ascendance européenne, une ACP a été réalisée avec 1000 Genomes phase 1 après élagage LD. Le nombre d’adultes disposant de données génotypiques de qualité contrôlée utilisées dans cette étude est de 128 310.
Mesures
Quatre mesures du SSE ont été utilisées : le niveau d’éducation, le prestige professionnel, le revenu et la richesse. L’organigramme de la figure 6 détaille le processus de préparation des données et indique la taille de l’échantillon utilisé pour chaque méthode et chaque mesure. La quantité de données manquantes est la différence entre le nombre de participants inclus dans chaque méthode et mesure et l’échantillon original à partir duquel elle a été tirée.
Organigramme de la population, des parents MoBa, des données génétiques de qualité contrôlée, du nombre d’observations du registre lié et de la taille de l’échantillon de chaque méthode appliquée.
Niveau d’éducation
Nous avons utilisé les données administratives de la base de données nationale norvégienne sur l’éducation, classées selon la classification standard norvégienne de l’éducation (N US2000), pour identifier les activités éducatives et les antécédents des individus. Cette norme est utilisée dans les statistiques sur l’éducation de Statistic Norway et dans d’autres statistiques où l’éducation est incluse comme variable. De plus amples informations sont disponibles à l’adresse suivante : http://www.ssb.no/en/utdanning/norwegian-standard-classification-of-education. Les données sur le niveau d’études ont été formatées selon la Classification internationale type de l’éducation 2011 et converties en nombre d’années nécessaires en Norvège pour atteindre chaque niveau. Le nombre d’années a été utilisé car il permet d’interpréter les résultats de manière plus intuitive et est standard dans les analyses statistiques génétiques du niveau d’éducation. Pour saisir le niveau d’éducation à une étape spécifique de la vie de tous les participants (parentalité), nous avons utilisé les données sur le niveau d’éducation le plus élevé enregistré entre les âges de 35 et 45 ans.
Prestige professionnel
Statistics Norway a collecté et codé les données sur la profession. De plus amples informations sur la production des données sont disponibles ici : https://www.ssb.no/en/arbeid-og-lonn/sysselsetting. Nous avons converti les codes des professions au format international ISCO 88 et du format ISCO 88 à l’échelle internationale de prestige de Treiman (SIOPS).66. L’échelle SIOPS a été élaborée à partir d’enquêtes internationales demandant aux gens d’attribuer des notes de prestige à diverses professions. Pour résumer les résultats, une valeur numérique a été attribuée à chaque profession en fonction du prestige perçu. L’échelle va de 1 à 100, les valeurs les plus élevées indiquant un prestige perçu plus important, et l’échantillon actuel comprend des scores allant de 13 à 78. Cette échelle s’est révélée relativement stable dans tous les contextes et à toutes les époques et a été largement utilisée dans les recherches sur la mobilité sociale6,67,68. En outre, cette échelle de prestige professionnel présente une forte corrélation avec d’autres mesures professionnelles, tant sur le plan phénotypique que génétique, et se rapporte de manière très similaire à d’autres dimensions du SSE en tant qu’autres indicateurs du statut professionnel.6,17,23.
Revenu et richesse
Les données sur le revenu et le patrimoine que nous avons reçues de Statistics Norway sont basées sur des données annuelles provenant des déclarations d’impôts, du registre des impôts et de l’A-Ordning (créé en 2015 ; un système de déclaration numérique permettant aux employeurs de communiquer à diverses agences gouvernementales des informations sur le revenu et l’emploi de leurs employés). De plus amples informations sont disponibles à l’adresse suivante : http://www.ssb.no/en/inntekt-og-forbruk. L’avantage des données des registres de Statistics Norway est qu’elles font l’objet d’une vérification croisée entre différents registres. Une limitation est que les revenus et la richesse qui ne sont pas déclarés aux différents registres (c’est-à-dire l’évasion fiscale) ne sont pas inclus.
En raison de la grande distance entre les valeurs extrêmes, les données sur le revenu et le patrimoine ont été transformées en logarithme, après avoir fixé à un les valeurs négatives et les valeurs nulles. Étant donné le faible nombre de valeurs négatives (n= 40 pour le revenu, n = 0 pour la richesse), cette pratique n’a pas affecté les résultats de manière significative. La transformation logarithmique réduit la distance relative entre les observations, et ce de manière exponentielle à mesure que les valeurs augmentent.
Revenu
Nous avons utilisé la mesure du revenu total après impôts de Statistics Norway, basée sur les registres, qui comprend les salaires, les revenus du capital, les transferts imposables et non imposables après impôts au cours d’une année civile. Pour réduire les erreurs de mesure, nous avons calculé la moyenne des indicateurs de revenu sur une période de 11 ans, de 35 à 45 ans. Nous ne prétendons pas saisir l’héritabilité des revenus de la vie entière.
Richesse
Nous avons utilisé la mesure de la richesse brute de Statistics Norway, basée sur les registres, comme la somme du capital réel et du capital financier estimé, c’est-à-dire toutes les ressources financières qu’une personne possède légalement et qui sont liées à son nom. Là encore, nous avons calculé la moyenne de la richesse brute sur une période de 11 ans, de 35 à 45 ans.
Estimation de l’héritabilité
Modèle de pedigree familial ACE
Le modèle FP ACE combine la parenté génétique supposée et les corrélations phénotypiques mesurées pour estimer trois composantes de variance : une composante génétique additive (A), une composante environnementale partagée (C) et une composante environnementale résiduelle non partagée (E).39. La structure généalogique est déduite des relations parents-enfants enregistrées dans les données de la population et des corrélations génétiques (rg) ont été fixés à partir de la valeur attendue du pedigree, à savoir rg = 0,125 pour les cousins germains (n= 49,423), rg = 0,5 pour les frères et sœurs complets (n = 27 399) et les jumeaux dizygotes (n = 147), et rg= 1 pour les jumeaux monozygotes (n = 136). L’environnement partagé est supposé être une corrélation de 1 entre toutes les paires de frères et sœurs, et de 0 entre les cousins germains dans le premier modèle. Dans le second modèle, les corrélations entre frères et sœurs sont fixées à un, tandis que le coefficient de corrélation de l’environnement partagé entre cousins germains est un paramètre libre à estimer dans le modèle. Les deux modèles incluent le sexe comme covariable.
Les effets standardisés de A, C et E sur le phénotype P sont respectivement désignés par a, c et e. La variance de l’effet génétique additif (a2) est égale à l’héritabilité au sens strict (h2). Les équations des composantes de variance et de covariance appliquées à chaque paire d’individus apparentés P1et P2sont :
$${Var}(P)={a}^{2}+{c}^{2}+{e}^{2}$$
(1)
$${Cov}({P}_{1},{P}_{2})=\,{a}^{2}\times {r}_{g}+{c}^{2}\times {r}_{c}$$
(2)
Le logiciel Open Mx et l’estimation du maximum de vraisemblance ont été utilisés pour estimer le taux de croissance de la population. a2, c2 et e2 composantes de la variance.
Modèle AE identique par descendance
Le modèle IBD applique des corrélations génétiques empiriques dans un modèle à composantes de variance.40. Nous avons estimé le partage d’allèles identiques par descendance à l’échelle du génome (c’est-à-dire la corrélation génétique dérivée de manière empirique) dans 11 491 paires de frères et sœurs complets. La taille de l’échantillon n’était pas suffisante pour alimenter un modèle ACE ou un modèle de régression de la fratrie. Nous avons donc opté pour un modèle AE avec une composante génétique additive (A) et une composante résiduelle (E). Le logiciel KING a été utilisé pour estimer la proportion d’allèles partagés dans chaque paire de frères et sœurs (nombre moyen de SNP = 232 818, SD = 905). Les modèles incluaient le sexe comme covariable. De la même manière que pour le plan généalogique familial, nous avons appliqué Open Mx et le maximum de vraisemblance pour estimer la variance A et E dans les équations suivantes où la corrélation génétique (rg) est égale à la proportion estimée de maladies inflammatoires de l’intestin génomiques.
$${Var}(P)={a}^{2}+{e}^{2}$$
(3)
$${Cov}({P}_{1},{P}_{2})=\,{a}^{2}\times {r}_{g}$$
(4)
Nous pouvons ainsi calculer l’héritabilité, en tant que variance de l’effet génétique additif (a2) est égale à l’héritabilité au sens strict (h2).
GCTA-GREML
Une autre façon d’appliquer la parenté empirique consiste à comparer la corrélation génétique entre des paires d’individus non apparentés et leur corrélation phénotypique. Nous avons appliqué l’analyse des traits complexes à l’échelle du génome (GCTA) GREML pour estimer l’héritabilité au sens étroit41. Le modèle de régression standard GCTA-GREML a été appliqué,
$$y=X\bêta+{Wu}+\varepsilon$$$
(5)
Où βest l’effet des covariables (X), uest l’effet de la matrice génotypique standardisée Wet εest le résidu. La variance de ys’exprime comme suit
$${Var}(\,y)={{WW}^{\prime} u}^{2}+{I\sigma }_{{\varepsilon }^{2}}$$$.
(6)
La matrice des relations génétiques (GRM), qui est une matrice de parenté génomique entre toutes les paires de participants, a été exprimée comme suit
$$A={WW}^{\prime} /N$$
(7)
Et ga été défini comme un vecteur normalement distribué des effets des individus ayant une g ∼ N(0, Aσg2). Cela nous permet d’exprimer la variance de y comme suit
$${Var}(y)={A\sigma }_{{g}^{2}}+{I\sigma }_{\varepsilon }^{2}}$$$
(8)
Ce qui permet de calculer l’héritabilité,
$${h}^{2}={\sigma }_{g}^{2}}/({\sigma }_{g}^{2}}+{\sigma }_{{\varepsilon }^{2}})$$
(9)
Le logiciel GCTA a été exécuté avec une estimation du maximum de vraisemblance restreinte (REML), un seuil de parenté de 0,025, un seuil de fréquence d’allèle mineur (MAF) de 0,01 et des covariables composées de 20 PC, du lot, de l’âge et du sexe. Le nombre d’individus après la coupure de parenté était de 36 051, et le nombre de SNP après la coupure de MAF était de 1 235 694.
Régression du score LD
Outre le GREML, nous avons appliqué une méthode d’héritabilité des SNP basée sur la non-appartenance pour estimer l’effet total des SNP communs. L’approche de la régression du score LD est basée sur l’hypothèse que tous les signaux causaux ne sont pas portés de la même manière par les SNP à travers le génome : les variantes avec des scores LD élevés sont plus susceptibles de porter un signal d’une variante causale. Dans la régression du score de DL, un panel de référence est utilisé pour mesurer le DL des SNP, et la mesure dans laquelle le DL est corrélé avec les statistiques du chi carré d’une analyse d’association génétique donne une approximation de l’héritabilité du caractère en question.
Pour estimer l’héritabilité basée sur le score de DL, nous avons d’abord réalisé une étude d’association pangénomique sur les indicateurs du statut socio-économique. Afin d’inclure les parents dans l’analyse, nous avons utilisé l’outil fastGWA du logiciel GCTA, qui est un outil ultra-efficace pour l’analyse GWAS basée sur un modèle linéaire mixte69. Nous avons appliqué le même GRM que dans l’analyse GREML avec un nombre similaire d’individus et de covariables correspondantes. Nous avons inclus une matrice GRM clairsemée avec des parents ayant une rg> ; 0,05 comme covariable. Le nombre de SNP utilisés était de 1 092 270.
Nous avons utilisé le logiciel LD score regression pour effectuer la régression LD score en utilisant les statistiques sommaires de la base de données fastGWA27. L’ordonnée à l’origine représente le biais, tandis que la pente estime la proportion de la variance phénotypique expliquée à la fois par les SNP d’intérêt et par les SNP utilisés pour estimer les scores de DL.
Hypothèses des quatre méthodes d’héritabilité
Nous présentons ici une vue d’ensemble des hypothèses formulées dans les différents modèles, en renvoyant à un article plus approfondi.70.
Pour le modèle FP, on suppose que l’environnement partagé contribue de manière égale au phénotype étudié entre les paires de frères et sœurs et de cousins. Si cette hypothèse d’environnement égal n’est pas respectée, les estimations de l’héritabilité sont susceptibles d’être gonflées. Nous testons partiellement cette hypothèse en laissant la corrélation de l’environnement partagé entre cousins être estimée plutôt que supposée. FP, comme les quatre méthodes, suppose un accouplement aléatoire. L’accouplement assortatif peut gonfler les estimations de l’héritabilité et les effets environnementaux partagés par la réduction de la variance phénotypique dans la progéniture par l’accouplement sur des caractères similaires71.
La conception de l’IBD repose sur l’hypothèse que la proportion de segments identiques par descendance entre frères et sœurs n’est pas affectée par des mutations de novo. La méthode repose également sur l’hypothèse que la corrélation génétique proportionnelle correspond aux influences génétiques affectant le caractère en question et que la covariance génétique additive correspond à la proportion de segments identiques par descendance. La violation de ces hypothèses peut gonfler ou dégonfler l’estimation, en fonction de la violation. Les estimations de l’héritabilité sont susceptibles d’être gonflées si les environnements partagés ne sont pas modélisés. L’IBD suppose également qu’il n’y a pas d’accouplement assortatif, ce qui pourrait gonfler les estimations.
Ni la régression GREML ni la régression du score LD n’isolent les effets génétiques directs, ce qui signifie que les estimations peuvent inclure des effets génétiques parentaux qui prennent effet par le biais de l’environnement. Les effets génétiques indirects sont considérables pour l’éducation, le revenu et le prestige professionnel22,23,48. Les régressions GREML et LD score sont également soumises à une hypothèse d’accouplement aléatoire qui peut fausser les estimations dans un sens ou dans l’autre, selon que les schémas d’accouplement introduisent plus de similarité génétique, diminuent la variation phénotypique ou introduisent des facteurs de confusion environnementaux. Le modèle GREML suppose qu’il n’y a pas de corrélations gène-environnement, puisqu’il n’inclut que des individus non apparentés. Cependant, des effets environnementaux partagés confondants, tels que la stratification de la population, gonfleraient les estimations de l’héritabilité. Le GREML suppose également que seuls les effets génétiques additifs des SNP communs sont pris en compte ; l’exclusion des variantes rares peut entraîner une sous-estimation de l’héritabilité. GREML suppose que la corrélation génétique dérivée de la GRM est vraie et qu’elle correspond à l’effet du SNP sur le phénotype, ce qui rend la méthode sensible aux cas où les effets du SNP ne sont pas normalisés et normalement distribués ou lorsqu’il existe une forte structure locale de DL.70.
La régression du score de DL aborde le problème du DL d’une manière différente, en supposant que les SNP rares ont des tailles d’effet plus importantes que les SNP courants. Cette hypothèse ne tient pas dans les cas où les scores de DL sont corrélés avec la fréquence des allèles mineurs. Une autre hypothèse concerne le panel de référence du DL. Si la population du panel est très différente de la population actuelle, les scores de DL peuvent ne pas être exacts. Toutefois, la dérive génétique n’est pas corrélée au DL.
Analyse en composantes principales
L’ACP est une technique statistique utilisée pour simplifier des ensembles de données complexes en identifiant des modèles et des relations entre les variables.42. Elle vise à réduire la dimensionnalité des données tout en conservant la plupart des variations présentes dans l’ensemble de données original. L’ACP y parvient en transformant les variables d’origine en un nouvel ensemble de variables, appelées PC, qui sont des combinaisons linéaires des variables d’origine.
L’analyse parallèle est une technique statistique utilisée pour déterminer le nombre de facteurs ou de composantes à retenir dans une ACP43. Elle consiste à comparer les valeurs propres dérivées des données réelles avec les valeurs propres dérivées de données simulées générées avec le même nombre de variables et d’observations que l’ensemble de données original. L’analyse parallèle part du principe qu’il faut conserver les facteurs ou les composantes pour lesquels les valeurs propres observées dépassent les valeurs propres obtenues à partir des données aléatoires. Cette méthode permet d’éviter de surestimer le nombre de facteurs ou de composantes à retenir, car elle fournit un critère plus strict et plus objectif pour la prise de décision.
Nous avons également appliqué le logiciel PCAtest (https://github.com/ethanbass/PCAtest/). PCAtest est un paquetage R conçu pour effectuer des tests statistiques basés sur la permutation44. Ces tests évaluent la signification globale d’une ACP, déterminent la signification des axes individuels de l’ACP et évaluent les contributions de chaque variable observée aux axes significatifs. 10 000 permutations et 10 000 répétitions bootstrap ont été utilisées pour construire des intervalles de confiance à 95 % des PC. Pour les ACP génétiques et environnementales, nous avons bootstrapé des échantillons sur la base de la matrice de covariance et créé des intervalles de confiance à 95 % à partir de 10 000 échantillons bootstrapés.
Résumé du rapport
De plus amples informations sur la conception de la recherche sont disponibles dans le résumé du rapport du Portefeuille de la Nature lié à cet article.
Passionnée par la culture nordique, par la nature, par l’écriture, voici que j’ai réunie mes passions dans ce site où je vous partage mes expériences et mes connaissances sur la Norvège spécialement. J’y ai vécu 2 ans entre 2015 et 2017, depuis les décors me manque, la culture me manque. Bonne lecture.
