Informations

Pourquoi devrions-nous utiliser l'ensemble de données NA12878 pour l'analyse comparative ?

Pourquoi devrions-nous utiliser l'ensemble de données NA12878 pour l'analyse comparative ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pour autant que je sache, l'échantillon du génome humain appelé NA12878 fournit des variantes de confiance élevée pour un échantillon humain. Il sert de référence pour de nombreux projets de recherche en génomique.

Question : Pourquoi exactement le NA12878 est-il un jeu de données de référence si populaire ? Juste parce que nous avons un ensemble de variantes de confiance élevée ? Mais nous pouvons également obtenir des variantes de confiance élevée du projet 1000 Genome. Cela a-t-il quelque chose à voir avec la technologie de séquençage ? Rien à voir avec l'échantillon lui-même ? Pourquoi voulons-nous comparer nos expériences avec NA12878 ?


Donc, pour clarifier pour les personnes qui ne connaissent pas NA12878, il s'agit de l'échantillon d'identification pour une femme de l'Utah en particulier. Ses parents sont NA12891 et NA12892. Dans les ensembles de données de variation humaine, c'est ce qui nous est donné pour identifier les individus, une pièce d'identité, le sexe et la population. Toutes les autres données sont supprimées pour protéger la vie privée du patient. La question est donc de savoir pourquoi NA12878 (cette femme de l'Utah) a été choisie comme patient de référence en analyse génomique…

Je ne connais pas la vraie réponse pratique, mais d'après ce que je comprends, c'est l'inertie.

Je n'ai pas d'historique complet pour elle, mais je sais des choses qui font de son génome un bon choix pour une référence. NA12878 est assez ancienne pour les généticiens et son ADN est inclus dans plusieurs projets hérités, en particulier HapMap.

Elle a une maladie génétique (CYP2D6 mutation) qui est probablement ce qui incluait initialement elle et son analyse génétique familiale. C'est une meilleure raison d'étudier ce génome en détail au lieu d'être simplement quelqu'un de célèbre (c'est-à-dire Venter).

Elle est mormone de l'Utah (petite population fondatrice avec de nombreuses informations sur le pedigree), a 11 enfants (peut faire une analyse de recombinaison/héritage). Cela signifie qu'une compréhension approfondie de son génome aura des applications pour cette population.

Sa lignée cellulaire lymphoblastoïde GM12878 a été incluse en tant que cellule d'étude ENCODE de niveau 1. Cela signifie qu'il y a aussi des téraoctets de données épignomiques pour elle.

Lorsque je choisis de faire une analyse du génome humain, NA12878 est le choix évident en raison de la quantité de données déjà disponibles, ce qui signifie également que davantage de données seront disponibles. Ainsi, je pense que la réponse est en grande partie l'inertie.

Considérez-le également de cette façon, si vous essayez de dire que votre technologie de pipeline ou de séquençage est meilleure que les autres, et que tout le monde utilise NA12878 pour comparer sa technologie, il est alors sage d'utiliser également NA12878 afin que les résultats puissent être comparables.


Analyse comparative complète des applications pour détecter la variation du nombre de copies

Affiliations College of Computer Science, Université du Sichuan, Chengdu, Chine, Medical Big Data Center, Université du Sichuan, Chengdu, Chine, Zdmedical, Information polytron Technologies Inc. Chongqing, Chongqing, Chine

A contribué également à ce travail avec : Le Zhang, Wanyu Bai, Na Yuan

Rôles Conservation des données, Rédaction – brouillon original, Rédaction – révision et édition

Affiliation College of Computer Science, Université du Sichuan, Chengdu, Chine

A contribué également à ce travail avec : Le Zhang, Wanyu Bai, Na Yuan

Rôles Conservation des données, Logiciel

Affiliation BIG Data Center, Institut de génomique de Pékin, Académie chinoise des sciences, Pékin, République populaire de Chine

Rôles Conservation des données, Rédaction – brouillon original, Rédaction – révision et édition

Affiliation BIG Data Center, Institut de génomique de Pékin, Académie chinoise des sciences, Pékin, République populaire de Chine


Fond

Les variations structurelles génomiques (SV) sont généralement définies comme des délétions (DEL), des insertions (INS), des duplications (DUP), des inversions (INV) et des translocations (TRA) d'au moins 50 pb. Les SV sont souvent considérés séparément des petites variantes, y compris les variantes nucléotidiques simples (SNV) et les insertions courtes, et les délétions (indels), car elles sont souvent formées par des mécanismes distincts [1]. Les INV et les TRA sont des formes équilibrées, sans changement net dans un génome, et les SV restants sont des formes déséquilibrées. Les suppressions déséquilibrées (DEL) et les duplications (DUP) sont également appelées variations du nombre de copies (CNV), les DUP comprenant des types tandem et intercalés en fonction de la distance entre les copies dupliquées [2, 3]. Les INS sont classés en plusieurs classes en fonction des séquences d'insertion : insertions d'éléments mobiles (MEI), insertions nucléaires du génome mitochondrial (NUMT), insertions d'éléments viraux (VEI mentionnés dans cette étude) et insertions de séquence non spécifiée.

Les SV sont largement responsables de la diversité et de l'évolution des génomes humains tant au niveau individuel qu'au niveau de la population [3,4,5,6]. La différence génomique entre les individus causée par les SV a été estimée 3 à 10 fois plus élevée que celle des SNV [2, 6, 7]. Par conséquent, les SV pourraient avoir des impacts plus importants sur les fonctions des gènes et les changements phénotypiques que les SNV et les indels courts. En conséquence, les VS sont associées à un certain nombre de maladies humaines, y compris les troubles neurodéveloppementaux et les cancers [3, 8,9,10,11].

Deux types de méthodes ont été utilisés pour détecter les SV : (1) détection basée sur une puce, y compris l'hybridation comparative du génome sur puce (array CGH) et (2) méthodes de calcul basées sur le séquençage [2, 12]. Les méthodes basées sur les matrices sont avantageuses pour l'analyse à haut débit, mais elles ne détectent que certains types de SV, ont une sensibilité inférieure pour les petites SV et ont une résolution inférieure pour déterminer les points d'arrêt (BP) que les méthodes basées sur le séquençage. Bien que le séquençage nécessite plus de temps et d'argent que la méthode basée sur le tableau, il serait nécessaire pour détecter un large éventail de SV d'adopter les méthodes basées sur le séquençage, comme dans les projets récents visant à identifier les SV à l'échelle de la population [6, 13, 14,15].

Les méthodes basées sur le séquençage adoptent plusieurs approches conceptuelles pour dériver des informations sur les SV à partir de données de séquençage à lecture courte [2, 9, 16, 17, 18]. Les approches de lecture de paires (RP) et de profondeur de lecture (RD) utilisent les caractéristiques d'alignement discordantes et les caractéristiques de profondeur des lectures appariées qui englobent ou chevauchent une SV, respectivement. L'approche de lecture fractionnée (SR) utilise des fonctionnalités d'alignement fractionné (à découpage progressif) de lectures à extrémité unique ou à extrémité appariée qui couvrent un BP d'un SV. L'approche d'assemblage (AS) détecte les SV en alignant les contigs, assemblés avec les lectures de séquençage entières ou non mappées, sur la séquence de référence. Un certain nombre d'algorithmes de détection de SV récemment développés utilisent une combinaison (CB) des quatre méthodes ci-dessus (ici, nous appelons ces cinq méthodes de détection de SV de base des « méthodes » et chaque outil de détection de SV spécifique un « algorithme »). Quelle que soit la stratégie, les méthodes basées sur le séquençage souffrent d'un taux élevé d'erreurs d'appel des SV, car elles impliquent des erreurs d'appel de base, d'alignement ou d'assemblage de novo, en particulier dans les régions répétitives ne pouvant pas être couvertes par de courtes lectures. Pour surmonter les inconvénients du séquençage de lecture courte, des lectures longues générées à l'aide de la technologie de séquençage à molécule unique ont récemment été utilisées pour détecter les SV dans un échantillon humain en utilisant l'approche AS et/ou SR [19,20,21,22]. Cependant, le coût élevé et le faible débit de cette stratégie limitent actuellement son utilisation générale.

Bien que les méthodes basées sur le séquençage puissent en théorie détecter tout type de SV, aucun algorithme de calcul unique ne peut détecter avec précision et sensibilité tous les types et toutes les tailles de SV [23]. Par conséquent, la plupart des projets utilisent plusieurs algorithmes pour appeler les SV, puis fusionnent les sorties pour augmenter la précision et/ou le rappel [6, 13,14,15, 17, 24,25,26,27,28,29]. De nombreux projets utilisent des algorithmes de détection SV populaires, notamment BreakDancer [30], CNVnator [31], DELLY [32], GenomeSTRiP [33], Pindel [34] et Lumpy [35], qui donnent des appels avec une précision relativement élevée. Bien qu'une étude ait examiné les performances de 13 algorithmes de détection de SV [36], il n'y a pas eu d'enquête systématique sur les algorithmes capables de détecter avec précision quels types de SV. Il est important de noter que, bien qu'il soit courant de le faire, il n'y a pas eu d'enquête systématique sur les stratégies optimales pour combiner les résultats de plusieurs algorithmes pour arriver à la caractérisation la plus complète des SV dans un génome. Dans cette étude, nous avons évalué 69 algorithmes pour leur précision et leur rappel pour les appels SV simples et chevauchants, en utilisant plusieurs ensembles de données simulées et réelles d'ensembles de données WGS.


Disponibilité des données

Les données de séquences brutes ont été précédemment publiées dans Données scientifiques (https://doi.org/10.1038/sdata.2016.25) et ont été déposés dans le NCBI SRA avec les codes d'accès SRX1049768–SRX1049855, SRX847862–SRX848317, SRX1388368–SRX1388459, SRX1388732–SRX1388743, SRX852932–SRX852936, SRX847094 SRX848744, SRX326642, SRX1497273 et SRX1497276. 10x fichiers Genomics Chromium bam utilisés sont disponibles sur ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/analysis/10XGenomics_ChromiumGenome_LongRanger2.0_06202016/. Les fichiers de référence vcf et bed résultant des travaux de ce manuscrit sont disponibles dans le répertoire NISTv.3.3.2 sous chaque génome dans le dossier de publication FTP de GIAB ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp /release/ et, à l'avenir, les appels mis à jour seront dans le répertoire « récents » sous chaque génome. Les données utilisées dans ce manuscrit et d'autres ensembles de données pour ces génomes sont disponibles sur ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/, ainsi que dans NCBI BioProject No. PRJNA200694.


Intégration reproductible de plusieurs ensembles de données de séquençage pour former des appels de référence SNP, indel et de référence pour cinq matériaux de référence du génome humain

Les appels de petites variantes de référence du Genome in a Bottle Consortium (GIAB) pour le génome CEPH/HapMap NA12878 (HG001) ont été largement utilisés pour développer, optimiser et démontrer les performances des méthodes de séquençage et de bioinformatique. Ici, nous améliorons et simplifions les méthodes que nous utilisons pour intégrer plusieurs ensembles de données de séquençage, dans le but de déployer un pipeline reproductible basé sur le cloud pour une application à des génomes humains arbitraires. Nous utilisons ces méthodes reproductibles pour former des appels à haute confiance en ce qui concerne GRCh37 et GRCh38 pour HG001 et 4 génomes supplémentaires largement acceptés du Personal Genome Project qui sont disponibles en tant que matériaux de référence NIST. Nos nouvelles méthodes produisent 17 % de SNP en plus et 176 % d'indels en plus que nos appels précédemment publiés pour HG001. Nous avons également mis en phase 99,5% des variants dans HG001 et appelons environ 90% du génome de référence avec une confiance élevée, contre 78% auparavant. Nos appels ne contiennent que 108 différences par rapport aux appels Illumina Platinum Genomes dans GRCh37, dont seulement 14 sont ambigus ou susceptibles d'être des erreurs dans nos appels. En comparant plusieurs ensembles d'appels à nos nouveaux appels, nos appels publiés précédemment et les appels Illumina Platinum Genomes, nous mettons en évidence les défis dans l'interprétation des mesures de performance lors de l'analyse comparative par rapport aux appels imparfaits à haute confiance. Nos nouveaux appels abordent certains de ces défis, mais les mesures de performance doivent toujours être interprétées avec prudence. Les outils d'analyse comparative de l'Alliance mondiale pour la génomique et la santé sont utiles pour stratifier les mesures de performance par type de variante et contexte génomique afin d'élucider les forces et les faiblesses d'une méthode. Nous explorons également les différences entre la comparaison avec les appels à haute confiance pour les 5 génomes GIAB, et montrons que les mesures de performance pour un pipeline sont largement similaires mais pas identiques par rapport aux 5 génomes. Enfin, pour explorer l'applicabilité de nos méthodes pour les génomes qui ont moins d'ensembles de données, nous formons des appels à haute confiance en utilisant uniquement Illumina et 10x Genomics, et constatons qu'ils ont plus d'appels à haute confiance mais ont un taux d'erreur plus élevé. Ces génomes nouvellement caractérisés ont un consentement large et ouvert avec peu de restrictions sur la disponibilité des échantillons et des données, permettant un éventail d'applications unique et diversifié.


MoleculeNet Partie 1 : Ensembles de données pour l'apprentissage en profondeur dans les sciences chimiques et de la vie

Cet article a été co-écrit par Bharath Ramsundar de DeepChem.

Les ensembles de données de référence sont un important moteur de progrès en apprentissage automatique. Contrairement à la vision par ordinateur et au traitement du langage naturel, la diversité et la complexité des ensembles de données en chimie et en sciences de la vie rendent ces domaines largement résistants aux tentatives de conservation de références largement acceptées dans la communauté. Dans cet article, nous montrons comment ajouter des ensembles de données au MoleculeNet référence pour l'apprentissage machine moléculaire et les rendre accessibles par programmation avec le DeepChem API.

Curation de l'ensemble de données ML moléculaire

MoleculeNet [1] collecte des ensembles de données dans six catégories principales : mécanique quantique, chimie physique, protéines, biophysique, physiologie et science des matériaux. La « première génération » de MoleculeNet a montré à quoi pourrait ressembler une référence de ML moléculaire et a révélé des tendances intéressantes en ce qui concerne la rareté des données, les déséquilibres de classe et la puissance des fonctionnalités tenant compte de la physique sur les architectures de modèles pour certains ensembles de données.

Il n'est pas facile de couvrir toute l'étendue et la profondeur du ML moléculaire, c'est pourquoi MoleculeNet évolue vers un cadre flexible pour la contribution d'ensembles de données et l'analyse comparative des performances des modèles de manière standardisée, optimisée par DeepChem.

Pourquoi devrions-nous nous soucier des repères ?

Reconnaissance des images et de la parole sembler comme des tâches gigantesques, mais elles sont vraiment assez simples par rapport aux types de problèmes que nous voyons en physique, en chimie et en biologie. C'est pourquoi il est relativement rare de voir quelqu'un affirmer qu'un problème en sciences physiques ou en sciences de la vie a été «résolu» par l'apprentissage automatique. De meilleurs ensembles de données, des méthodes de génération d'ensembles de données et des références robustes sont des ingrédients essentiels pour progresser dans l'apprentissage automatique moléculaire, peut-être encore plus que d'inventer de nouvelles astuces ou architectures d'apprentissage en profondeur.

Dans de nombreux sous-domaines de l'apprentissage en profondeur, la voie de progrès standard va quelque chose comme

1. Choisissez un ensemble de données de référence largement utilisé (ex., ImageNet, CIFAR-10 ou MNIST).

2. Développer et tester une architecture de modèle qui atteint des performances « à la pointe de la technologie » sur certains aspects de la référence.

3. Proposez une explication « théorique » ad hoc pour expliquer pourquoi votre architecture particulière surpasse les autres.

4. Publiez vos résultats dans une conférence de haut niveau.

Si vous avez de la chance, d'autres chercheurs pourraient même utiliser votre modèle ou s'en inspirer pour leurs propres recherches avant la sortie de la prochaine architecture SOTA. Il y a des problèmes évidents avec ce paradigme, y compris le biais dans les ensembles de données, les changements de distribution et la loi Goodhart-Strathern - lorsqu'une métrique devient une cible, ce n'est plus une bonne métrique. Pourtant, il ne fait aucun doute que les références fournissent une sorte de clarté d'objectif et alimentent l'intérêt pour la recherche en apprentissage automatique qui fait défaut dans d'autres domaines.

Peut-être plus important encore, les références encouragent et récompensent les chercheurs pour la création d'ensembles de données de haute qualité, qui ont toujours été sous-estimés dans de nombreux domaines. Et les ensembles de données de référence permettent des percées remarquables, comme AlphaFold de DeepMind, qui a été rendue possible par des décennies d'efforts pour assembler des structures de protéines à haute résolution. AlphaFold représente une sorte de « moment ImageNet » dans le repliement des protéines, ce qui signifie qu'un problème est « résolu » dans un certain sens.

MoleculeNet contient des centaines de milliers de composés et de propriétés mesurées/calculées, tous accessibles via l'API DeepChem. Il apporte un aperçu des cadres d'évaluation traditionnels popularisés dans les conférences ML, mais fournit également un moyen standardisé de contribuer et d'accéder à de nouveaux ensembles de données.

Contribution d'un ensemble de données à MoleculeNet

La contribution aux ensembles de données a été considérablement rationalisée et documentée. La première étape consiste à ouvrir un problème sur GitHub dans le référentiel DeepChem pour discuter de l'ensemble de données que vous souhaitez ajouter, en soulignant les tâches uniques de ML moléculaire couvertes par l'ensemble de données qui ne font pas déjà partie de MolNet. Si vous avez créé ou organisé vous-même un ensemble de données, c'est un excellent moyen de le partager avec la communauté de ML moléculaire ! Ensuite, vous devez

  • Ecrivez une classe DatasetLoader qui hérite de deepchem.molnet.load_function.molnet_loader._MolnetLoader . Cela implique de documenter toutes les options spéciales pour l'ensemble de données et les cibles ou « tâches » pour le ML.
  • Implémentez une fonction create_dataset qui crée un ensemble de données DeepChem en appliquant des fonctionnalités, des séparateurs et des transformations acceptables.
  • Écrivez une fonction load_dataset qui documente l'ensemble de données et fournit aux utilisateurs un moyen simple de charger votre ensemble de données.

Le code source du chargeur MolNet QM9 est un bon point de départ simple pour écrire votre propre chargeur MolNet.

Ce cadre permet à un ensemble de données d'être utilisé directement dans un pipeline ML avec n'importe quelle combinaison raisonnable de fonctionnalités (convertit les entrées brutes telles que les chaînes SMILES en un format lisible par machine), de séparateur (contrôle la construction des ensembles de formation/validation/test) et de transformations (par exemple., si les objectifs doivent être normalisés avant l'entraînement).

Les séparateurs sont particulièrement importants ici. Lorsque l'on compare les performances de différents modèles sur la même tâche, il est crucial que chaque modèle « voie » les mêmes données d'entraînement et soit évalué sur les mêmes données. Nous voulons également savoir comment un modèle se comporte sur des échantillons similaires à ce qu'il a vu auparavant (en utilisant une répartition aléatoire train/val/test) par rapport à ce qu'il fait sur des échantillons dissemblables (par exemple., en utilisant une division basée sur des sous-structures chimiques).

Accéder aux ensembles de données avec l'API DeepChem

Les chargeurs MolNet permettent d'accéder aux ensembles de données et les pré-traiter pour le ML possible avec une seule ligne de code Python :

Pour rendre réellement l'ensemble de données disponible via l'API DeepChem, il vous suffit de fournir un dossier tarball ou zippé à un développeur DeepChem, qui l'ajoutera au compartiment DeepChem AWS S3. Enfin, ajoutez de la documentation pour votre chargeur et votre ensemble de données.

Nous voulons VOS ensembles de données !

Après avoir jeté un coup d'œil à la longue liste d'ensembles de données dans MoleculeNet, vous constaterez peut-être qu'il manque quelque chose de crucial. La bonne nouvelle est que vous (oui, VOUS !) pouvez contribuer à de nouveaux ensembles de données ! Si vous n'êtes pas à l'aise avec la programmation Python, vous pouvez simplement ouvrir un ticket sur GitHub, inclure des informations sur les raisons pour lesquelles l'ensemble de données doit être ajouté à MolNet et demander l'aide d'un développeur DeepChem. Si vous êtes à l'aise avec la programmation, c'est encore mieux — vous pouvez suivre les étapes décrites ci-dessus et apporter votre contribution.

La véritable puissance d'un benchmark open source est que tout le monde peut y contribuer, ce qui permet à MolNet d'évoluer et de s'étendre au-delà de ce qu'un seul groupe de recherche peut prendre en charge.

Prochaines étapes : performances du modèle de ML moléculaire

Dans le prochain article, nous verrons comment utiliser les scripts DeepChem et MolNet pour ajouter des métriques de performances pour les modèles ML.

Entrer en contact

Si vous avez aimé ce tutoriel ou si vous avez des questions, n'hésitez pas à contacter Nathan via e-mail ou connectez-vous sur LinkedIn et Twitter.

Vous pouvez en savoir plus sur les projets et publications de Nathan sur son site Internet.


MATÉRIAUX ET MÉTHODES

La canalisation TEMP2

Le pipeline global de TEMP2 est illustré à la figure ​ Figure1, 1 , contenant trois étapes décrites comme suit.

Diagrammes illustrant comment TEMP2 détecte la nouvelle lignée germinale et de novo insertions de transposons. (UNE) Détection de nouvelles insertions de transposons. La méthode comprend trois étapes : alignement, regroupement/classification et filtrage. Les lectures appariées sont représentées par des paires de cases reliées chacune par une courte ligne horizontale : cases ouvertes pour les lectures non mappées et cases colorées pour les lectures mappées. Le génome de référence est représenté par une ligne bleue tandis qu'un élément transposon (TE) par une ligne rouge. La partie d'une lecture mappée sur le génome de référence est marquée en bleu et la partie de la lecture mappée sur un transposon est marquée en rouge. Les paires de lecture correctement mappées sont connectées par des lignes pleines tandis que les paires de lecture discordantes sont connectées par des lignes pointillées. Les paires de lectures supportant le transposon qui sont ancrées au même locus génomique (défini comme dans les 95 % de la longueur de fragment de la bibliothèque de séquençage) sont regroupées. Un cluster 1p1 est pris en charge par plusieurs paires de lecture avec au moins une paire de lecture de chaque côté de l'insertion du transposon, un cluster 2p est pris en charge par deux ou plusieurs paires de lecture, mais uniquement d'un côté de l'insertion, et une lecture non clusterisée -les paires sont des singletons. (B) Estimation du nombre total de de novo insertions d'une famille de transposons. Toutes les lectures brutes (boîtes vides) et les lectures de singleton telles que définies dans A. (boîtes colorées) sont alignées sur la séquence consensus de chaque famille de transposons. Selon l'endroit où dans le consensus la carte des lectures, elles sont classées en lectures de mappage final et en lectures de mappage central (voir Matériels et méthodes). Le nombre total de de novo Les insertions d'une famille de transposons sont définies comme la différence entre le nombre réel de lectures de singleton de mappage final et le nombre attendu de lectures de chimères de mappage final, ce dernier étant estimé à l'aide des lectures de singleton de mappage central et de toutes les lectures.

La première étape de TEMP2 consiste à mapper les lectures sur le génome de référence à l'aide de l'algorithme bwa mem (16) avec la commande suivante : bwa mem -T 20 -Y. Deux types de lecture-paires sont ensuite extraits des résultats de mappage : (i) des paires de lecture mappées de manière discordante pour lesquelles une lecture est mappée de manière unique sur le génome de référence tandis que l'autre lecture est non mappée ou mappée à plusieurs emplacements dans le génome (Figure supplémentaire S1 read-pairs #1–#8, #13–#36, et #41–#56) (ii) diviser les read-paires qui sont correctement mappées à un seul emplacement du génome mais le 5′- la fin d'une lecture est écrêtée en douceur (paires de lecture de la figure supplémentaire S1 #9–#12 et #37–#40). Les lectures non mappables, mappées à plusieurs reprises et les lectures fractionnées sont ensuite alignées sur des séquences consensus de transposons à l'aide de bwa mem, et les paires de lectures pouvant être mappées sur des transposons sont considérées comme des lectures pouvant prendre en charge les insertions de transposons.

La deuxième étape de TEMP2 est le regroupement et la classification. Deux lectures prenant en charge le transposon sont placées dans le même cluster si elles satisfont à l'une des deux conditions suivantes : (i) elles correspondent au même côté d'une insertion de transposon et la distance entre leurs emplacements cartographiés dans le génome est inférieure à 95 % quantile de la longueur de fragment de la bibliothèque de séquençage, ou (ii) ils correspondent aux côtés opposés d'une insertion de transposon et leur distance est inférieure à deux fois le quantile à 95 % de la longueur de fragment de la bibliothèque de séquençage. Nous déterminons ensuite les points d'arrêt d'une insertion en utilisant le site de soft-clipping des lectures fractionnées. Si aucune lecture fractionnée n'est disponible, nous définissons la coordonnée moyenne des 3 & # x02032-extrémités des lectures de support (Figure & # x200B (Figure 1A) 1A ) comme point d'arrêt. Toutes les insertions prises en charge par les clusters de lecture sont classées en trois types en fonction de leur emplacement génomique et du nombre de lectures : les insertions 1p1 (un plus un) sont prises en charge par des paires de lecture des deux côtés de l'insertion Les insertions 2p (deux plus) sont prises en charge par deux paires de lecture ou plus, mais ces lectures proviennent toutes d'un côté de l'insertion et de novo les insertions sont prises en charge par une seule paire de lecture (c'est-à-dire singleton). TEMP2 considère les insertions 1p1 et 2p comme des insertions de lignée germinale qui sont transmises à la génération suivante et utilise des paires de lecture singleton pour estimer le niveau de de novo les insertions, qui incluent les insertions dans les génomes somatiques ou les insertions dans les génomes de la lignée germinale qui ne conduisent pas à la descendance. TEMP2 permet également aux utilisateurs de définir un seuil de fréquence d'insertion pour déterminer si une insertion est de novo, ce qui est nécessaire lorsque la bibliothèque de séquençage est construite à partir d'un petit nombre de cellules car dans de tels cas de novo les insertions peuvent être prises en charge par des lectures multiples en raison de l'amplification par PCR de la petite quantité d'ADN de départ.

La troisième étape de TEMP2 est le filtrage. Trois types de filtrage sont appliqués pour supprimer les insertions faussement positives. Premièrement, TEMP2 rejette les insertions par un transposon dans un emplacement du génome qui est annoté pour contenir une copie des mêmes transposons, car les lectures discordantes qui prennent en charge de telles insertions sont probablement dues à des erreurs d'alignement de séquences. De plus, nous plaçons ces positions d'insertion sur une liste noire pour filtrer les autres insertions détectées aux mêmes positions génomiques, qui proviennent souvent de transposons de la même famille, encore une fois, suggérant des erreurs d'alignement. Deuxièmement, TEMP2 estime la profondeur de séquençage dans la région génomique autour de chaque insertion candidate et la compare à la profondeur de séquençage moyenne sur l'ensemble du génome. Le nombre de lectures de séquençage du génome cartographié qui tombent dans une fenêtre génomique suit une distribution bimodale avec un mode autour de la couverture moyenne et l'autre mode beaucoup plus élevé que cinq fois la couverture moyenne (Figure supplémentaire S2A). Plus précisément, dans nos données de séquençage Illumina, 0,226 % des fenêtres génomiques avaient 5 lectures ou plus que la couverture globale du génome (27,1 ×). Ainsi, nous avons filtré les insertions situées dans les régions génomiques avec des profondeurs de séquençage de 5 x 000d7 ou plus. Troisièmement, TEMP2 fusionne les insertions exactement à la même position génomique, la grande majorité de ces insertions proviennent de sous-familles de transposons apparentées et attribue toutes les lectures de prise en charge à l'insertion avec les lectures les plus prises en charge. Nous avons effectué ces trois étapes de filtrage immédiatement après avoir appelé les insertions de transposons potentielles afin de minimiser le nombre d'insertions et de régions génomiques contenant des insertions que nous devons examiner, réduisant ainsi le temps d'exécution de TEMP2’s.

Après avoir identifié les insertions de transposons de la lignée germinale, TEMP2 estime également la fréquence de chaque insertion de transposon. Les paires de lecture non fractionnées correctement mappées croisant plus de 20 pb d'un point d'arrêt d'insertion sont définies comme des paires de lecture de référence. La fréquence de chaque insertion de transposon est estimée à l'aide de l'équation ci-dessous :

TEMP2 estime le niveau global de de novo insertions de transposons pour chaque famille de transposons dans l'ensemble du génome à l'aide de lectures de singletons supportant les transposons, cependant, TEMP2 ne fait pas de prédictions sur les insertions de transposons au niveau de loci individuels. Détecter de novo insertions, TEMP2 doit se prémunir contre les lectures chimériques introduites lors de la construction de la bibliothèque, qui sont souvent des singletons. Les lectures de chimère doivent correspondre uniformément à tous les emplacements d'une séquence consensus de transposon, tandis que les lectures singleton qui prennent en charge les insertions de transposons doivent être enrichies aux deux extrémités de la séquence consensus de transposon, aussi loin à l'intérieur de la séquence consensus que la longueur du fragment du séquençage bibliothèque permettrait. Ainsi, nous pouvons utiliser des lectures singleton qui correspondent à la région centrale (la séquence consensus moins les deux extrémités) pour estimer le nombre de lectures chimériques. TEMP2 détermine les longueurs de fragments pour toutes les paires de lecture qui correspondent entièrement à un emplacement unique dans le génome de référence, puis définit la fin d'un transposon comme la longueur de fragment du 95e centile moins 25 nts. Le nombre de de novo les insertions d'une famille de transposons peuvent être déduites de la différence entre le nombre de lectures de singleton de mappage final et le nombre de lectures de singleton de mappage central, ainsi, le niveau global de de novo insertions d'une famille de transposons est :

TEMP2 génère un score de confiance (allant de 0 à 100 %) pour chaque famille de transposons qui est égal à un moins notre taux global estimé de lectures de chimères pour cette famille de transposons. La figure supplémentaire S2B utilise deux exemples de transposons pour illustrer comment TEMP2 estime de novo fréquences d'insertion. En utilisant nos données de séquençage Illumina, TEMP2 estime que chambre n'a pas un niveau supérieur au niveau de fond de de novo insertions parce que son nombre total de fin de singleton–reads ne dépasse pas le nombre attendu de fin de singleton–reads, tandis que Tirant est estimé à 43 de novo insertions.

Dans une application typique lorsqu'un nombre suffisamment grand de cellules (des milliers ou plus) est utilisé dans le matériau de départ pour préparer la bibliothèque de séquençage, TEMP2 ne considère que les insertions de singletons comme potentielles. de novo insertions pour estimer le génome de novo taux d'insertion. Dans les rares cas où un nombre limité de génomes (des centaines ou moins) est utilisé dans le matériel de départ, TEMP2 ne considérera pas seulement les insertions de singletons, mais demandera à la place à l'utilisateur de fournir le nombre de génomes dans le matériel de départ, puis définira automatiquement le seuil de fréquence d'insertion doit être deux fois la fréquence théorique de de novo insertions pour distinguer le potentiel de novo insertions à partir des insertions germinales.

Pour tenir compte des cas de de novo des insertions telles que 5 éléments L1 tronqués (15,17,18), TEMP2 peut également classer les lectures singleton qui correspondent aux deux extrémités des transposons fragmentés en tant que lectures prenant en charge l'insertion (à l'aide de l'option ‘-T’), s'il y a suffisamment de lectures (par défaut trois lectures ou plus à chaque extrémité) pour prendre en charge ces transposons fragmentés ailleurs dans le génome. De tels transposons fragmentés sont utilisés avec des transposons pleine longueur de la même famille pour calculer les lectures de mappage final et les lectures de mappage central dans l'équation ci-dessus pour calculer le taux global de de novo insertions.

Données simulées

Pour comparer les performances de TEMP2 et d'autres méthodes de détection de transposons, un ensemble de données de séquençage Illumina a été simulé (voir la figure supplémentaire S3 pour un résumé). Nous avons simulé des génomes avec 400 nouvelles insertions de transposons de lignée germinale à différentes fréquences (0,25, 0,5, 0,75 & 1) et des longueurs d'insertion comme suit. Nous avons d'abord construit 10 000 génomes de référence (dm6), puis inséré 90 transposons de pleine longueur (tirés au hasard) et 10 transposons de longueur partielle (6 I-élément, 2 Doc, 2 élément F) dans les mêmes coordonnées de 2500, 5000  ou 7500 des 10 000 génomes de référence un par un. Nous avons également simulé 10 000 génomes avec 20 insertions de transposons somatiques chacun. Nous avons inséré huit pleine longueur 297, quatre pleine longueur copie, trois pleine longueur Tirant, deux longueurs partielles Doc, une pleine longueur 17.6, une pleine longueur élément F਎t une pleine longueur du sang, soit 20 transposons au total, en différentes coordonnées des 10 000 génomes simulés un à un. Les régions à faible mappabilité ont été exclues lors de l'insertion des transposons.

Les paires de lecture Illumina ont ensuite été simulées à l'aide de l'algorithme ART (version 2.5.1) avec les paramètres -ss HS25 -p -l 100 (longueur de lecture) -m 450 (taille du fragment) -s 10 -na (19). Pour chacun des 10 000 génomes simulés, nous avons simulé des paires de lecture Illumina à 0,0001×, 0,0002×, 0,0003×, 0,0004×, 0,0005×, 0,001×, 0,002× , 0,003×, 0,004×਎t 0,005×਌ouverture du génome en ajoutant le paramètre -f. Au total, des paires de lecture Illumina à la profondeur de séquençage de la couverture du génome pour 10 000 génomes simulés ont été générées pour chaque ensemble de génomes. Non pas que par couverture du génome de 1 % 201350, nous entendons que le nombre total de nucléotides mappés sur le génome de référence était à 1 % de la longueur du génome. Deux ensembles de données supplémentaires avec des pourcentages différents de paires de lecture de chimères (0,05 % et 0,5 %) ont été générés en combinant deux lectures aléatoires en une seule paire de lecture.

Séquençage PacBio et Illumina du génome entier de Drosophile

Pour le séquençage PacBio, les mouches vierges femelles (souche ISO-1, � individus pour chacun des deux échantillons) ont été collectées et affamées pendant 1,5 h et congelées instantanément dans de l'azote liquide. L'ADN génomique a été extrait et purifié avec des procédures standard. The DNA library preparation for PacBio sequencing was performed by following the PacBio protocol called ‘procedure & checklist of 20 kb template preparation using the BluePippin size-selection system’. Briefly, the DNA was sheared by a Covaris g-TUBE device and purified using AMPure PB beads. The fragmented DNA was subject to DNA damage repairing and ligated with adapters. Then purified ligation products were size-selected using the BluePippin Size Selection system. After annealing and binding of SMRTbell templates and preparation for MagBead loading, the two libraries were run on the PacBio RS II and Sequel system in NextOmics (Wuhan, China), respectively. The sequencing results for each sample contained two SMART cells.

For Illumina short-read sequencing, the whole bodies of 3𠄵-day-old female virgin flies (ISO-1 strain, � individuals) were collected and used for DNA extraction. DNA quality was assessed by OD260/OD280 with Nanodrop and agarose gel electrophoresis. The library for Illumina sequencing was prepared as follows: (i) fragmentation with Covaris ultrasonicator, (ii) end-repair and phosphorylation of the 5′ ends, (iii) A-tailing of the 3′ ends, (iv) ligation of adapters, (v) 12 cycles of PCR to enrich for the ligated product. Sequencing was done with the Illumina HiSeq-2500 sequencer (run type: paired-end read length: 125 nt) in Novogene (Tianjin, China).

Build a benchmark of transposon insertions using PacBio sequencing data

PacBio sequencing data were transformed to the FASTA format and then aligned to the dm6 genome using the Minimap2 algorithm (version 2.16) with parameters -x map-pb –MD (20). The mapping result was then provided to the Sniffles algorithm for structural variation detection with parameters -l 300 -s 1 (21). Only insertions longer than 300-bp were retained for further analysis because the shortest transposon in D. melanogaster est Stalker3, which is 372-nt in full length. The sequences of insertions were extracted and aligned to transposon consensus sequences using Minimap2 again to define new transposon insertions. A new transposon insertion is considered valid if both of the following conditions are satisfied: (i) the aligned length is longer than half of the insertion (ii) the alignment starts within 500-nt of the 5′-end of the insertion and ends within 500-nt of the 3′-end of the insertion. Transposon insertions within 50 bp were merged, and insertions with more than one supporting read were retained and considered as germline transposon insertions. Breakpoints of the insertions were set to the insertion sites that were supported by the most reads. The 5′-end and 3′-end of each inserted transposon were also annotated. To estimate insertion frequencies, genome-mapping PacBio reads around each breakpoint were tallied. Reads that cross a breakpoint for at least 50 bps were defined as reference reads, and reads split within 50 bp of the breakpoint were defined as supporting reads. Some PacBio reads were long enough to split in both the 5′-end and the 3′-end of an insertion, and these reads were counted as two supporting reads. The insertion frequencies were then estimated using the same equation as TEMP2:

We then manually inspected each of the 405 transposon insertions detected using the PacBio data. Among these 405 insertions, 73 were located in an annotated copy of the same transposon in the reference genome. We visualized the PacBio raw reads supporting each insertion using the IGV browser (v2.7.2) to examine detailed alignments (22). Furthermore, we manually aligned each inserted sequence back to the transposon consensus sequence. For 11 high-frequency insertions supported by many PacBio reads, the insertion sites made by the supporting PacBio reads were typically at exactly the same location of the reference genome or within a few base-pairs of each other, indicating that these are true insertions. For the remaining 62 insertions, a portion of the supporting PacBio read could not align to the reference genome due to high sequencing errors in the portion. However, when we manually aligned the portion back to the transposon consensus sequence, more than half of the portion could be aligned. Furthermore, their supporting PacBio reads point to positions in the reference genome that were far from one another (hundreds to thousands of base pairs away), suggesting alignment errors. We deemed these insertions false positives. We further examined whether the 332 PacBio-detected insertions that were not in a copy of the same transposon could be supported by any Illumina reads. We first aligned Illumina reads to the reference genome via bwa mem using default parameters and then identified discordantly mapped read-pairs from the ± 500 bp region flanking each of the 332 insertions. We aligned these discordant read-pairs to transposon consensus sequences via bwa mem using default parameters. If there was at least one discordant read-pair that could align to the inserted transposon, we deemed the insertion supported by Illumina reads.

Algorithm comparison

The main differences between the algorithms assessed by us are listed in Supplementary Table S4. Algorithms were benchmarked on three sets of short-read whole-genome sequencing data: simulated D. melanogaster data, experimental D. melanogaster data we produced, and human data in the NA12878 lymphoblastoid cell line downloaded from the 1000 Genomes Project.

For simulated and D. melanogaster data, default parameters for each algorithm were used. To achieve a fair comparison of the algorithms, the same cutoff of transposon-supporting reads were used for each of the algorithms (five reads). Sum of squared residue (SSR) was defined as the sum of errors of estimated de novo insertion rate across all transposons including the transposons with 0 simulated insertions:

The SSRs were 0.3 for TEMP2 and 24.75 for TEMP (Figure ​ (Figure2F). 2F ). When we considered only those seven transposons with non-zero simulated insertions, SSRs were 0.3 for TEMP2 and 17.69 for TEMP. The transposon library of D. melanogaster was downloaded from Flybase (23). Transposon insertions in the reference genome (dm6) were annotated using RepeatMasker with parameters -s -no_is -norna -nolow -e ncbi -cutoff 255 -div 40 -frag 20000 (24).

The performance of TEMP2 on simulated datasets. Simulated Illumina read-pairs at different sequencing depth (1�× genome coverage) were used for comparing the performance of TEMP2, TEMP, ERVcaller, MELT, RetroSeq and RelocaTE2 (in red, blue, green, yellow, purple and gray respectively). Panels A𠄽, germline insertions. Panels E-F, somatic insertions. Except for panel E, for which three levels of chimera read-pairs were tested, the datasets with 0.05% chimera read-pairs were used for all other panels. (UNE) Performance of TEMP2 and other transposon-detection methods in detecting transposon insertions. Three panels of line plots depict the sensitivity, precision, and F1 score of detecting germline transposon insertions, respectively, as a function of sequencing depth. (B) Accuracies of TEMP2, TEMP and RetroSeq in estimating transposon-insertion frequencies. Line plots show the average error of estimated frequencies of germline transposon insertions as a function of sequencing depth. (C) Accuracies of TEMP2 and other transposon-detection methods in identifying the breakpoints in the reference genome. Line plots show the average distance between detected and simulated breakpoints of new germline transposon insertions. () Accuracies of TEMP2 and two other transposon-insertion methods in predicting the ends of inserted transposons. Line plots show the average distance between detected and simulated transposon ends of new germline insertions. (E) Accuracies of TEMP2 and TEMP in estimating somatic transposon insertion numbers. Line plots show the sum of squared residuals (SSR) of estimated somatic insertion numbers for all transposon subfamilies. Simulated data with 0%, 0.05%, and 0.5% chimera were tested and the results are displayed as solid, dashed and dot-dashed lines respectively. This panel and panel F are benchmarked using simulated de novo insertions from six full-length transposons and one fragmented transposon (Doc). (F) Accuracies of TEMP2 and TEMP in estimating somatic transposon insertion numbers the sequencing depth was set to 20×. Scatterplots compare simulated and estimated insertion numbers. Each dot denotes a transposon subfamily, and the 8 transposon subfamilies with simulated somatic insertions are in black while the other transposon subfamilies are in gray.

We downloaded the .cram or .bam file of NA12878 low-depth and high-depth data from the 1000 Genomes Project. Although TEMP2 can directly work with these files, we wanted to ensure that the same parameters were used for genome mapping, so we extracted raw reads from these files using samtools (25) and then aligned the reads to hg38 using bwa mem with parameters ‘-T 20 -Y’ (16). Default parameters for ERVcaller, MELT, RetroSeq were used to analyze the NA12878 data. We allowed 10% sequence divergence for TEMP2 and TEMP when aligning reads to transposon consensus sequences, the same for MELT. To achieve a fair comparison of the algorithms, the same cutoff of transposon-supporting reads were used for each of the algorithms (3 for low-depth data and 10 for high-depth data). The transposon library, which contains Alu, SVA, and LINE1 consensus sequences, was downloaded from the MELT package (10). The reference insertion annotation of Alu, SVA, and LINE1 was also downloaded from the MELT package.


We thank members of the Myers, Moffat, Boone, and Andrews laboratory for fruitful discussions. This research was funded by grants from the National Science Foundation (MCB 1818293), the National Institutes of Health (R01HG005084, R01HG005853), the Canadian Institutes for Health Research (MOP-142375), Ontario Research Fund, Genome Canada (Bioinformatics and Computational Biology program), and the Canada Research Chairs Program. M.B. was supported by a DFG Fellowship (Bi 2086/1-1).

Study conception: MB, MR, and CLM Software and analysis: MR and MB Result interpretation: MR, MB, MC, HNW, KRB, CB, JM, and CLM Experiments: AHYT, KC, and MA Manuscript drafting: MC, MA, HNW, KRB, BJA, CB, JM. MB, MR, and CLM Funding: BJA, CB, JM, and CLM.


1. INTRODUCTION

Next-generation sequencing is revolutionizing biological and clinical research. Long hampered by the difficulty and expense of obtaining genomic data, life scientists now face the opposite problem: faster, cheaper technologies are beginning to generate massive amounts of new sequencing data that are overwhelming our technological capacity to conduct genomic analyses ( Mardis, 2010 ). Computational processing will soon become the bottleneck in genome sequencing research, and as a result, computational biologists are actively developing new tools to more efficiently and accurately process human genomes and call variants, e.g. SAMTools ( Li et al. , 2009 ), GATK ( DePristo et al. , 2011 ), Platypus ( http://www.well.ox.ac.uk/platypus ), BreakDancer ( Chen et al. , 2009 ), Pindel ( Ye et al. , 2009 ) and Dindel ( Albers et al. , 2011 ).

Unfortunately, single-nucleotide polymorphism (SNP) callers disagree as much as 20% of the time ( Lyon et al. , 2012 ), and there is even less consensus in the outputs of structural variant algorithms ( Alkan et al. , 2011 ). Moreover, reproducibility, interpretability and ease of setup and use of existing software are pressing issues currently hindering clinical adoption ( Nekrutenko and Taylor, 2012 ). Indeed, reliable benchmarks are required to measure accuracy, computational performance and software robustness, and thereby improve them.

In an ideal world, benchmarking data to evaluate variant calling algorithms would consist of several fully sequenced, perfectly known human genomes. However, ideal validation data do not exist in practice. Technical limitations, such as the difficulty in accurately sequencing low-complexity regions, along with budget constraints, such as the cost to generate high-coverage Sanger reads, limit the quality and scope of validation data. Nonetheless, significant resources have already been devoted to generate subsets of benchmarking data that are substantial enough to drive algorithmic innovation. Alas, the existing data are not curated, thus making it extremely difficult to access, interpret and ultimately use for benchmarking purposes.

Owing to the lack of curated ground truth data, current benchmarking efforts with sequenced human genomes are lacking. The majority of benchmarking today relies on either simulated data or a limited set of validation data associated with real-world datasets. Simulated data are valuable but do not tell the full story, as variant calling is often substantially easier using synthetic reads generated via simple generative models. Sampled data, as mentioned earlier, are not well curated, resulting in benchmarking efforts, such as the Genome in a Bottle Consortium ( Zook and Salit, 2011 ) and the Comparison and Analytic Testing resource (GCAT) ( http://www.bioplanet.com/gcat ), that rely on a single dataset with a limited quantity of validation data.

Rigorously evaluating predictions against a validation dataset presents several additional challenges. Consensus-based evaluation approaches, used in various benchmarking efforts ( The 1000 Genomes Project Consortium, 2010 DePristo et al. , 2011 Kedes and Campany, 2011 ), may be misleading. Indeed, different methods may in fact make similar errors, a fact that remains hidden without ground truth data. In cases where ‘noisy’ ground truth data are used, e.g. calls based on Sanger sequencing with some known error rate or using SNP chips with known error rates, accuracy metrics should account for the effect of this noise on predictive accuracy. Additionally, given the inherent ambiguity in the Variant Calling Format (VCF) format used to represent variants, evaluation can be quite sensitive to the (potentially inconsistent) representations of predicted and ground truth variants. Moreover, owing to the growing need to efficiently process raw sequencing data, computational performance is an increasingly important yet to date largely overlooked factor in benchmarking. There currently exist no benchmarking methodologies that—in a consistent and principled fashion—account for noise in validation data, ambiguity in variant representation or computational efficiency of variant calling methods.

Without any standard datasets and evaluation methodologies, research groups inevitably perform ad hoc benchmarking studies, working with different datasets and accuracy metrics, and performing studies on a variety of computational infrastructures. Competition-based exercises ( Earl et al. , 2011 Kedes and Campany, 2011 ) are a popular route for benchmarking that aim to address some of these inconsistencies, but they are ephemeral by design and often suffer from the same data and evaluation pitfalls described earlier.

In short, the lack of consistency in datasets, computational frameworks and evaluation metrics across the field prevents simple comparisons across methodologies, and in this work, we make a first attempt at addressing these issues. We propose SM a SH, a standard methodology for benchmarking variant calling algorithms based on a suite of S ynthetic, M ouse une sd S ampled H uman data. SM a SH leverages a rich set of validation resources, in part bootstrapped from the patchwork of existing data. We provide free and open access to SM a SH, which consists of:

A set of five full genomes with associated deep coverage short-read datasets (real and synthetic)

Three contaminated variants of these datasets that mimic real-world use cases (M.DePristo, 2013, personal communication) and test the robustness of variant callers in terms of accuracy and required computational resources

Ground truth validation data for each genome along with detailed error profiles

Accuracy metrics that account for the uncertainty in validation data

Methodology to resolve the ambiguity in variant representations, resulting in stable measurements of accuracy and

Performance metrics to measure computational efficiency (and implicitly measure software robustness) that leverage the Amazon Web Services (AWS) cloud computing environment.

SM a SH is designed to facilitate progress in algorithm development by making it easier for researchers to evaluate their systems against each other.


Informations sur l'auteur

Affiliations

CRUK Cambridge Institute, University of Cambridge, Cambridge, UK

Maurizio Callari, Stephen-John Sammut, Leticia De Mattos-Arruda, Alejandra Bruna, Oscar M. Rueda, Suet-Feung Chin & Carlos Caldas

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Auteurs correspondants