Informations

Comment identifier une espèce inconnue à partir d'un fichier .fasta contenant ses séquences génomiques

Comment identifier une espèce inconnue à partir d'un fichier .fasta contenant ses séquences génomiques



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je suis un biochimiste qui n'est pas familier avec les outils bioinformatiques et qui est nouveau dans le monde universitaire dans son ensemble.

J'utilise actuellement les données de séquence d'ADN d'ILLUMINA PE, que j'ai rognées (Trimmomatic), corrigées (Rcorrector) et assemblées (SPAdes). Je suis maintenant intéressé à utiliser les séquences génétiques de mes contigs pour identifier l'organisme d'origine (je sais que c'est une bactérie).

J'ai essayé d'utiliser BLASTn de ncbi sur l'un de mes contigs avec les paramètres par défaut, sur la base de données de collecte de nucléotides. La longueur du contig est d'environ 360 000 bases. J'ai laissé la requête s'exécuter pendant 30 minutes avant de m'arrêter, il n'en est rien sorti.

Quelle serait la meilleure façon de procéder?

Edit: Pour le contexte, ces séquences d'ADN proviennent de matériel génétique extrait de bactéries d'un échantillon de sol. En utilisant un environnement de croissance sélectif, nous avons assuré que les organismes sont bien des bactéries (d'autres tests ont été effectués pour déterminer d'autres caractéristiques, mais ce n'est pas la question).


Je suggérerais d'utiliser un outil conçu à cet effet, tel que GTDB-tk (lent mais informatif), mash (très rapide mais très dépendant des références) ou quelque chose de similaire.


Documentation miRDeep2

miRDeep2 est un progiciel pour l'identification de miARN nouveaux et connus dans les données de séquençage en profondeur. En outre, il peut être utilisé pour le profilage d'expression de miARN à travers des échantillons. Enfin, un nouveau module de prétraitement des données brutes de séquençage Illumina produit des fichiers pour une analyse en aval avec le module miRDeep2 ou quantificateur. Les données de séquençage de l'espace colorimétrique ne sont actuellement pas prises en charge par le module de prétraitement, mais il est prévu qu'elles soient implémentées. Le prétraitement est effectué avec le script mapper.pl. La quantification et le profilage d'expression sont effectués par le script quantifier.pl. L'identification des miARN est effectuée par le script miRDeep2.pl.


A propos des outils

Kraken et Centrifuge sont deux puissants outils de métagénomique développés par le laboratoire Salzberg du Johns Hopkins Center for Computational Biology. Les deux outils sont très précis et sont des ordres de grandeur plus rapides que les algorithmes basés sur BLAST.

Avec les outils antérieurs, les chercheurs étaient confrontés à un compromis entre un délai d'analyse raisonnable et la précision. Les outils basés sur BLAST, bien que précis, sont très lents et coûteux en calcul. Pour effectuer des expériences métagénomiques plus sophistiquées, les chercheurs ont besoin d'outils capables de dériver rapidement et avec précision des informations utiles à partir d'un enchevêtrement de lectures de séquençage.

Kraken et Centrifuge utilisent tous deux une base de données de référence pour classer les séquences selon leurs rangs taxonomiques. Kraken recherche des correspondances k-mer exactes dans une séquence donnée par rapport à la base de données pour identifier une étiquette taxonomique pour la séquence. Il s'appuie sur une base de données précalculée de k-mers (sous-chaînes de longueur fixe k ) et les ancêtres communs les plus bas des génomes de référence contenant ces k-mers. Kraken est capable de classer 4,1 millions de lectures de 100 paires de bases par minute avec une précision comparable au programme BLAST le plus rapide. 4

Tableau 1. Sensibilité et précision de la classification pour Centrifuge, Kraken et MegaBLAST à l'aide de lectures simulées. Dans Centrifuge, seules des lectures classées de manière unique ont été utilisées pour calculer la précision. Pour mesurer la vitesse, 10 millions de lectures ont été utilisées pour Centrifuge et Kraken et 100 000 lectures ont été utilisées pour MegaBLAST. Tous les programmes ont été exécutés sur un système Linux avec 1 To de RAM utilisant un processeur (Intel Xeon 2,1 GHz). Tableau reproduit de Kim et al. Biologie du génome 2016. 5

Un inconvénient de Kraken est son besoin important en mémoire. Pour une base de données de 4 278 génomes procaryotes, Kraken nécessite 93 Go de mémoire, limitant ainsi son utilisation aux clusters hautes performances.

La centrifugeuse a été développée pour remédier à cet inconvénient. En échangeant l'indexation basée sur le k-mer avec une stratégie basée sur la transformée de Burrows-Wheeler et l'indice de Ferragina-Manzini, Centrifuge réduit considérablement l'espace de stockage pour les génomes de référence indexés, tout en permettant une recherche rapide et exacte des k-mers pour une séquence donnée. 5

L'espace de stockage réduit se traduit par une empreinte mémoire plus faible dans Centrifuge. Un index de centrifugation de la base de données complète de séquences nucléotidiques non redondantes NCBI ne nécessite que 69 Go et comprend une cartographie taxonomique complète des séquences dans l'échantillon.

Centrifuge maintient des niveaux élevés de précision et peut être exécuté efficacement sur un ordinateur personnel. Contrairement à Kraken, Centrifuge peut attribuer une séquence à plusieurs catégories taxonomiques, permettant plus de spécificité au niveau du genre et de l'espèce (tableau 1).


Matériaux et méthodes

Base de données de plasmides

Les 9 351 séquences plasmidiques disponibles ont été téléchargées en avril 2017 à partir de la base de données NCBI RefSeq. Comme l'ensemble de données contenait également des séquences plasmidiques partielles et des gènes de résistance aux antimicrobiens, nous l'avons filtré pour n'inclure que les séquences dont les identifiants contenaient « plasmide » et non « gène », « partiel », « incomplet » ou « putatif ». Le fichier multi-FASTA téléchargé a été séparé en fichiers FASTA individuels de chaque plasmide, qui ont été convertis en k-mer listes à l'aide de la boîte à outils GenomeTester4. Un fichier d'index au format texte a été créé qui relie les noms de plasmide k-mer liste les fichiers à leurs identifiants FASTA. La base de données plasmidique finale contenait 8 514 séquences plasmidiques. La base de données construite avec k = 20, utilisé dans la plupart des tests, est disponible sur https://figshare.com/s/5f7b924544839f7d6e59 ou http://bioinfo.ut.ee/plasmidseeker/ la taille non compressée sur le disque est de 8,8 Go.

Génération d'échantillons WGS simulés pour une k-mer sélection de longueur

Quatre échantillons ont été générés, chacun contenant des lectures d'une bactérie (Escherichia coli O157:H7 str. Sakaï (NC_002695.1), Pseudomonas aeruginosa UCBPP-PA14 (CP000438.1), Acinetobacter baumannii YU-R612 (CP014215.1), Staphylococcus aureus subsp. aureus MRSA252 (BX571856.1)) et 1 à 3 plasmides (tableau 1). L'échantillon de S. aureus a été utilisé comme témoin négatif et était sans plasmides. MetaSim, un simulateur de séquençage de nouvelle génération (Richter et al., 2011), a été utilisé pour générer des lectures synthétiques de 80 pb (MetaSim cmd -mg errormodel-80bp.mconf -f [longueur du clone] -r [nombre de lectures]). Le modèle d'erreur empirique pour les lectures de 80 pb a été téléchargé à partir de https://ab.inf.uni-tuebingen.de/software/metasim/errormodel-80bp.mconf. Dans le cas de séquences plasmidiques inférieures à 3 000 pb, la longueur du clone a été fixée à 500. Un total de 500 000 lectures ont été générés pour chaque plasmide et 1 000 000 pour chaque génome bactérien. Chaque échantillon simulé se composait de 1 000 000 de lectures bactériennes et d'un nombre correspondant de lectures de plasmides pour garantir un nombre de copies de plasmide spécifique dans l'échantillon. Le nombre de lectures de plasmides ajoutées a été calculé comme suit : (nombre de lectures bactériennes × longueur de lecture ÷ longueur totale du génome bactérien) × (nombre de copies de plasmide souhaité × longueur de plasmide longueur de lecture).

Souche Plasmide Longueur plasmidique (pb) Numéro de copie réel Nombre de copies prévu
Pseudomonas aeruginosa (sim) pNOR-2000 21,880 20.00 19.50
pUM505 123,322 5.00 5.38
pKLC102 103,532 5.00 5.75
Acinetobacter baumannii (sim) pABIR 29,823 10.00 10.15
Escherichia coli (sim) pOSAK1 3,306 10.00 10.33
pO157 92,721 2.00 2.11
Providencia stuartii P. stuartii souche ATCC 33672 plasmide 48,844 3.02 2.89
Citrobacter freundii pKEC-a3c 272,297 5.23 5.17
pCAV1335-5410 5,410 14.00 14.00
Corynebacterium callunae pCC1 4,084 11.75 11.90
pCC2 82,716 0.87 0.90

« Sim » représente un échantillon simulé. Pour les échantillons WGS réels, le nombre réel de copies est donné tel qu'estimé par Antipov et al. (2016). Pour les calculs du nombre réel de copies dans des échantillons simulés, voir « Matériaux et méthodes ».

Génération d'échantillons WGS simulés pour l'analyse mutationnelle

Huit échantillons ont été réalisés avec MetaSim (réglages comme ci-dessus), chacun contenant 80 pb lectures d'une bactérie (E. coli ou P. aeruginosa, comme ci-dessus) et un plasmide : pOSAK1 (3 306 pb) en cas de E. coli et pUM505 (123 322 pb) en cas de P. aeruginosa. Des mutations de substitution aléatoires ont été induites dans des séquences de référence plasmidiques à l'aide d'un script interne (PlasmidSeeker GitHub, « make_mutations.pl »). Les taux de mutation moyens par pb étaient les suivants : 1/1 000, 1/300, 1/100, 1/30. Les nombres relatifs de copies du plasmide et de la bactérie étaient de 10 à 1 dans tous les échantillons, respectivement. Le nombre de lectures bactériennes dans tous les échantillons était de 1 000 000.

Génération d'échantillons WGS simulés pour détectable kanalyse de la fraction -mer

Seize échantillons ont été réalisés avec MetaSim (paramètres et profil d'erreur comme ci-dessus), chacun contenant 80 pb lectures d'une bactérie (E. coli, P. aeruginosa, S. aureus ou A. baumannii, comme ci-dessus). Le nombre de lectures dans chaque échantillon était égal à la longueur du génome respective divisée par la longueur de lecture (80 pb) fois la couverture souhaitée (1, 3, 5 ou 7). La distribution théorique était supposée suivre la distribution de Poisson, la longueur de lecture était égale à la longueur de lecture dans les échantillons simulés (80 pb) et le taux d'erreur moyen était de 0,01/pb.

Escherichia coli échantillons et analyse avec PlasmidSeeker et plasmidSPAdes

Nous avons utilisé trois E. coli Échantillons WGS avec le type de séquence 131 (Numéros d'accès comme suit : EC1, ERR1937840 EC2, ERR1937914 EC3, ERR1937841 voir également le tableau S3). PlasmidSeeker a été exécuté avec F et C seuils fixés à 80 %. PlasmidSPAdes a été exécuté avec les paramètres par défaut.

Test statistique pour comparer les nombres de copies d'isolats et de plasmides

Une partie ou la totalité du plasmide peut s'intégrer dans le génome bactérien. De plus, les génomes bactériens peuvent contenir k-mères qui sont également présents dans les plasmides, par hasard. Par conséquent, le génome de l'isolat bactérien peut contribuer k-mères à la fraction de plasmide k-mers. Si le nombre de copies d'un plasmide n'est pas significativement différent du nombre de copies chromosomiques, la plupart du plasmide détecté k-mers pourraient provenir du génome bactérien. Par conséquent, pour détecter si k-mers proviennent en fait d'un plasmide ou du chromosome bactérien, nous testons l'hypothèse : H 0 : Cov bactérie = Cov plasmide H 1 : Cov bactérie ≠ Cov plasmide

Covbactéries est la couverture attendue de chromosomiques uniques k-mers et Covplasmide est la couverture attendue du plasmide unique k-mers. Nous supposons que le nombre de copies du plasmide est généralement différent du nombre de copies du chromosome bactérien. Par conséquent, la couverture attendue du plasmide k-mers est également différent de la couverture attendue de chromosomiques k-mers. Par conséquent, en acceptant l'hypothèse H1 conduit à la conclusion qu'au moins certaines des lectures contenant le plasmide de référence k-mers proviennent d'un plasmide.

Pour tester l'hypothèse, nous avons ajusté un mélange de distributions binomiales négatives pour décrire la distribution de la k-mer fréquences (nous avons utilisé la distribution de mélange pour permettre k-mers manquants ou avoir augmenté le nombre de copies comme k-mers peuvent provenir de régions répétées). Nous avons utilisé des mélanges séparés pour décrire le plasmide et le chromosome k-mères fréquences. La méthode utilisée suppose au moins 70 % de k-mères uniques dans l'isolât et le plasmide séquencés. Nous avons ajusté deux modèles par la méthode du maximum de vraisemblance. Dans un modèle, nous avons restreint la couverture attendue de k-mères identiques pour les plasmides et les chromosomes k-mers. Le deuxième modèle permet aux couvertures attendues d'être différentes. Nous avons utilisé un test de type rapport de vraisemblance pour comparer les deux modèles. Le nombre de copies a été considéré comme significativement différent au seuil p < 0,05 corrigé avec Bonferroni en cas de tests multiples.


Résultats

Un aperçu de l'identification de lincRNA avec Evolinc-I

Validation Evolinc-I

Après avoir établi un flux de travail utilisant les paramètres les plus couramment acceptés pour définir un lincRNA (détaillés dans la section Matériaux et méthodes), nous voulions évaluer son efficacité à distinguer les gènes codant pour des protéines inconnus ou nouveaux et les loci non codants. Pour cela, nous avons utilisé un ensemble aléatoire de 5 000 transcrits codant pour des protéines sélectionnés à partir de l'annotation TAIR10 pour déterminer le taux de fausses découvertes d'Evolinc-I (FDR, c'est-à-dire des transcrits codant pour des protéines classés à tort comme lincRNA). Les ORF pour cet ensemble de données de test variaient en longueur de 303 à 4 182 nts, avec un ORF moyen de 1 131 nts (Fichier S3). Étant donné qu'Evolinc est conçu pour supprimer automatiquement les transcrits qui renvoient à des gènes connus, nous avons supprimé ces 5 000 gènes du fichier d'annotation du génome de référence, puis généré un fichier d'assemblage de transcrits à partir des données RNA-seq où ces 5 000 gènes étaient connus pour être exprimés. Nous avons transmis le fichier d'assemblage de transcription à Evolinc-I. Sur 5 000 gènes codant pour des protéines, seuls 11 ont été classés comme non codants par Evolinc-I (0,22 % FDR File S3). Une enquête plus approfondie sur les 11 loci a révélé qu'il s'agissait principalement de transcrits à faible couverture avec des ORF capables de produire des polypeptides 㺐, mais 𼄀 acides aminés (aa). De plus, la faible couverture en lecture de ces transcriptions a conduit à un assemblage de transcription incomplet. Ensemble, ces facteurs étaient responsables de l'annotation erronée de ces loci comme non codants. Il est important de noter que nos résultats indiquent que la profondeur de lecture et les paramètres d'assemblage du transcrit ont un impact sur l'identification des lincRNA, une découverte également notée par Cabili et al. (2011). Par conséquent, l'exploration des paramètres d'assemblage du transcrit peut être nécessaire avant d'exécuter Evolinc-I. En résumé, Evolinc-I a un faible FDR qui peut être encore réduit en augmentant les seuils de couverture de lecture par base lors de l'assemblage du transcrit comme effectué dans Cabili et al. (2011).

Nous avons déterminé le chevauchement des lincRNAs prédits par Evolinc avec des ensembles de données précédemment publiés provenant d'humains et d'Arabidopsis, en suivant aussi étroitement que possible les méthodes publiées pour chaque ensemble de données. Nous avons d'abord utilisé Evolinc-I pour identifier les lincRNA à partir d'un ensemble de données RNA-seq généré par Liu et al. (2012) dans Arabidopsis (Fichier S1). À partir de près d'un milliard de lectures générées à partir de quatre tissus différents (siliques, fleurs, feuilles et racines), Liu et al. (2012) ont identifié 278 lincRNA (sur la base de l'annotation du génome de référence TAIR9). En utilisant Liu et al. (2012) Données SRA, nous avons cartographié les lectures RNA-seq et assemblé les transcrits avec Tophat2 et Cufflinks2 dans le DE. À partir de ces transcrits, Evolinc-I a identifié 571 lincARN. Nous avons ensuite réconcilié les lincRNAs identifiés dans Liu et al. (Liu-lincRNAs) avec ceux d'Evolinc-I (Evolinc-lincRNAs), en identifiant les coordonnées génomiques qui se chevauchent pour les lincRNAs des deux ensembles de données à l'aide de la suite Bedtools (Quinlan et Hall, 2010). Sur les 278 Liu-lincRNA, 261 ont également été récupérés par Evolinc-I (tableau S1). Les boutons de manchette n'ont pas réussi à assembler les 17 Liu-lincRNA non récupérés, en raison d'une faible couverture, et donc les différences de récupération pour ces loci reflètent les différences dans les paramètres des boutons de manchette utilisés.

La référence du génome d'Arabidopsis a été mise à jour depuis Liu et al. (2012), de TAIR9 à TAIR10 (Lamesch et al., 2012). Nous avons également exécuté Evolinc-I avec l'annotation TAIR10 et avons constaté que seuls 198 des 261 Liu-lincRNAs étaient encore considérés comme intergéniques (Figure ​ (Figure1B). 1B). Les 63 autres ont été reclassés comme chevauchant un gène connu (soit un transcrit chevauchant sens, SOT, soit un transcrit chevauchant antisens, AOT). Cela met en évidence un aspect important d'Evolinc-I. Bien qu'Evolinc-I soit capable d'identifier de longs ARN non codants sans annotation du génome, la qualité de l'annotation du génome peut avoir un impact sur le fait qu'un lncRNA soit considéré comme intergénique par rapport à AOT ou SOT. En somme, 198 des 571 lincRNA identifiés par Evolinc-I correspondent à un Liu-lincRNA précédemment identifié (Figure ​ (Figure1B 1B).

Sur les 571 lincRNA identifiés par Evolinc-I, 373 n'ont pas été classés comme lincRNA par Liu et al. (2012). Evolinc-I supprime les transcrits qui chevauchent les UTR 5′ et 3′ d'un gène connu, tandis que Liu et al. (2012) ont supprimé les transcrits situés à moins de 500 pb d'un gène connu (Liu et al., 2012). Cette différence dans la définition opérationnelle de l'espace intergénique explique l'omission de 197 Evolinc-lincRNAs de Liu et al. (2012) catalogue lincRNA. De plus, Evolinc-I supprime les transcrits présentant une forte similarité avec les éléments transposables, mais pas les répétitions di- ou tri-nucléotidiques en tandem. Nous n'avons pu voir aucune raison biologique pour exclure ces transcrits contenant des répétitions simples, et en fait, les transcrits avec des répétitions en tandem simples ont été attribués aux phénotypes de la maladie et pourraient donc être particulièrement intéressants (Usdin, 2008). L'inclusion de ces transcrits représente 106 des Evolinc-lincRNAs uniques.

Enfin, 70 des 571 Evolinc-lincRNAs étaient entièrement nouveaux et ne correspondaient à aucun Liu-lincRNA ou gène connu dans l'annotation du génome TAIR10. Pour déterminer si ceux-ci représentaient authentique transcrits, nous avons testé l'expression d'un sous-ensemble (m = 20) d'ARN linc putatifs simples et multi-exons par RT-PCR en utilisant de l'ARN extrait de deux tissus différents (plants et fleurs, figure S1). Nous avons considéré l'expression comme positive si nous avons récupéré une bande dans deux tissus différents ou dans le même tissu mais à partir de réplicats biologiques différents. Nous avons récupéré des preuves d'expression pour 18 de ces lincARN putatifs sur 20 testés. Sur la base de ces données, nous concluons qu'une majorité des 70 nouveaux lincARN identifiés par Evolinc-I pour Arabidopsis sont susceptibles de refléter authentique transcrits, et donc des candidats lincRNA valides.

Nous avons ensuite comparé Evolinc-I à un ensemble bien annoté d'ARN linc humains caractérisés par Cabili et al. (2011). Cabili et al. (2011) ont utilisé des données RNA-seq provenant de 24 types de tissus et de cellules différents, ainsi que de multiples critères de sélection pour identifier un ensemble de référence « standard ? Nous avons assemblé des transcrits à partir de données RNA-seq pour sept de ces tissus (fichier S1) à l'aide de boutons de manchette sous les paramètres d'assemblage et les seuils de couverture de lecture par base de Cabili et al. (2011) (voir la section Matériaux et méthodes). Nous avons ensuite transmis ces transcriptions à Evolinc-I. Pour comparer directement les lincRNA identifiés par Evolinc-I avec le Cabili et al. (2011) ensemble de données de référence (Cabili-lincRNAs), nous avons utilisé les fichiers BED générés par Evolinc-I pour identifier un sous-ensemble de 360 ​​lincRNAs multi-exons putatifs qui ont été observés dans au moins deux tissus (conformément aux critères employés dans Cabili et al. (2011) lors de l'utilisation d'un seul assembleur de transcription). Nous avons ensuite demandé si ces 360 lincRNAs Evolinc-I ont été trouvés soit dans les Cabili-lincRNAs, soit dans l'annotation de référence humaine hg19 (UCSC). Un total de 317 (88 %) des lincRNAs Evolinc-I correspondaient aux lincRNAs connus des deux sources d'annotation (Figure ​ (Figure1C). 1C). Les 43 transcriptions restantes (12 % des 360 testées) ont satisfait à tous les autres critères énoncés par Cabili et al. (2011) et peut donc être authentique lincRNAs, mais nécessitera des tests supplémentaires.

Evolution des loci lincRNA avec Evolinc-II

Validation Evolinc-II

Evolinc-II est une version automatisée et améliorée d'un flux de travail que nous avons précédemment utilisé pour déterminer la profondeur à laquelle les Liu-lincRNA (Liu et al., 2012) ont été conservés chez d'autres espèces de Brassicaceae (Nelson et al., 2016). Le flux de travail Evolinc-II est décrit dans la figure ​ Figure2A. 2A. Alors que la plupart des Liu-lincRNA étaient limités à Arabidopsis, ou partagés uniquement par Arabidopsis et A. lyrata, 3% étaient conservés dans toute la famille, indiquant que le locus codant pour l'ARNl était présent dans l'ancêtre commun de toutes les Brassicacées

54 MYA (Beilstein et al., 2010). Nous avons utilisé Evolinc-II pour récapituler notre analyse précédente de trois manières. Premièrement, pour fournir des réplicats pour l'analyse statistique, nous avons divisé au hasard les 5 361 Liu-lincRNAs en groupes de 200 séquences avant l'analyse Evolinc-II (m = 27 Figure ​ Figure2B 2B et Figure S2B). Deuxièmement, nous avons effectué une comparaison distincte en divisant les Liu-lincRNAs en fonction de la localisation chromosomique (m = 5). Enfin, nous avons utilisé Evolinc-II pour rechercher des homologues de séquence en utilisant l'ensemble de données Liu-lincRNA complet, mais en interrogeant avec divers E-seuils de valeur (E-20, E-15, E-10, E-05 et E-01). Cette analyse nous a permis de tester l'impact de l'exigence de réciprocité sur la récupération d'homologues putatifs sous différentes E- critères de valeur (Figure &# x200B (Figure 2B 2B et Figure S2D). Le nombre d'homologues de séquence a augmenté pour chaque diminution de la stringence BLAST (Figure S2D), indiquant qu'un nombre important d'homologues putatifs remplissent l'exigence de réciprocité même lorsque la similarité de séquence diminue Le pourcentage d'homologues de séquence récupérés par Evolinc-II était statistiquement indiscernable pour les lincARN attribués aux groupes, aux chromosomes ou à la moyenne de tous les E-valeur seuils (Figure ​ (Figure 2B 2B et Figure S2C). Ainsi, Evolinc-II est une méthode robuste pour identifier des ensembles de lincRNAs qui sont conservés dans un ensemble d'espèces défini par l'utilisateur, comme les Brassicaceae.

En plus d'identifier des ensembles de lincRNA conservés, Evolinc-II met également en évidence les régions conservées au sein de chaque lincRNA de requête. Pour démontrer ces caractéristiques, nous avons parcouru le fichier de statistiques récapitulatives Liu-lincRNA Evolinc-II (au fichier 1E-10 S4) pour identifier un lincRNA conservé. At1NC023160 est conservé en tant que locus à copie unique dans huit des 10 espèces que nous avons examinées. Il a été identifié par Liu et al. (2012) basé à la fois sur les données de RNA-seq et de tuilage array, ainsi que validé par Evolinc-I. Au cours des analyses comparatives, Evolinc-II génère un fichier de coordonnées centré sur la requête qui permet à l'utilisateur de visualiser dans un navigateur génomique (par exemple, JBrowse Buels et al., 2016) quelles régions de la requête lincRNA sont les plus conservées. À l'aide de ce fichier de coordonnées centré sur les requêtes, nous avons examiné le locus 332 nt At1NC023160 dans le navigateur de génome CoGe et déterminé que l'extrémité 3′ était la plus hautement conservée (Figure ​ (Figure2C). 2C). Nous avons utilisé l'alignement de séquences multiples MAFFT généré par Evolinc-II pour At1NC023160 pour effectuer une prédiction de structure avec RNAalifold (Figure S3A Lorenz et al., 2011). La prédiction structurelle basée sur l'alignement de séquences multiples avait un score de probabilité de paires de bases plus élevé et une énergie libre minimale inférieure à la structure déduite de l'ARNc linc d'Arabidopsis seul (figures S3B, C). Les régions conservées d'un lincRNA servent de cibles potentielles pour la perturbation via des techniques d'édition du génome, facilitant ainsi sa dissection fonctionnelle.

Utilisation d'Evolinc-II pour déduire l'évolution du locus TERC de l'ARN de la télomérase humaine

En plus d'explorer l'histoire de l'évolution d'un catalogue de lincRNA, Evolinc-II est un outil efficace pour déduire l'évolution des loci de lincRNA individuels. Pour présenter les informations qu'Evolinc-II peut fournir pour des ensembles de données composés d'un petit nombre de lincRNAs, nous nous sommes concentrés sur le lincRNA humain bien caractérisé, TERC. TERC est la sous-unité d'ARN de la télomérase du complexe ribonucléoprotéique qui est essentielle au maintien de l'extrémité des chromosomes dans les cellules souches, les cellules germinales et les eucaryotes unicellulaires (Theimer et Feigon, 2006 Blackburn et Collins, 2011 Zhang et al., 2011). TERC est fonctionnellement conservé dans presque tous les eucaryas, mais est très divergente en termes de séquence. En s'appuyant sur les travaux de Chen et al. (2000), nous avons utilisé Evolinc-II pour examiner l'histoire évolutive du locus TERC humain chez 26 espèces de mammifères qui partageaient pour la dernière fois un ancêtre commun entre 100 et 130 MYA (Figure ​ (Figure 3 3 Glazko, 2003 Arnason et al., 2008 ).

Analyse Evolinc-II du locus TERC humain chez les mammifères. Arbre à essences de 25 espèces (Ornithoryhchus anatinus non illustré) au sein de la classe Mammalia avec des événements de duplication (D) ou de perte (L) accrochés à l'arbre (à gauche). Un profil de micro-synténie est montré à droite pour chaque espèce, montrant le locus TERC en rouge et les gènes adjacents codant pour les protéines en noir. La direction de chaque gène est indiquée par des flèches. Les loci TERC de souris et de rat sont indiqués par des flèches bleues pour représenter la faible similitude de séquence entre ces deux loci et la TERC humaine. Les temps de divergence sont approximatifs et extraits d'Arnason et al. (2008). Une clé est illustrée ci-dessous, avec les noms des gènes indiqués. Pour régénérer les analyses de micro-synténie avec CoGe (genomeevolution.org) pour toutes les espèces de l'arbre cliquez sur les liens suivants : https://genomevolution.org/r/lxvp, https://genomevolution.org/r/lxvo, https://genomevolution.org/r/lxvo, https://genomevolution.org/r/lxvp ://genomevolution.org/r/lxvn, https://genomevolution.org/r/lxz6.

Evolinc-II a identifié un homologue de séquence TERC humaine dans 23 des 26 espèces examinées (Figure ​ (Figure 3 3 sortie brute illustrée à la Figure S4). Nous n'avons pas pu identifier un homologue TERC humain dans Ornithoryhchus anatinus (ornithorynque), représentant la première lignée divergente au sein de la classe Mammalia, en utilisant nos critères de recherche. En outre, Mus musculus (souris) et Rattus norvegicus (rat) manquaient également d'homologue TERC humain. Cependant, des parents proches de la souris et du rat, tels que Ictidomys tridecemlineatus (écureuil) et Oryctolagus cuniculus (lapin) a conservé des homologues de séquence TERC humains clairs, suggérant que la perte du locus humain de type TERC est limitée aux Muridae (famille souris/rat). Ceci est en accord avec l'identification précédente de la souris TERC, qui présente une similarité de séquence beaucoup plus faible avec la TERC humaine que les autres mammifères (Chen et al., 2000). Tous les homologues humains identifiés de TERC partagent également une synténie, suggérant des origines évolutives similaires pour ce locus chez tous les mammifères (Figure ​ (Figure3). 3). Evolinc-II a également identifié des événements de duplication spécifiques à la lignée pour le locus humain de type TERC dans les génomes de l'orang-outan, du lémurien et du galago (Figure ​ (Figure 3), 3 ), similaire aux observations précédentes chez le porc et la vache (Chen et al ., 2000). En résumé, Evolinc-II peut être appliqué à la fois à de grands et petits ensembles de données pour découvrir des modèles de duplication, de perte et de conservation sur de grandes distances phylogénétiques.


Protéomes de référence

Les ensembles de protéomes one gene one protein sont compilés à partir d'espèces provenant de génomes complets soumis à l'INSDC avec des annotations de modèle de gène provenant de :

Les fichiers gene2acc, fasta et idmapping pour les espèces individuelles sont disponibles en téléchargement ici :
https://ftp.ebi.ac.uk/pub/databases/reference_proteomes/QfO

Les versions SeqXML sont documentées par nos partenaires et elles sont disponibles ici :
https://www.seqxml.org/xml/Reference_proteomes.html

Composition actuelle des ensembles de protéines primaires

Le tableau suivant décrit l'état de l'espèce :

Espèce Nombre de gènes/protéines
UP000007062 7165 ANOGA Anopheles gambiae 15553
UP000000798 224324 AQUAE Aquifex aeolicus 1553
UP000006548 3702 ARATH Arabidopsis thaliana 27468
UP000001570 224308 BACSU Bacillus subtilis 4260
UP000001414 226186 BACTN Bacteroides thetaiotaomicron 4782
UP000007241 684364 BATDJ Batrachochytrium dendrobatidis 8610
UP000009136 9913 BOVIN Bos taureau 23847
UP000002526 224911 BRADU Bradyrhizobium diazoefficiens 8253
UP000001554 7739 BRAFL Branchiostoma floridae 28542
UP000001940 6239 CAEEL Caenorhabditis elegans 19813
UP000000559 237561 CANAL Candida albicans 6035
UP000002254 9615 CANLF Canis lupus 20654
UP000000331 272561 CHLTR Chlamydia trachomatis 895
UP000006906 3055 CHLRE Chlamydomonas reinhardtii 17614
UP000002008 324602 CHLAA Chloroflexus aurantiacus 3850
UP000008144 7719 CIOIN Ciona intestinalis 16678
UP000002149 214684 CRYNJ Cryptococcus neoformans 6604
UP0000000437 7955 DANRE Danio rerio 25706
UP000002524 243230 DEIRA Deinococcus radiodurans 3085
UP000007719 515635 DICTD Dictyoglomus turgidum 1743
UP000002195 44689 DICDI Dictyostelium discoideum 12728
UP00000803 7227 DROME Drosophila melanogaster 13821
UP000000625 83333 ECOLI Escherichia coli 4392
UP000002521 190304 FUSNN Fusobacterium nucleatum 2046
UP000000539 9031 POUSSIN Gallus gallus 18113
UP000000577 243231 GEOSL Geobacter sulfurreducens 3402
UP000001548 184922 GIAIC Giardia intestinalis 4900
UP000000557 251221 GLOVI Gloeobacter violaceus 4406
UP000001519 9595 GORGO Gorille gorille 21789
UP000000554 64091 HALSA Halobacterium salinarum 2423
UP000000429 85962 HELPY Helicobacter pylori 1552
UP000015101 6412 HELRO Helobdella robusta 23328
UP000005640 9606 HUMAIN Homo sapiens 20600
UP000001555 6945 IXOSC Ixodes scapularis 20489
UP000001686 374847 KORCO Korarchaeum cryptofilum 1602
UP000000542 5664 LEIMA Leishmania major 8038
UP000018468 7918 LEPOC Lepisosteus oculatus 18321
UP000001408 189518 LEPIN Leptospira interrogans 3676
UP00000805 243232 METJA Methanocaldococcus jannaschii 1787
UP000002487 188937 METAC Methanosarcina acetivorans 4468
UP000002280 13616 MONDO Monodelphis domestica 21225
UP000001357 81824 MONBE Monosiga brevicollis 9188
UP000000589 10090 SOURIS Mus musculus 22001
UP000001584 83332 MYCTU Mycobacterium tuberculosis 3993
UP0000000807 243273 MYCGE Mycoplasma genitalium 483
UP000000425 122586 NEIMB Neisseria meningitidis 2001
UP000001593 45351 NEMVE Nematostella vectensis 24428
UP000002530 330879 ASPFU Neosartorya fumigata 9647
UP000001805 367110 NEUCR Neurospora crassa 9759
UP000000792 436308 NITMS Nitrosopumilus maritimus 1795
UP000059680 39947 ORYSJ Oryza sativa 43672
UP000001038 8090 ORYLA Oryzias latipes 23617
UP000002277 9598 PANTR Pan troglodytes 23053
UP000000600 5888 PARTE Paramécie tétraurélie 39461
UP000001055 321614 PHANO Phaeosphaeria nodorum 15997
UP000006727 3218 PHYPA Physcomitrella patens 31365
UP000005238 164328 PHYRM Phytophthora ramorum 15349
UP000001450 36329 PLAF7 Plasmodium falciparum 5383
UP000002438 208964 PSEAE Pseudomonas aeruginosa 5564
UP000008783 418459 PUCGT Puccinia graminis 15688
UP000002494 10116 RAT Rattus norvegicus 21588
UP000001025 243090 RHOBA Rhodopirellula baltica 7271
UP000002311 559292 LEVURE Saccharomyces cerevisiae 6050
UP000002485 284812 SCHPO Schizosaccharomyces pombe 5138
UP000001312 665079 SCLS1 Sclerotinia sclerotiorum 14445
UP000001973 100226 STRCO Streptomyces coelicolor 8034
UP000001974 273057 SULSO Sulfolobus solfataricus 2938
UP000001425 1111708 SYNY3 Synechocystis sp. 3507
UP000001449 35128 THAPS Thalassiosira pseudonana 11717
UP000000536 69014 THEKO Thermococcus kodakarensis 2301
UP000000718 289376 THEYD Thermodesulfovibrio yellowstonii 1982
UP000008183 243274 THEMA Thermotoga maritima 1852
UP000007266 7070 TRICA Tribolium castaneum 16568
UP000001542 5722 TRIVA Trichomonas vaginalis 50190
UP000000561 237631 USTMA Ustilago maydis 6788
UP000008143 8364 XENTR Xenopus tropicalis 22514
UP000001300 284591 YARLI Yarrowia lipolytica 6449
UP000007305 4577 MAS Zea mays 39399

Fichiers de cartographie génétique (*.gene2acc)

La colonne 1 est un symbole de gène unique qui est choisi avec l'ordre de préférence suivant à partir de l'annotation trouvée dans :

  1. Base de données d'organismes modèles (MOD)
  2. Base de données Ensembl ou Ensembl Genomes
  3. Nom de locus ordonné UniProt (OLN)
  4. Cadre de lecture ouvert (ORF) UniProt
  5. Nom du gène UniProt

Un tiret (-) est utilisé lorsque le gène codant pour une protéine est inconnu.

La colonne 2 est l'accession UniProtKB ou l'identifiant d'isoforme pour le symbole de gène donné. Cette colonne peut être redondante lorsque deux gènes ou plus ont des traductions identiques.

La colonne 3 est le symbole du gène de l'accession canonique utilisé pour représenter le groupe de gènes respectif et la première ligne de la séquence est celle canonique.

Fichiers FASTA protéinés (*.fasta et *_additional.fasta)

Ces fichiers, composés de séquences canoniques et supplémentaires, sont des ensembles FASTA non redondants pour les séquences de chaque protéome de référence. L'ensemble supplémentaire contient des séquences d'isoformes/variantes pour un gène donné, et son en-tête FASTA indique la séquence canonique correspondante ("Isoforme de ."). Le format FASTA est le format standard UniProtKB.

Pour plus de références sur le format standard UniProtKB, veuillez consulter :

> Sp | Q9H6Y5 | MAGIX_HUMAN PDZ protéine contenant le domaine MAGIX OS = Homo sapiens OX = 9606 GN = MAGIX PE = 1 SV = 4 MEPRTGGAANPKGSRGSRGPSPLAGPSARQLLARLDARPLAARAAVDVAALVRRAGATLR LRRKEAVSVLDSADIEVTDSRLPHATIVDHRPQHRWLETCNAPPQLIQGKAHSAPKPSQA SGHFSVELVRGYAGFGLTLGGGRDVAGDTPLAVRGLLKDGPAQRCGRLEVGDVVLHINGE STQGLTHAQAVERIRAGGPQLHLVIRRPLETHPGKPRGVGEPRKGVVPSWPDRSPDPGGP EVTGSRSSSTSLVQHPPSRTTLKKTRGSPEPSPEAAADGPTVSPPERRAEDPNDQIPGSP GPWLVPSEERLSRALGVRGAAQFAQEMAAGRRRH

> Sp | Q9H6Y5-2 | MAGIX-2_HUMAN isoforme de Q9H6Y5, isoforme 2 de la protéine de domaine PDZ contenant MAGIX OS = Homo sapiens OX = 9606 GN = MAGIX PE = 1 SV = 4 MPLLWITGPRYHLILLSEASCLRANYVHLCPLFQHRWLETCNAPPQLIQGKAHSAPKPSQ ASGHFSVELVRGYAGFGLTLGGGRDVAGDTPLAVRGLLKDGPAQRCGRLEVGDVVLHING ESTQGLTHAQAVERIRAGGPQLHLVIRRPLETHPGKPRGVGEPRKGVVPSWPDRSPDPGG PEVTGSRSSSTSLVQHPPSRTTLKKTRGSPEPSPEAAADGPTVSPPERRAEDPNDQIPGS PGPWLVPSEERLSRALGVRGAAQFAQEMAAGRRRH> tr | C9J123 | C9J123_HUMAN Isoforme de la protéine Q9H6Y5, contenant le domaine PDZ MAGIX (Fragment) OS=Homo sapiens OX=9606 GN=MAGIX PE=1 SV=2 MSPNSPLHCFYLPAVSVLDSADIEVTDSRLPHATIVDHRPQVGDLVLHINGESTQGLTHA QAVERIRAGGPQLHLPRGEPSVLDSADIEVTDSRLPHATIVDHRPQVGDLVLHINGESTQGLTHA QAVERIRAGGPQLHLPRGERSSVKKPR

Codage des fichiers FASTA de séquence d'ADN (*_DNA.fasta)

Ces fichiers contiennent les séquences d'ADN codantes (CDS) pour les séquences protéiques où cela a été possible. Le format est comme dans l'exemple suivant (UP000005640_9606_DNA.fasta) :

>sp|A0A183|ENSP00000411070 ATGTCACAGCAGAAGCAGCAATCTTGGAAGCCTCCAAATGTTCCCAAATGCTCCCCCCTCCC CAAAGATCAAACCCCTGCCTAGCTCCCTACTCGACTCCTTGTGGTGCTCCCCATTCAGAGTGAA GGTTGTCATTCCAGTTCCCAAAGGCGCGCCTGAGGTTCAGAAGCCCATGAAGGGAGGAGTGAGTGAA GGTTGTCATTCCAGTTCCCAAAGGCGCGCCTGAGGTTCAGAAGCCCATGGAAGGAG

Les 3 champs de l'entête FASTA sont :

  1. sp (revue Swiss-Prot) ou tr (TrEMBL)
  2. Adhésion à UniProtKB
  3. ID de protéine EMBL ou ID de génome Ensembl/Ensembl

Fichiers de mappage de séquence d'ADN de codage infructueux (*_DNA.miss)

Pour les espèces qui n'avaient pas un mappage parfait pour toutes les séquences de protéines sur un CDS, ces fichiers contiennent les entrées qui n'ont pas pu être mappées. Le format est comme dans l'exemple suivant (UP000005640_9606_DNA.miss) :

sp A6NF01 ATTENTION : Peut être le produit d'un pseudogène sp A4QN01 NOT_ANNOTATED_CDS

  1. "sp" (Swiss-Prot revu) ou "tr" (TrEMBL)
  2. Adhésion à UniProtKB
  3. Raison pour laquelle la protéine n'a pas pu être mappée sur un CDS

Fichiers de mappage de base de données (*.idmapping)

Ces fichiers contiennent des mappages d'UniProtKB vers d'autres bases de données pour chaque protéome de référence. Le format se compose de trois colonnes séparées par des tabulations :

  1. Adhésion à UniProtKB
  2. ID_type :
    • Nom de la base de données tel qu'indiqué dans les références croisées UniProtKB et pris en charge par l'outil de mappage d'ID sur le site Web d'UniProt (https://www.uniprot.org/mapping )
  3. IDENTIFIANT:
    • Identifiant dans la base de données référencée.

Les fichiers xml contiennent toutes les informations de fasta (canonique et supplémentaire), idmapping et CDS au format SeqXML (voir https://seqxml.org .)
Par exemple. (à partir de UP000005640_9606.xml, en-tête et une entrée)

<?xml version="1.0" encoding="utf-8"?> <seqXML xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" speciesName="Homo sapiens" xsi:noNamespaceSchemaLocation=" http://www.seqxml.org/0.4/seqxml.xsd" seqXMLversion="0.4" sourceVersion="2016_04" source="QfO http://w ww.ebi.ac.uk/reference_proteomes/" ncbiTaxID="9606 "& gt & ltentry source =" UniProtKB "& gt & ltdescription & gtImmunoglobulin lambda variables 4-69 & lt / Description & gt & ltAAseq & gtMAWTPLLFLTLLLHCTGSLSQLVLTQSPSASASLGASVKLTCTLSSGHSSYAIAWHQQQPEKGPRYLMKLNSDGSHSKGDGIPDRFSGSSSGAERYLTISSLQSEDEADYYCQTWGTGI & lt / AAseq & gt & ltDBRef source =" UniProtKB-ID "& gt & lt / DBRef & gt & ltDBRef source =" Gene_Name "& gt & lt / DBRef & gt & ltDBRef source =" GI "& gt & lt / DBRef & gt & ltDBRef source="UniRef100"></DBRef> <DBRef source="UniRef90"></DBRef> <DBRef source="UniRef50"></DBRef> <DBRef source="UniParc"></DBRef> <DBRef source="/EMBLDB>< CDS"></DBRef> <DBRef source="NCBI_TaxID"></DBRef> <DBRef source ="Ensembl"></DBRef> <DBRef source="Ensembl_TRS"></DBRef> <DBRef source="Ensembl_PRO"></DBRef> <DBRef source="UCSC"></DBRef &< < <DBRefDB DBRef source="EuPagt <DBRef source="UCSC"></DBRef &< > <DBRefDB DB<f<f /DBRef> <DBRef source="HGNC"></DBRef> <DBRef source="neXtProt"></DBRef> <DBRef source="GeneTree"></DBRef> <DBRef source="OMA">>="</DBRef>ty nom <DBRef64 "GN" value="IGLV4-69"></property> <property name="SV" value="1"></property> <property name="DNAsource" value="ENSP00000374817"></property> <property name="ensemblVersion" value="ensemblVersion" value 91,38 "& gt & lt / propriété & gt & nom de ltproperty =" UPID "value = "UP000005640" & gt & lt / propriété & gt & nom de ltproperty = "" value =" DNAseq ATGGCTTGGACCCCACTCCTCTTCCTCACCCTCCTCCTCCACTGCACAGGGTCTCTCTCCCAGCTTGTGCTGACTCAATCGCCCTCTGCCTCTGCCTCCCTGGGAGCCTCGGTCAAGCTCACCTGCACTCTGAGCAGTGGGCACAGCAGCTACGCCATCGCAT GGCATCAGCAGCAGCCAGAGAAGGGCCCTCGGTACTTGATGAAGCTTAACAGTGATGGCA GCCACAGCAAGGGGGACGGGATCCCTGATCGCTTCAGGCTCCAGCTCTGGGGCTGAGCGCTACCTCACCATCTCCAGCCTCCAGTCTGAGGATGAGGCTGACTATTACTGTCAGACCTGGGGCACTGGCATTCA"></property> <nom de la propriété="PE">gt="1"></proper

Toni Gabaldón, Christophe Dessimoz, Julie Huxley-Jones, Albert J Vilella, Erik LL Sonnhammer et Suzanna Lewis

Biologie du génome 2009, 10:403

Publié: 29 septembre 2009

Christophe Dessimoz, Toni Gabaldón, David S. Roos, Erik LL Sonnhammer, Javier Herrero et le consortium Quest for Orthologs

Bioinformatique 2012, 28:900

Publié: 12 février 2012

Erik LL Sonnhammer, Toni Gabaldón, Alan W Sousa da Silva, Maria Martin, Marc Robinson-Rechavi, Brigitte Boeckmann, Paul D Thomas, Christophe Dessimoz et le consortium Quest for Orthologs

Bioinformatique 2014, 30:2993

Adrian M Altenhoff, Brigitte Boeckmann, Salvador Capella-Gutierrez, Daniel A Dalquen, Todd DeLuca, Kristoffer Forslund, Jaime Huerta-Cepas, Benjamin Linard, Cécile Pereira, Leszek P Pryszcz, Fabian Schreiber, Alan Sousa da Silva, Damian Szklarczy Marie Train, Peer Bork, Odile Lecompte, Christian von Mering, Ioannis Xenarios, Kimmen Sjölander, Lars Juhl Jensen, Maria J Martin, Matthieu Muffato, consortium Quest for Orthologs, Toni Gabaldón, Suzanna E Lewis, Paul D Thomas, Erik Sonnhammer et Christophe Dessimoz


Comment identifier une espèce inconnue à partir d'un fichier .fasta contenant ses séquences génomiques - Biologie

PlantClusterFinder (version 1.3)

PlantClusterFinder (PCF) détecte les amas de gènes métaboliques dans un génome séquencé.Il utilise un fichier de localisation de gènes fourni par l'utilisateur (voir ci-dessous) et une PGDB créée avec Pathway Tools ainsi que d'autres informations (voir ci-dessous) pour identifier les gènes codant pour des enzymes (gènes métaboliques) situés ensemble sur un chromosome. Initialement, seuls des tronçons continus de gènes métaboliques situés directement les uns à côté des autres sont autorisés. Cette condition est assouplie en augmentant de manière itérative la taille du gène intermédiaire (non métabolique) d'une unité. Plusieurs critères de sélection pour les clusters sont fournis. En plus de cela, les clusters peuvent être empêchés de se former par une section de critères. Les détails de PCF (version 1.0) peuvent être trouvés dans PMID : 28228535.

Les principales différences entre cette version (1.3) et les versions précédentes (1.0 et 1.2) sont :

Auteurs : Pascal Schlapfer, décembre 2017 Bo Xue, décembre 2017

Entrées obligatoires : tous les fichiers ont besoin d'un chemin complet, l'ordre n'a pas d'importance.

Sorties : Aucune (Deux fichiers sont générés : vGeneOutputFile, contenant toutes les informations sur les gènes et vClusterOutputFile, contenant toutes les informations sur les clusters)


Séquençage de l'ARNr 16S : une technique basée sur la PCR pour identifier les espèces bactériennes

La planète Terre est un habitat pour des millions d'espèces bactériennes, chacune ayant des caractéristiques spécifiques. L'identification des espèces bactériennes est largement utilisée en écologie microbienne pour déterminer la biodiversité des échantillons environnementaux et en microbiologie médicale pour diagnostiquer les patients infectés. Les bactéries peuvent être classées à l'aide de méthodes microbiologiques conventionnelles, telles que la microscopie, la croissance sur des milieux spécifiques, les tests biochimiques et sérologiques et les tests de sensibilité aux antibiotiques. Au cours des dernières décennies, les méthodes de microbiologie moléculaire ont révolutionné l'identification bactérienne. Une méthode populaire est le séquençage du gène de l'ARN ribosomique (ARNr) 16S. Cette méthode est non seulement plus rapide et plus précise que les méthodes conventionnelles, mais permet également l'identification de souches difficiles à cultiver dans des conditions de laboratoire. De plus, la différenciation des souches au niveau moléculaire permet une discrimination entre des bactéries phénotypiquement identiques (1-4).

L'ARNr 16S se joint à un complexe de 19 protéines pour former une sous-unité 30S du ribosome bactérien (5). Il est codé par le gène de l'ARNr 16S, qui est présent et hautement conservé dans toutes les bactéries en raison de sa fonction essentielle dans l'assemblage des ribosomes, mais il contient également des régions variables qui peuvent servir d'empreintes digitales pour des espèces particulières. Ces caractéristiques ont fait du gène de l'ARNr 16S un fragment génétique idéal à utiliser pour l'identification, la comparaison et la classification phylogénétique des bactéries (6).

Le séquençage du gène de l'ARNr 16S est basé sur la réaction en chaîne par polymérase (PCR) (7-8) suivie du séquençage de l'ADN (9). La PCR est une méthode de biologie moléculaire utilisée pour amplifier des fragments spécifiques d'ADN à travers une série de cycles qui incluent :

i) Dénaturation d'une matrice d'ADN double brin
ii) Recuit d'amorces (oligonucléotides courts) complémentaires à la matrice
iii) Extension des amorces par l'enzyme ADN polymérase, qui synthétise un nouveau brin d'ADN

Un aperçu schématique de la méthode est présenté dans Figure 1.


Figure 1: Aperçu schématique de la réaction PCR. Veuillez cliquer ici pour voir une version plus grande de cette figure.

Plusieurs facteurs sont importants pour une réaction PCR réussie, dont l'un est la qualité de la matrice d'ADN. L'isolement de l'ADN chromosomique des bactéries peut être effectué à l'aide de protocoles standard ou de kits commerciaux. Des précautions particulières doivent être prises pour obtenir un ADN exempt de contaminants pouvant inhiber la réaction PCR.

Les régions conservées du gène de l'ARNr 16S permettent la conception de paires d'amorces universelles (une directe et une inverse) qui peuvent se lier à et amplifier la région cible dans n'importe quelle espèce bactérienne. La région cible peut varier en taille. Alors que certaines paires d'amorces peuvent amplifier la plupart du gène de l'ARNr 16S, d'autres n'en amplifient que certaines parties. Des exemples d'amorces couramment utilisées sont présentés dans Tableau 1 et leurs sites de liaison sont représentés dans Figure 2.

Nom de l'amorce Séquence (5'𔾷') Avant/arrière Référence
8Fb) AGAGTTTGATCCTGGCTCAG effronté -1
27F AGAGTTTGATCMTGGCTCAG effronté -10
515F GTGCCAGCMGCCGCGGTAA effronté -11
911R GCCCCCGTCAATTCMTTTGA inverser -12
1391R GACGGGCGGTGTGTRCA inverser -11
1492R GGTTACCTTGTTACGACTT inverser -11

Tableau 1: Exemples d'oligonucléotides standards utilisés dans l'amplification de gènes d'ARNr 16S a) .
a) Les longueurs attendues du produit PCR généré à l'aide des différentes combinaisons d'amorces peuvent être estimées en calculant la distance entre les sites de liaison pour l'amorce directe et l'amorce inverse (voir Figure 2), par exemple. la taille du produit PCR utilisant la paire d'amorces 8F-1492R est

1500 pb, et pour la paire d'amorces 27F-911R

900 pb.
b) également connu sous le nom de fD1


Figure 2: Figure représentative de la séquence d'ARNr 16S et des sites de liaison à l'amorce. Les régions conservées sont colorées en gris et les régions variables sont remplies de lignes diagonales. Pour permettre la résolution la plus élevée, les amorces 8F et 1492R (nom basé sur l'emplacement sur la séquence d'ARNr) sont utilisées pour amplifier la séquence entière, permettant le séquençage de plusieurs régions variables du gène. Veuillez cliquer ici pour voir une version plus grande de cette figure.

Conditions de cyclage pour PCR (c'est à dire. la température et le temps requis pour que l'ADN soit dénaturé, annelé avec des amorces et synthétisé) dépendent du type de polymérase utilisé et des propriétés des amorces. Il est recommandé de suivre les directives du fabricant pour une polymérase particulière.

Une fois le programme PCR terminé, les produits sont analysés par électrophorèse sur gel d'agarose. Une PCR réussie donne une bande unique de la taille attendue. Le produit doit être purifié avant le séquençage pour éliminer les amorces résiduelles, les désoxyribonucléotides, la polymérase et le tampon qui étaient présents dans la réaction PCR. Les fragments d'ADN purifiés sont généralement envoyés pour séquençage à des services de séquençage commerciaux. Cependant, certaines institutions effectuent le séquençage de l'ADN dans leurs propres installations principales.

La séquence d'ADN est générée automatiquement à partir d'un chromatogramme d'ADN par un ordinateur et sa qualité doit être soigneusement vérifiée, car une édition manuelle est parfois nécessaire. Suite à cette étape, la séquence du gène est comparée aux séquences déposées dans la base de données d'ARNr 16S. Les régions de similarité sont identifiées et les séquences les plus similaires sont délivrées.

Procédure

  1. Lors de la manipulation de micro-organismes, il est nécessaire de suivre les bonnes pratiques microbiologiques. Tous les micro-organismes, en particulier les échantillons inconnus, doivent être traités comme des agents pathogènes potentiels. Suivez une technique aseptique pour éviter de contaminer les échantillons, les chercheurs ou le laboratoire. Se laver les mains avant et après avoir manipulé des bactéries, utiliser des gants et porter des vêtements de protection.
  2. Réaliser une évaluation des risques pour le protocole expérimental pour l'isolement de l'ADN génomique et la purification du produit PCR. Certains réactifs peuvent être nocifs !
  3. La culture pure est essentielle pour le séquençage de l'ARNr 16S. Avant de procéder à l'isolement de l'ADN génomique, assurez-vous que le matériel de départ est entièrement pur. Cela peut être fait par étalement par stries pour isoler les colonies individuelles. Ceux-ci peuvent être encore cultivés striés sur des plaques individuellement, ou dans un bouillon, si nécessaire.
  4. Matériel de laboratoire requis :
    1. Thermocycleur pour PCR. La fonction du thermocycleur est d'augmenter et d'abaisser la température selon un programme défini. Lors de la création du programme, il vous sera demandé d'entrer les valeurs de température et de temps pour chaque étape de PCR ainsi que le nombre total de cycles.
    2. Système d'électrophorèse sur gel d'agarose. Il est utilisé pour séparer les fragments d'ADN en fonction de leur taille et de leur charge. Dans ce protocole, l'électrophorèse sur gel d'agarose sera utilisée pour visualiser la qualité de l'ADN génomique isolé et des produits PCR.

    Noter: Le protocole démontré s'applique au séquençage du gène de l'ARNr 16S à partir d'une culture pure de bactéries. Elle ne s'applique pas aux études métagénomiques.

    1. Culture de bactéries pour l'isolement de l'ADN génomique (ADNg).
      1. Cultivez votre micro-organisme sur un support approprié. Les milieux liquides et solides peuvent être utilisés dans cette étape. Choisissez les conditions qui donnent la meilleure croissance. Lors de la planification de l'expérience, gardez à l'esprit que les bactéries à croissance lente peuvent avoir besoin de plusieurs jours pour atteindre la phase de croissance tardive/stationnaire. Dans ce protocole, Bacillus subtilis 168 a été cultivé dans un bouillon de lysogénie (LB) pendant une nuit dans un incubateur à agitation réglé à 200 tr/min, 37°C.
      1. Si les bactéries ont été cultivées sur milieu solide, grattez quelques cellules à l'aide d'une anse stérile et remettez-les en suspension dans 1 mL d'eau distillée
      2. Si les bactéries ont été cultivées dans un milieu liquide, utilisez environ 1,5 ml d'une culture d'une nuit.
      3. Pelez les cellules par centrifugation (1 minute, 12 000 - 16 000 &# 215 g), retirez le surnageant et utilisez les cellules pour l'isolement de l'ADNg à l'aide d'un kit commercial ou de protocoles standard [par exemple. Préparation d'ADN total CTAB (13) ou extraction au phénol-chloroforme (14)]. Ici, un kit commercial a été utilisé pour isoler l'ADNg de 1,5 ml de B. subtilis 168 culture d'une nuit, OD600 = 1.5.
        Note 1: Pour certaines bactéries Gram-négatives, cette étape peut être omise et remplacée par une simple libération de l'ADN des cellules par ébullition. Remettre en suspension le culot bactérien dans de l'eau distillée et incuber dans un bloc chauffant réglé à 100 °C pendant 10 minutes.
        Note 2: Les cellules bactériennes Gram-positives sont difficiles à perturber. Il est donc recommandé de choisir une méthode ou un kit d'isolement de l'ADNg dédié à l'isolement de ce groupe de bactéries.
      1. Vérifiez la qualité de l'ADNg isolé par électrophorèse sur gel d'agarose. Tout d'abord, mélangez 5 181 L d'ADNg isolé avec 1 181 L de colorant de charge (6x) et chargez l'échantillon sur un gel d'agarose à 0,8 % contenant un réactif de coloration d'ADN.
      2. Chargez un étalon de masse moléculaire et exécutez l'électrophorèse jusqu'à ce que le front de colorant atteigne le fond du gel.
      3. Une fois l'électrophorèse terminée, visualisez le gel sur un transilluminateur adapté (soit UV soit lumière bleue). L'ADNg apparaît sous la forme d'une bande épaisse de poids moléculaire élevé (au-dessus de 10 kb). Un exemple de contrôle de la qualité de l'ADNg est présenté dans figure 3.
      4. Si l'ADNg passe le contrôle de qualité (c'est à dire. la bande de poids moléculaire élevé est présente et il y a peu ou pas d'étalement de l'ADNg), diluer votre ADNg en série en étiquetant d'abord 3 tubes de microcentrifugation comme suit : ൒x", 蔴x" et 񓐈x" .
      5. Pipeter 90 µL d'eau distillée stérile dans chacun des 3 tubes.
      6. Prenez 10 µL de solution d'ADNg et ajoutez-le au tube marqué ൒x".
      7. Pipeter tout le volume (c'est à dire. 100 µL) de haut en bas pour s'assurer que la solution est mélangée uniformément. Ensuite, prélevez 10 µL de solution de ce tube et transférez-le dans le tube marqué 蔴x".
      8. Mélanger comme décrit précédemment et répéter la même procédure en transférant 10 µL de la solution du tube 蔴x" dans le tube 񓐈x". Ces dilutions seront utilisées comme matrice dans la réaction PCR.


      Figure 3: Électrophorèse sur gel d'agarose de l'ADNg isolé de Bacillus subtilis. Voie 1 : M - marqueur de masse moléculaire (de haut en bas : 10000 pb, 8000 pb, 6000 pb, 5000 pb, 4000 pb, 3500 pb, 3000 pb, 2500 pb, 2000 pb, 1500 pb, 1000 pb). Couloir 2 : ADNg - ADN génomique isolé de Bacillus subtilis. Veuillez cliquer ici pour voir une version plus grande de cette figure.

      1. Amplification du gène de l'ARNr 16S par PCR.
        Noter: Le protocole PCR ci-dessous est optimisé pour une ADN polymérase particulière et une paire d'amorces 8F - 1492R (voir tableau 1). L'optimisation du protocole est requise pour chaque polymérase et paire d'amorces.
        1. Décongeler tous les réactifs sur de la glace.
        2. Préparez le master mix PCR comme indiqué dans le tableau 2. Étant donné que l'ADN polymérase est active à température ambiante, la configuration de la réaction doit être effectuée sur de la glace, c'est à dire. les tubes PCR et les composants de la réaction doivent être conservés sur de la glace tout le temps. Préparez une réaction pour chaque échantillon d'ADNg et une réaction pour le contrôle négatif. Le contrôle négatif est un mélange PCR sans matrice d'ADNg et est utilisé pour s'assurer que les autres composants de la réaction ne sont pas contaminés.
          Noter: En cas d'échantillons multiples, un master mix est généralement préparé. Le mélange maître est une solution contenant tous les composants de la réaction à l'exception du modèle. Il permet d'omettre le pipetage répétitif, d'éviter les erreurs de pipetage et d'assurer une cohérence élevée entre les échantillons. Pour préparer le master mix, multipliez le volume de chaque composant (à l'exception de la matrice d'ADN) par le nombre d'échantillons testés. Mélanger tous les composants dans un tube de microcentrifugation et pipeter le volume entier de haut en bas plusieurs fois.
        3. Aliquoter 49 µL du master mix dans les tubes PCR individuels.
        4. Ajouter 1 gabarit µL dans les tubes avec le master mix. Pour le contrôle négatif, ajoutez 1 µL d'eau stérile. Pour vous assurer que les composants sont bien mélangés, pipetez doucement le mélange de haut en bas

        Tableau 2: Composants de la réaction PCR. * utiliser l'ADNg dilué 10x, 100x ou 1000x de l'étape 2.3.

        Étape Température Temps Cycles
        Dénaturation initiale 98°C 30 secondes
        Dénaturation 98°C 10 secondes 25-30
        recuit 60°C 30 secondes
        Extension 72°C 45 secondes
        Prolongation finale 72°C 7 minutes
        Prise 4°C

        Tableau 3: Programme PCR pour l'amplification du gène de l'ARNr 16S.


        Figure 4 : Électrophorèse sur gel d'agarose des produits PCR amplifiés en utilisant les amorces 8F et 1492R et l'ADNg comme matrice. L'échantillon d'ADNg de B. subtilis (voir Figure 3) a été dilué 10, 100 et 1000 fois afin de tester le meilleur résultat. Voie 1 : M - marqueur de masse moléculaire (de haut en bas : 10000 pb, 8000 pb, 6000 pb, 5000 pb, 4000 pb, 3500 pb, 3000 pb, 2500 pb, 2000 pb, 1500 pb, 1000 pb, 750 pb, 500 pb, 250 pb ). Couloir 2 : Réaction PCR avec une matrice diluée 10x. Voie 3 : Réaction PCR avec une matrice diluée 100x. Voie 4: Réaction PCR avec une matrice diluée 1000x. Voie 5 : (C-) - contrôle négatif (réaction sans matrice d'ADN). Veuillez cliquer ici pour voir une version plus grande de cette figure.

        3. Analyse des données et résultats

        Noter: Le produit PCR est séquencé à l'aide des amorces sens (ici 8F) et inverse (ici 1492R). Par conséquent, deux ensembles de séquences de données sont générés, un pour l'amorce directe et un pour l'amorce inverse. Pour chaque séquence, au moins deux types de fichiers sont générés : i) un fichier texte contenant la séquence d'ADN et ii) un chromatogramme d'ADN, qui montre la qualité du cycle de séquençage.

        1. Pour l'amorce directe, ouvrez le chromatogramme et examinez attentivement la séquence. Un chromatogramme idéal pour une séquence de qualité doit avoir des pics régulièrement espacés et peu ou pas de signaux de fond (Figure 5UNE).
        2. Si le chromatogramme n'est pas de haute qualité, la séquence doit être rejetée ou le fichier texte de la séquence doit être révisé en fonction de ce qui suit :
          1. La présence de doubles pics dans tout le chromatogramme indique la présence de plusieurs matrices d'ADN. Cela peut être le cas si la culture bactérienne n'était pas pure. Une telle séquence doit être rejetée (Figure 5B).
          2. Un chromatogramme ambigu peut résulter de la présence de pics de couleurs différentes au même endroit. L'une des erreurs les plus courantes est la présence de deux pics de couleurs différentes dans la même position et une mauvaise affectation des bases par le logiciel de séquençage (Figure 5C). Corrigez manuellement tous les nucléotides attribués de manière incorrecte et modifiez-les dans le fichier texte.
          3. Les chromatogrammes à faible résolution peuvent entraîner des « pics larges » qui entraînent souvent une erreur de comptage des nucléotides dans ces régions (Figure 5). Cette erreur est difficile à corriger et, par conséquent, d'éventuelles discordances dans l'étape d'alignement ultérieure ne doivent pas être considérées comme fiables.
          4. Une mauvaise qualité de lecture du chromatogramme et la présence de plusieurs pics sont couramment observées aux extrémités 5 & 3 & 39 de la séquence. Certains logiciels séquenceurs suppriment automatiquement ces fragments de mauvaise qualité (Figure 5E), et les nucléotides ne sont pas inclus dans le fichier texte. Si votre séquence n'a pas été tronquée automatiquement, déterminez les fragments de mauvaise qualité (par exemple. signal faible, pics qui se chevauchent, perte de résolution) aux extrémités et supprimez les bases respectives du fichier texte.


          Figure 5 : Exemples de dépannage de séquençage d'ADN. A) Un exemple de séquence de chromatogramme de qualité (pics non ambigus régulièrement espacés). B) Séquence de mauvaise qualité qui se produit généralement au début du chromatogramme. La zone grise est considérée comme de mauvaise qualité et automatiquement supprimée par le logiciel de séquençage. Plus de bases peuvent être coupées manuellement. C) Présence de doubles pics (indiqués par des flèches). Un nucléotide indiqué par la flèche rouge a été lu par le séquenceur comme "T" (pic rouge), mais le pic bleu est plus fort, et il peut également être interprété comme "C". D) Les pics qui se chevauchent indiquent une contamination par l'ADN (c'est à dire. plusieurs modèles). E) Perte de résolution et soi-disant « pics larges » (marqués par un rectangle) qui empêchent un appel de base fiable. Veuillez cliquer ici pour voir une version plus grande de cette figure.

          1. Répétez 3.1 et 3.2 pour l'amorce inverse.
          2. Enfin, assemblez les séquences avant et arrière en une séquence contiguë. Une bonne séquence de séquençage donne une séquence allant jusqu'à 1100 pb. Considérant que le produit PCR est

          1. Fusionner les deux séquences à l'aide du programme d'assemblage de séquences d'ADN, par exemple. un outil gratuit tel que CAP3 (http://doua.prabi.fr/software/cap3) (15).
          2. Insérez les deux séquences au format FASTA dans la case indiquée. Cliquez sur le bouton "Envoyer" et attendez le retour des résultats.
          3. Pour afficher la séquence assemblée, appuyez sur "Contigs" dans l'onglet des résultats. Pour afficher les détails de l'alignement, appuyez sur "Détails de l'assemblage".
            Note 1: Si le logiciel CAP3 est utilisé pour l'assemblage de contig, il n'est pas nécessaire de convertir la séquence d'amorce inverse en complément inverse, cependant, cette étape peut être nécessaire si un autre programme est utilisé.
            Note 2: Le format FASTA est un format textuel pour représenter la séquence nucléotidique. La première ligne (la ligne de description) d'un fichier FASTA commence par un symbole ">" suivi du nom ou d'un identifiant unique de la séquence. Après la ligne de description se trouve la séquence nucléotidique. Collez vos séquences au format suivant :

          1. Sélectionnez l'outil "Nucleotide BLAST" pour comparer votre séquence à la base de données.
          2. Entrez votre séquence (le contig assemblé en 3.5) dans la zone de texte "Query sequence", puis sélectionnez la base de données ൘S rRNA sequences (Bacteria and Archea)" dans le menu déroulant.
          3. Appuyez sur le bouton "BLAST" en bas de la page. Les séquences les plus similaires seront retournées. Un exemple de résultat BLAST est montré dans Figure 6. Dans l'expérience présentée, le meilleur résultat est B. subtilis souche 168, montrant 100 % d'identité avec la séquence disponible dans la base de données BLAST.
          4. Si le résultat le plus élevé n'affiche pas 100 % d'identité, accédez à l'alignement et recherchez les incohérences. En cliquant sur le coup du haut, vous serez dirigé vers les détails de l'alignement. Les nucléotides alignés seront reliés par de courtes lignes verticales tandis que les nucléotides non appariés ont un espace entre eux. Revenez au chromatogramme que vous avez reçu de la société de séquençage et révisez à nouveau la séquence en vous concentrant sur la région qui ne correspond pas. Corrigez la séquence si d'autres erreurs sont détectées.Exécutez à nouveau BLAST en utilisant la séquence corrigée.


          Figure 6 : Exemple du résultat du nucléotide BLAST. Séquence du gène de l'ARNr 16S de la culture pure de B. subtilis 168 a été utilisé comme séquence de requête. Le résultat le plus élevé indique 100 % d'identité (souligné) au B. subtilis souche 168, comme prévu. Veuillez cliquer ici pour voir une version plus grande de cette figure.

          La Terre abrite des millions d'espèces bactériennes, chacune avec des caractéristiques uniques. L'identification de ces espèces est essentielle dans l'évaluation des échantillons environnementaux. Les médecins doivent également distinguer différentes espèces bactériennes pour diagnostiquer les patients infectés.

          Pour identifier les bactéries, diverses techniques peuvent être utilisées, y compris l'observation microscopique de la morphologie ou de la croissance sur un support spécifique pour observer la morphologie des colonies. L'analyse génétique, une autre technique d'identification des bactéries, a gagné en popularité ces dernières années, en partie grâce au séquençage du gène de l'ARN ribosomique 16S.

          Le ribosome bactérien est un complexe d'ARN protéique composé de deux sous-unités. La sous-unité 30S, la plus petite de ces deux sous-unités, contient l'ARNr 16S, qui est codé par le gène de l'ARNr 16S contenu dans l'ADN génomique. Des régions spécifiques de l'ARNr 16S sont hautement conservées, en raison de leur fonction essentielle dans l'assemblage des ribosomes. Alors que d'autres régions, moins critiques pour fonctionner, peuvent varier selon les espèces bactériennes. Les régions variables de l'ARNr 16S peuvent servir d'empreintes moléculaires uniques pour les espèces bactériennes, nous permettant de distinguer des souches phénotypiquement identiques.

          Après avoir obtenu un échantillon d'ADNg de qualité, la PCR du gène codant pour l'ARNr 16S peut commencer. La PCR est une méthode de biologie moléculaire couramment utilisée, consistant en des cycles de dénaturation de la matrice d'ADN double brin, l'annelage de paires d'amorces universelles, qui amplifient les régions hautement conservées du gène, et l'extension des amorces par l'ADN polymérase. Alors que certaines amorces amplifient la plupart du gène codant pour l'ARNr 16S, d'autres n'en amplifient que des fragments. Après PCR, les produits peuvent être analysés par électrophorèse sur gel d'agarose. Si l'amplification a réussi, le gel doit contenir une seule bande d'une taille attendue, en fonction de la paire d'amorces utilisée, jusqu'à 1500 pb, la longueur approximative du gène de l'ARNr 16S.

          Après purification et séquençage, les séquences obtenues peuvent ensuite être entrées dans la base de données BLAST, où elles peuvent être comparées avec des séquences d'ARNr 16S de référence. Comme cette base de données renvoie des correspondances basées sur la similitude la plus élevée, cela permet de confirmer l'identité des bactéries d'intérêt. Dans cette vidéo, vous observerez le séquençage du gène de l'ARNr 16S, y compris la PCR, l'analyse et l'édition de séquences d'ADN, l'assemblage de séquences et la recherche de bases de données.

          Lors de la manipulation de micro-organismes, il est essentiel de suivre de bonnes pratiques microbiologiques, notamment en utilisant une technique aseptique et en portant un équipement de protection individuelle approprié. Après avoir effectué une évaluation des risques appropriée pour le micro-organisme ou l'échantillon environnemental d'intérêt, obtenir une culture d'essai. Dans cet exemple, une culture pure de Bacillus subtilis est utilisé.

          Pour commencer, cultivez votre micro-organisme sur un support adapté dans les conditions appropriées. Dans cet exemple, Bacillus subtilis 168 est cultivé dans du bouillon LB pendant la nuit dans un incubateur à agitation réglé à 200 tr/min à 37 degrés Celsius. Ensuite, utilisez un kit disponible dans le commerce pour isoler l'ADN génomique ou l'ADNg de 1,5 millilitre de B. subtilis culture de nuit.

          Pour vérifier la qualité de l'ADN isolé, mélangez d'abord cinq microlitres d'ADNg isolé avec un microlitre de colorant de chargement de gel d'ADN. Ensuite, chargez l'échantillon sur un gel d'agarose à 0,8 %, contenant un réactif de coloration d'ADN, tel que SYBR safe ou EtBr. Après cela, chargez un étalon de masse moléculaire d'un kilobase sur le gel et exécutez l'électrophorèse jusqu'à ce que le colorant avant soit à environ 0,5 centimètre du fond du gel. Une fois l'électrophorèse sur gel terminée, visualisez le gel sur un transilluminateur à lumière bleue. L'ADNg doit apparaître sous la forme d'une bande épaisse, d'une taille supérieure à 10 kilobases et avoir un maculage minimal.

          Après cela, pour créer des dilutions en série de l'ADNg, étiquetez trois tubes de microcentrifugation comme 10X, 100X et 1000X. Ensuite, utilisez une pipette pour distribuer 90 microlitres d'eau distillée stérile dans chacun des tubes. Ensuite, ajoutez 10 microlitres de la solution d'ADNg dans le tube 10X. Pipeter tout le volume de haut en bas pour s'assurer que la solution est bien mélangée. Ensuite, retirez 10 microlitres de la solution du tube 10X et transférez-le dans le tube 100X. Mélanger la solution comme décrit précédemment. Enfin, transférez 10 microlitres de la solution dans le tube 100X, dans le tube 1000X.

          Pour commencer le protocole PCR, décongelez les réactifs nécessaires sur de la glace. Ensuite, préparez le master mix PCR. Étant donné que l'ADN polymérase est active à température ambiante, la mise en place de la réaction doit se produire sur de la glace. Aliquoter 49 microlitres du master mix dans chacun des tubes PCR. Ensuite, ajoutez un microlitre de modèle à chacun des tubes expérimentaux et un microlitre d'eau stérile au tube de contrôle négatif, en pipetant de haut en bas pour mélanger. Après cela, réglez la machine PCR selon le programme décrit dans le tableau. Placer les tubes dans le thermocycleur et lancer le programme.

          Une fois le programme terminé, examinez la qualité de votre produit par électrophorèse sur gel d'agarose, comme démontré précédemment. Une réaction réussie en utilisant le protocole décrit devrait donner une seule bande d'environ 1,5 kilobase. Dans cet exemple, l'échantillon contenant de l'ADNg dilué 100X a donné le produit de la plus haute qualité. Ensuite, purifiez le meilleur produit PCR, dans ce cas, l'ADNg 100X, avec un kit disponible dans le commerce. Le produit PCR peut maintenant être envoyé pour séquençage.

          Dans cet exemple, le produit PCR est séquencé à l'aide d'amorces directe et inverse. Ainsi, deux jeux de données, contenant chacun une séquence d'ADN et un chromatogramme d'ADN, sont générés : un pour l'amorce directe et l'autre pour l'amorce inverse. Tout d'abord, examinez les chromatogrammes générés à partir de chaque amorce. Un chromatogramme idéal doit avoir des pics régulièrement espacés avec peu ou pas de signaux de fond.

          Si les chromatogrammes affichent des pics doubles, plusieurs matrices d'ADN peuvent avoir été présentes dans les produits PCR et la séquence doit être rejetée. Si les chromatogrammes contenaient des pics de couleurs différentes au même endroit, le logiciel de séquençage a probablement mal appelé les nucléotides. Cette erreur peut être identifiée manuellement et corrigée dans le fichier texte. La présence de pics larges dans le chromatogramme indique une perte de résolution, ce qui provoque une erreur de comptage des nucléotides dans les régions associées. Cette erreur est difficile à corriger et les discordances dans l'une des étapes suivantes doivent être traitées comme non fiables. Une mauvaise qualité de lecture du chromatogramme, indiquée par la présence de pics multiples, se produit généralement aux cinq extrémités principales et aux trois extrémités principales de la séquence. Certains programmes de séquençage suppriment automatiquement ces sections de mauvaise qualité. Si votre séquence n'a pas été tronquée automatiquement, identifiez les fragments de mauvaise qualité et supprimez leurs bases respectives du fichier texte.

          Utilisez un programme d'assemblage d'ADN pour assembler les deux séquences d'amorces en une séquence continue. N'oubliez pas que les séquences obtenues à l'aide d'amorces directes et inverses doivent se chevaucher partiellement. Dans le programme d'assemblage d'ADN, insérez les deux séquences au format FASTA dans la case appropriée. Ensuite, cliquez sur le bouton Soumettre et attendez que le programme renvoie les résultats.

          Pour visualiser la séquence assemblée, cliquez sur Contigs dans l'onglet des résultats. Ensuite, pour afficher les détails de l'alignement, sélectionnez les détails de l'assemblage. Accédez au site Web de l'outil de recherche d'alignement local de base, ou BLAST, et sélectionnez l'outil BLAST de nucléotides pour comparer votre séquence à la base de données. Entrez votre séquence dans la zone de texte de la séquence de requête et sélectionnez la base de données appropriée dans le menu déroulant. Enfin, cliquez sur le bouton BLAST en bas de la page et attendez que l'outil renvoie les séquences les plus similaires de la base de données.

          Dans cet exemple, le résultat le plus élevé est B. subtilis souche 168, montrant 100 % d'identité avec la séquence dans la base de données BLAST. Si le résultat le plus élevé ne montre pas 100 % d'identité avec votre espèce ou votre souche attendue, cliquez sur la séquence qui correspond le mieux à votre requête pour voir les détails de l'alignement. Les nucléotides alignés seront reliés par de courtes lignes verticales et les nucléotides non appariés auront des espaces entre eux. En vous concentrant sur les régions non concordantes identifiées, révisez la séquence et répétez la recherche BLAST si vous le souhaitez.

          Abonnement requis. Veuillez recommander JoVE à votre bibliothécaire.

          Applications et résumé

          L'identification des espèces bactériennes est importante pour différents chercheurs, ainsi que pour les professionnels de la santé. Le séquençage de l'ARNr 16S a été initialement utilisé par les chercheurs pour déterminer les relations phylogénétiques entre les bactéries. Au fil du temps, il a été mis en œuvre dans des études métagénomiques pour déterminer la biodiversité des échantillons environnementaux et dans des laboratoires cliniques comme méthode d'identification des agents pathogènes potentiels. Il permet une identification rapide et précise des bactéries présentes dans les échantillons cliniques, facilitant un diagnostic plus précoce et un traitement plus rapide des patients.

          Abonnement requis. Veuillez recommander JoVE à votre bibliothécaire.

          Les références

          1. Weisburg, W.G., Barns, S.M., Pelletier, D.A. et Lane D.J. Amplification d'ADN ribosomique 16S pour étude phylogénétique. J Bactériol.173 (2): 697-703. (1991)
          2. Drancourt, M., Bollet, C., Carlioz, A., Martelin, R., Gayral, J.P., Raoult D. Analyse de la séquence d'ADN ribosomique 16S d'une large collection d'isolats bactériens environnementaux et cliniques non identifiables. J Clin Microbiol.38 (10):3623-3630. (2000)
          3. Woo, P.C., Lau, S.K., Teng, J.L., Tse, H., Yuen, K.Y. Hier et aujourd'hui : utilisation du séquençage du gène de l'ADNr 16S pour l'identification bactérienne et la découverte de nouvelles bactéries dans les laboratoires de microbiologie clinique. Clin Microbiol Infect.14 (10):908-934. (2008)
          4. Tang, Y.W., Ellis, N.M., Hopkins, M.K., Smith, D.H., Dodge, D.E., Persing, D.H. Comparaison des techniques phénotypiques et génotypiques pour l'identification des bacilles gram-négatifs pathogènes aérobies inhabituels. J Clin Microbiol.36 (12):3674-3679. (1998)
          5. Tsiboli, P., Herfurth, E., Choli, T. Purification et caractérisation des protéines ribosomiques 30S de la bactérie Thermus thermophilus. Eur J Biochem.226 (1):169-177. (1994)
          6. Woese, C.R. L'évolution bactérienne. Microbiol Rev.51 (2):221-271. (1987)
          7. Bartlett, J.M., Stirling, D. Une brève histoire de la réaction en chaîne par polymérase. Méthodes Mol Biol.226:3-6. (2003)
          8. Wilson, K.H., Blitchington, R.B., Greene, R.C. Amplification de l'ADN ribosomique 16S bactérien avec amplification en chaîne par polymérase. J Clin Microbiol.28 (9):1942-1946. (1990)
          9. Shendure, J., Balasubramanian, S., Church, G.M., Gilbert, W., Rogers, J., Schloss, J.A., Waterston, R.H. (2017) Séquençage de l'ADN à 40 ans : passé, présent et futur. La nature.550:345-353.
          10. Lane, D.J. Séquençage d'ARNr 16S/23S. (1991) Dans Techniques des acides nucléiques en systématique bactérienne. (Goodfellow, M. et Stackebrandt, E., éd.) p.115-175. Wiley and Sons, Chichester, Royaume-Uni.
          11. Turner, S., Pryer, K.M., Miao, V.P., Palmer, J.D. (1999) Enquête sur les relations phylogénétiques profondes entre les cyanobactéries et les plastes par analyse de la séquence d'ARNr de petites sous-unités. J Eucaryotes Microbiol.46:327-338.
          12. Fredricks, D.N., Relman, D.A. (1998) Amélioration de l'amplification de l'ADN microbien à partir d'hémocultures par élimination de l'inhibiteur de PCR polyanétholesulfonate de sodium. J Clin Microbiol.36:2810-2816.
          13. Wilson, K. Préparation d'ADN génomique à partir de bactéries. (2001) Curr Protoc Mol Biol. Chapitre 2 : Unité 2.4.
          14. Wright, M. H., Adelskov, J., Greene, A.C. (2017) Extraction d'ADN bactérien à l'aide d'enzymes individuelles et séparation phénol/chloroforme. J Microbiol Biol Educ.18:18.2.48.
          15. Huang, X., Madan, A. (1999). CAP3 : Un programme d'assemblage de séquences d'ADN. Génome Res.9:868-877.

          Transcription

          La Terre abrite des millions d'espèces bactériennes, chacune avec des caractéristiques uniques. L'identification de ces espèces est essentielle dans l'évaluation des échantillons environnementaux. Les médecins doivent également distinguer différentes espèces bactériennes pour diagnostiquer les patients infectés.

          Pour identifier les bactéries, diverses techniques peuvent être utilisées, y compris l'observation microscopique de la morphologie ou de la croissance sur un support spécifique pour observer la morphologie des colonies. L'analyse génétique, une autre technique d'identification des bactéries, a gagné en popularité ces dernières années, en partie grâce au séquençage du gène de l'ARN ribosomique 16S.

          Le ribosome bactérien est un complexe d'ARN protéique composé de deux sous-unités. La sous-unité 30S, la plus petite de ces deux sous-unités, contient l'ARNr 16S, qui est codé par le gène de l'ARNr 16S contenu dans l'ADN génomique. Des régions spécifiques de l'ARNr 16S sont hautement conservées, en raison de leur fonction essentielle dans l'assemblage des ribosomes. Alors que d'autres régions, moins critiques pour fonctionner, peuvent varier selon les espèces bactériennes. Les régions variables de l'ARNr 16S peuvent servir d'empreintes moléculaires uniques pour les espèces bactériennes, nous permettant de distinguer des souches phénotypiquement identiques.

          Après avoir obtenu un échantillon d'ADNg de qualité, la PCR du gène codant pour l'ARNr 16S peut commencer. La PCR est une méthode de biologie moléculaire couramment utilisée, consistant en des cycles de dénaturation de la matrice d'ADN double brin, l'annelage de paires d'amorces universelles, qui amplifient les régions hautement conservées du gène, et l'extension des amorces par l'ADN polymérase. Alors que certaines amorces amplifient la plupart du gène codant pour l'ARNr 16S, d'autres n'en amplifient que des fragments. Après PCR, les produits peuvent être analysés par électrophorèse sur gel d'agarose. Si l'amplification a réussi, le gel doit contenir une seule bande d'une taille attendue, en fonction de la paire d'amorces utilisée, jusqu'à 1500 pb, la longueur approximative du gène de l'ARNr 16S.

          Après purification et séquençage, les séquences obtenues peuvent ensuite être entrées dans la base de données BLAST, où elles peuvent être comparées avec des séquences d'ARNr 16S de référence. Comme cette base de données renvoie des correspondances basées sur la similitude la plus élevée, cela permet de confirmer l'identité des bactéries d'intérêt. Dans cette vidéo, vous observerez le séquençage du gène de l'ARNr 16S, y compris la PCR, l'analyse et l'édition de séquences d'ADN, l'assemblage de séquences et la recherche de bases de données.

          Lors de la manipulation de micro-organismes, il est essentiel de suivre de bonnes pratiques microbiologiques, notamment en utilisant une technique aseptique et en portant un équipement de protection individuelle approprié. Après avoir effectué une évaluation des risques appropriée pour le micro-organisme ou l'échantillon environnemental d'intérêt, obtenir une culture d'essai. Dans cet exemple, une culture pure de Bacillus subtilis est utilisée.

          Pour commencer, cultivez votre micro-organisme sur un support adapté dans les conditions appropriées. Dans cet exemple, Bacillus subtilis 168 est cultivé dans un bouillon LB pendant une nuit dans un incubateur à agitation réglé à 200 tr/min à 37 degrés Celsius. Ensuite, utilisez un kit disponible dans le commerce pour isoler l'ADN génomique ou l'ADNg à partir de 1,5 millilitres de la culture de nuit de B. subtilis.

          Pour vérifier la qualité de l'ADN isolé, mélangez d'abord cinq microlitres d'ADNg isolé avec un microlitre de colorant de chargement de gel d'ADN. Ensuite, chargez l'échantillon sur un gel d'agarose à 0,8 %, contenant un réactif de coloration d'ADN, tel que SYBR safe ou EtBr. Après cela, chargez un étalon de masse moléculaire d'un kilobase sur le gel et exécutez l'électrophorèse jusqu'à ce que le colorant avant soit à environ 0,5 centimètre du fond du gel. Une fois l'électrophorèse sur gel terminée, visualisez le gel sur un transilluminateur à lumière bleue. L'ADNg doit apparaître sous la forme d'une bande épaisse, d'une taille supérieure à 10 kilobases et avoir un maculage minimal.

          Après cela, pour créer des dilutions en série de l'ADNg, étiquetez trois tubes de microcentrifugation comme 10X, 100X et 1000X. Ensuite, utilisez une pipette pour distribuer 90 microlitres d'eau distillée stérile dans chacun des tubes. Ensuite, ajoutez 10 microlitres de la solution d'ADNg dans le tube 10X. Pipeter tout le volume de haut en bas pour s'assurer que la solution est bien mélangée. Ensuite, retirez 10 microlitres de la solution du tube 10X et transférez-le dans le tube 100X. Mélanger la solution comme décrit précédemment. Enfin, transférez 10 microlitres de la solution dans le tube 100X, dans le tube 1000X.

          Pour commencer le protocole PCR, décongelez les réactifs nécessaires sur de la glace. Ensuite, préparez le master mix PCR. Étant donné que l'ADN polymérase est active à température ambiante, la mise en place de la réaction doit se produire sur de la glace. Aliquoter 49 microlitres du master mix dans chacun des tubes PCR. Ensuite, ajoutez un microlitre de modèle à chacun des tubes expérimentaux et un microlitre d'eau stérile au tube de contrôle négatif, en pipetant de haut en bas pour mélanger. Après cela, réglez la machine PCR selon le programme décrit dans le tableau. Placer les tubes dans le thermocycleur et démarrer le programme.

          Une fois le programme terminé, examinez la qualité de votre produit par électrophorèse sur gel d'agarose, comme démontré précédemment. Une réaction réussie en utilisant le protocole décrit devrait donner une seule bande d'environ 1,5 kilobase. Dans cet exemple, l'échantillon contenant de l'ADNg dilué 100X a donné le produit de la plus haute qualité. Ensuite, purifiez le meilleur produit PCR, dans ce cas, l'ADNg 100X, avec un kit disponible dans le commerce. Le produit PCR peut maintenant être envoyé pour séquençage.

          Dans cet exemple, le produit PCR est séquencé à l'aide d'amorces directe et inverse. Ainsi, deux jeux de données, contenant chacun une séquence d'ADN et un chromatogramme d'ADN, sont générés : un pour l'amorce directe et l'autre pour l'amorce inverse. Tout d'abord, examinez les chromatogrammes générés à partir de chaque amorce. Un chromatogramme idéal doit avoir des pics régulièrement espacés avec peu ou pas de signaux de fond.

          Si les chromatogrammes affichent des pics doubles, plusieurs matrices d'ADN peuvent avoir été présentes dans les produits PCR et la séquence doit être rejetée. Si les chromatogrammes contenaient des pics de couleurs différentes au même endroit, le logiciel de séquençage a probablement mal appelé les nucléotides. Cette erreur peut être identifiée manuellement et corrigée dans le fichier texte. La présence de pics larges dans le chromatogramme indique une perte de résolution, ce qui provoque une erreur de comptage des nucléotides dans les régions associées. Cette erreur est difficile à corriger et les discordances dans l'une des étapes suivantes doivent être traitées comme non fiables. Une mauvaise qualité de lecture du chromatogramme, indiquée par la présence de plusieurs pics, se produit généralement aux cinq extrémités principales et aux trois extrémités principales de la séquence. Certains programmes de séquençage suppriment automatiquement ces sections de mauvaise qualité. Si votre séquence n'a pas été tronquée automatiquement, identifiez les fragments de mauvaise qualité et supprimez leurs bases respectives du fichier texte.

          Utilisez un programme d'assemblage d'ADN pour assembler les deux séquences d'amorces en une séquence continue. N'oubliez pas que les séquences obtenues à l'aide d'amorces directes et inverses doivent se chevaucher partiellement. Dans le programme d'assemblage d'ADN, insérez les deux séquences au format FASTA dans la case appropriée. Ensuite, cliquez sur le bouton Soumettre et attendez que le programme renvoie les résultats.

          Pour visualiser la séquence assemblée, cliquez sur Contigs dans l'onglet des résultats. Ensuite, pour afficher les détails de l'alignement, sélectionnez les détails de l'assemblage. Accédez au site Web de l'outil de recherche d'alignement local de base, ou BLAST, et sélectionnez l'outil BLAST de nucléotides pour comparer votre séquence à la base de données. Entrez votre séquence dans la zone de texte de la séquence de requête et sélectionnez la base de données appropriée dans le menu déroulant. Enfin, cliquez sur le bouton BLAST en bas de la page et attendez que l'outil renvoie les séquences les plus similaires de la base de données.

          Dans cet exemple, le meilleur résultat est B.subtilis souche 168, montrant 100 % d'identité avec la séquence dans la base de données BLAST. Si le résultat le plus élevé ne montre pas 100 % d'identité avec votre espèce ou votre souche attendue, cliquez sur la séquence qui correspond le mieux à votre requête pour voir les détails de l'alignement. Les nucléotides alignés seront reliés par de courtes lignes verticales et les nucléotides non appariés auront des espaces entre eux. En vous concentrant sur les régions non concordantes identifiées, révisez la séquence et répétez la recherche BLAST si vous le souhaitez.


          Fond

          Juste après la mort d'un organisme, les communautés microbiennes colonisent les tissus en décomposition et avec les enzymes de l'organisme, elles commencent à dégrader les molécules d'ADN [1,2,3]. La dégradation de l'ADN dépend du temps et de variables environnementales telles que la température mais aussi l'humidité et l'acidité [4]. Même si le modèle spécifique de la désintégration de l'ADN est encore débattu et qu'il est probablement multifactoriel [4], la conséquence est que les vestiges antiques contiennent généralement très peu de molécules d'ADN endogène et ces séquences sont caractérisées par des fragments de petite taille [5].

          Un deuxième défi majeur de la recherche sur l'ADN ancien est la contamination par des sources exogènes [6, 7]. Les molécules d'ADN environnementales dans la matrice du sol dans laquelle l'ancien échantillon a été récupéré peuvent facilement submerger les petites quantités d'ADN endogène. Ceci est également vrai pour l'ADN des personnes qui ont collecté et manipulé les échantillons sur le terrain et/ou les collections de musées [8, 9]. Alors que l'utilisation de la technologie de réaction en chaîne par polymérase (PCR) a permis à la recherche sur l'ADN ancienne de surmonter les problèmes de faible concentration, la sensibilité de la PCR a rendu très difficile d'éviter l'introduction de séquences de contaminants modernes parmi l'ADN ancien authentique [10].

          Au cours de la dernière décennie, avec des méthodes d'extraction d'ADN plus raffinées et des méthodes de laboratoire adaptées pour récupérer efficacement des séquences d'ADN très courtes et rares [5, 11], il est devenu possible d'obtenir des quantités massives de séquences à partir de matériel ancien en utilisant des technologies de séquençage à haut débit. Ces technologies ont permis la récupération de centaines d'anciens génomes humains (examinés dans [12]) et d'autres génomes fauniques anciens de haute qualité tels que ceux des chevaux [13], des mammouths laineux [14] et des ours [15]. Cependant, les défis de la contamination exogène demeurent et ont déclenché une recherche de méthodes de calcul pour identifier et surveiller les séquences d'ADN des contaminants dans les anciens ensembles de données de séquençage.

          Mis à part la petite taille des fragments, l'autre caractéristique la plus notable de l'ADN ancien est les dommages post-mortem. Après la mort, les mécanismes de réparation des dommages à l'ADN tels que l'hydrolyse et l'oxydation cessent de fonctionner, et ces dommages s'accumulent selon des schémas prévisibles [16, 17]. , 18, 19]. Cela se traduit par un excès de substitutions de C à T à l'extrémité 5' (et de G à A à l'extrémité 3') des séquences d'ADN anciennes. Étant donné que cette caractéristique est très courante dans les séquences dérivées de sources d'ADN anciennes et absente dans les échantillons plus jeunes, elle a été largement utilisée comme critère clé pour authentifier les expériences d'ADN anciennes [5, 20].

          Dans les études d'ADN ancien modernes, les séquences exogènes sont différenciées des séquences anciennes réelles de l'organisme source en mappant toutes les séquences sur un génome de référence et en ne conservant que celles qui aboutissent à des alignements avec moins d'un nombre défini de différences [21, 22]. Cette approche pour contourner la contamination environnementale a été largement acceptée, et actuellement les contaminants exogènes sont tout au plus considérés comme problématiques en raison de leur consommation de capacité de séquençage. Cependant, la probabilité d'alignements parasites à partir de séquences exogènes se produisant par hasard augmente avec la diminution de la longueur de séquence [23]. Afin d'éviter cela, des seuils de longueur minimale de fragment, qui permettent toujours une spécificité suffisante des alignements, sont utilisés [24,25,26].

          La contamination humaine moderne est particulièrement problématique pour les études paléogénomiques humaines puisque les humains anciens et anatomiquement modernes relèvent généralement de la variation des humains modernes [27, 28]. Cela a conduit au développement d'une pléthore de méthodes visant à quantifier et à surveiller par ordinateur la contamination exogène dans les anciens ensembles de données d'ADN humain [29]. Cependant, le nombre de méthodes permettant d'exclure efficacement ce type de contamination reste limité. Par exemple, Skoglund et al. [30] ont utilisé les distributions empiriques différentielles des scores de dommages post-mortem (PMD), basées à la fois sur les scores de qualité de base et leur niveau de polymorphisme par rapport au génome de référence, pour différencier les séquences d'ADN des échantillons anciens et modernes. Les scores de PMD dans un échantillon ancien contaminé pourraient ensuite être utilisés pour identifier et séparer avec succès les séquences les plus susceptibles d'avoir pour origine une ancienne molécule modèle de celles du contaminant. Même si cette méthode peut permettre d'enrichir plusieurs fois la proportion de séquences anciennes par rapport aux séquences contaminantes, la quantité de données perdues dans le processus est très importante (45-90%) en fonction de l'âge de l'échantillon ancien. [30].

          Ici, nous utilisons la cartographie compétitive pour étudier la présence de séquences exogènes dans d'anciens fichiers de séquençage afin d'évaluer l'omniprésence de la contamination humaine dans les anciennes études d'ADN faunique. Des études antérieures sur l'ADN ancien ont utilisé des stratégies similaires, c'est-à-dire la cartographie des données d'ADN ancien séquencées sur plusieurs séquences de référence en même temps, pour identifier les espèces microbiennes cibles (par exemple [31, 32]). Nous utilisons la cartographie compétitive pour identifier les niveaux de contamination dans les anciens fichiers de séquençage faunique et caractériser les séquences exogènes en utilisant des statistiques synthétiques pour les comparer à celles de l'ADN ancien authentique. Nous présentons ensuite cette stratégie comme une méthode simple et rapide qui permet l'élimination prudente de la contamination humaine des anciens ensembles de données fauniques avec une perte limitée de véritables séquences d'ADN ancien.


          Remerciements

          Nous remercions Melanie Kuhlmann pour son excellente assistance technique. Nous remercions Sebastian Packheiser qui a contribué au clonage et à la transformation des plantes. Ce travail a été soutenu par la subvention du ministère de l'Éducation et des Sciences (BMBF) « AnnoBeet : Annotation des Genoms der Zuckerrübe unter Berücksichtigung von Genfunktionen und struktureller Variabilität für Nutzung von Genomdaten in der Pflanzenbiotechnologie" (FKZ 0315962 A). nos partenaires industriels KWS Saat AG et Syngenta Seeds GmbH.Nous reconnaissons le soutien apporté à la charge de traitement des articles par la Fondation allemande pour la recherche et le fonds de publication en libre accès de la bibliothèque universitaire de Bielefeld.


          Voir la vidéo: Kuidas teha SARS-CoV-2 antigeeni kiirtesti? RUS (Août 2022).