Informations

Quelle est la différence entre plusieurs ARNm RefSeq pour un gène ?

Quelle est la différence entre plusieurs ARNm RefSeq pour un gène ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je recherche des séquences d'ARNm RefSeq pour un gène donné dans le navigateur de génome UCSC en recherchant le nom de gène "HLA-F" chez l'homme (faites défiler jusqu'à la section des gènes Refseq). Il existe plusieurs ARNm RefSeq pour le gène, quelle est la différence entre ces séquences RefSeq et laquelle d'entre elles est ce que je veux ?


Je vais vous guider tout au long du processus pour déterminer ceci :

  1. Notez qu'il y a deux noms de gènes présentés : HLA-F et HLA-F-AS1. La partie "AS" signifie "anti-sens", donc c'est sur le brin opposé… alors ignorez tous les HLA-F-AS1.
  2. Notez les chromosomes associés. chr6 est un chromosome normal, mais des choses comme chr6_cox_hap2 ne le sont pas. Au lieu de cela, ce sont des patchs/chromosomes d'haplotypes. Les régions HLA sont très variables, donc n'avoir qu'une seule séquence de référence finit par être problématique dans de nombreuses analyses, telles que la recherche de variantes de séquence. Pour vos besoins, vous pouvez ou non vouloir les ignorer, cela dépend de votre objectif.
  3. Si vous ignorez les correctifs d'haplotype, il vous reste 3 annonces sur chr6. Ce sont les 3 isoformes de HLA-F. Vous finissez par avoir besoin d'utiliser les ID refseq pour chacun d'entre eux.

BTW, Gencode/Ensembl liste 4 isoformes pour HLA-F, plutôt que 3. Chaque fois que l'UCSC n'est pas d'accord avec Gencode ou Ensembl, optez pour Gencode ou Ensembl.


Différence entre l'ARN et l'ARNm

Les acides nucléiques sont l'une des molécules les plus importantes trouvées en abondance dans tous les êtres vivants sur terre. Ils sont responsables du codage, de la transmission et de l'expression de l'information génétique en protéines. En 1869, le médecin et biologiste suisse Friedrich Miescher a identifié pour la première fois des acides nucléiques lors de ses expériences. L'information des acides nucléiques a jeté les bases de la science génomique et médico-légale ainsi que de la biotechnologie et des industries pharmaceutiques. Les types de base de molécules d'acide nucléique sont l'ADN (acide désoxyribonucléique) et l'ARN (acide ribonucléique). Selon la fonction, il existe trois types universels d'ARN, comme l'ARN messager (ARNm), l'ARN de transfert (ARNt) et l'ARN ribosomique (ARNr). Cet article met en évidence la différence entre l'ARN et l'ARNm.

TENEUR


Quelle est la différence entre l'ARNm, l'ADN et tout autre *ADN* ?

En termes simples, l'ADN est le modèle principal. Il n'y en a qu'un, il ne peut pas quitter le noyau. L'ARNm est comme un constructeur traçant la partie spécifique du plan dont ils ont besoin. Cette copie est ensuite sortie du noyau et dans le cytoplasme, où les instructions peuvent être utilisées pour construire des polypeptides (qui composent les protéines), d'où la métaphore des constructeurs. L'ARNr et l'ARNt sont différents en ce qu'ils ne portent pas le code génétique, et ils sont similaires en ce qu'ils sont des outils dans la construction de polypeptides. Ce truc peut être vraiment écrasant pour les débutants, alors j'espère que cela vous aidera :)

Moléculairement, tous les analogues d'ADN sont fabriqués à partir d'un sucre ribose (comme le glucose mais au lieu d'être un cycloHexane, il forme un cycloPentane) et d'un acide nucléique (une autre molécule cyclique composée d'un cycloHexane ou à la fois d'un cycloHexane et d'un cycloPentane).

La différence est un seul groupe -OH (groupe hydroxy/alcool) qui est retiré du 2° carbone du ribose dans l'ADN. L'ARN utilise également l'acide nucléique Uracil au lieu de la thymine.

ARNt : ARN qui s'enroule autour de lui-même pour former un codon et un anti-codon qui lie un acide aminé à un ribosome en utilisant l'Adenyl T-RNA Synthase et l'énergie stockée dans une molécule connue sous le nom d'ATP.

nuRNA : ARN qui se trouve dans le noyau et se lie aux sous-unités du ribosome et à l'ARN qui se lie à des protéines spécifiques pour former une structure multiprotéique connue sous le nom de Splicisome.

siARN : ARN présent dans le cytosol qui forme un intermédiaire en épingle à cheveux qui est clivé par une enzyme pour produire une molécule d'ARN qui, avec d'autres protéines, peut se lier à l'ARNm et le dégrader. Important dans la régulation de l'expression des protéines.

ARNm : ARN qui code pour les protéines. (Seulement environ 2% de tout l'ADN est converti en ARNm)

piARN : ARN impliqué dans la méthylation de l'histamine (protéines globulaires qui se lient à l'ADN) et donc régule l'expression des gènes.

ARN viral : très petites molécules d'ARN qui utilisent la transcriptase inverse d'ARN pour obtenir l'ADN viral qui fusionne avec l'ADN de l'hôte. L'ADN viral fusionné est appelé provirus.


Résultats et discussion

Le projet Human Body Map 2.0 a généré des données RNA-Seq pour 16 tissus humains différents (adipeux, surrénales, cerveau, sein, côlon, cœur, rein, leucocytes, foie, poumon, ganglion lymphatique, ovaire, prostate, muscle squelettique, testicule et thyroïde). Nous avons choisi d'analyser cet ensemble de données public car l'expression des gènes est spécifique aux tissus et l'analyse de ces 16 échantillons d'ARN-Seq de haute qualité dans leur ensemble pourrait aboutir à des conclusions moins biaisées. Notez qu'aucune des annotations génétiques n'est complète à 100 %. Par conséquent, pour les lectures RNA-Seq non couvertes par une annotation de gène, l'utilisation ou non du modèle de gène dans l'étape de cartographie n'a aucun impact sur leurs cartographies. Par conséquent, pour évaluer équitablement l'impact d'un modèle de gène sur la cartographie des lectures ARN-Seq, seules les lectures couvertes par un modèle de gène ont été utilisées. Dans cette étude, nous avons conçu un protocole de cartographie en deux étapes. À l'étape 1, toutes les lectures qui ne sont pas couvertes par un modèle de gène ont été filtrées. À l'étape 2, toutes les lectures restantes ont été mappées sur le génome de référence avec et sans l'utilisation d'un modèle de gène. Le rôle d'un modèle de gène dans l'étape de cartographie a ensuite été quantifié et caractérisé en comparant les résultats de cartographie à l'étape #2.

La couverture des différentes annotations de gènes

Les résumés de cartographie de lecture RNA-Seq pour les 16 échantillons ont été présentés dans le fichier supplémentaire 1 : tableau S1 (longueur de lecture = 75 pb) et le fichier supplémentaire 1 : tableau S2 (longueur de lecture = 50 pb), respectivement. Il existe deux modes de mappage différents dans Fichier supplémentaire 1 : Tableaux S1 et S2. Dans le mode de mappage « transcriptome uniquement », toutes les lectures d'ARN-Seq ont été mappées sur un transcriptome de référence uniquement. Si une lecture ne peut pas être mappée sur une région génique connue, elle devient non mappée, même si elle pourrait potentiellement être alignée sur une région génomique sans annotations. En mode de mappage « transcriptome + génome », les lectures ont d'abord été mappées sur un transcriptome de référence, puis celles non mappées ont été mappées sur le génome de référence. L'impact d'un transcriptome de référence sur la cartographie des lectures RNA-Seq est atténué dans le mode de cartographie « transcriptome + génome » car chaque lecture non cartographiée a une seconde chance d'être mappée sur un génome. Les résumés de mappage pour les données du fichier supplémentaire 1 : les tableaux S1 et S2 ont été présentés à la figure 1 et au fichier supplémentaire 1 : figure S1, respectivement. Dans le mode de mappage « transcriptome uniquement », plus de lectures ont été mappées dans Ensembl que dans RefGene et/ou UCSC. Pour chaque type de tissu, le taux de cartographie était similaire entre RefGene et UCSC. Les taux moyens de mappage de lecture étaient de 86 %, 69 % et 70 % pour les annotations Ensembl, RefGene et UCSC, respectivement. La cartographie des lectures courtes est une étape de base des analyses de données RNA-Seq et, dans une certaine mesure, le pourcentage de lectures mappées sur un transcriptome donné peut refléter approximativement l'intégralité de ses gènes et transcrits annotés. Ainsi, l'annotation Ensembl a une couverture génétique beaucoup plus large que RefGene et UCSC.

Le résumé de la cartographie de lecture pour 16 échantillons de tissus dans le « seulement transcriptome » et « transcriptome + génome" modes de mappage (remarque: longueur de lecture = 75 pb). En mode « transcriptome uniquement », plus de lectures sont mappées dans Ensembl que dans RefGene et UCSC (panneau de gauche), et plus de lectures sont mappées en multiple dans Ensembl que dans RefGene et UCSC (panneau de droite). Remarque : le modèle de gène « aucun » signifie que les lectures d'ARN-Seq sont mappées directement sur le génome de référence sans l'utilisation d'un modèle de gène.

En revanche, la figure 1 montre que le pourcentage de mappage de lecture dépend également de l'échantillon, et cela est vrai pour chaque modèle de gène. Par exemple, seulement 52,5% des lectures de séquences dans le cœur ont été mappées sur le modèle RefGene tandis que dans les leucocytes, 84,2% des lectures ont pu être mappées sur RefGene. Cette différence de cartographie entre le cœur et les leucocytes résulte, au moins en partie, de l'incomplétude de l'annotation RefGene. À mesure que davantage de gènes sont annotés dans un modèle de gène, un pourcentage plus élevé de lectures sera mappé dans le mode de mappage « Transcriptome uniquement ».

Les modèles de données en mode de cartographie « transcriptome + génome » étaient différents de ceux déterminés par le mode « transcriptome uniquement » (panneau de gauche sur la figure 1). Dans le mode de cartographie « transcriptome + génome », les taux de cartographie moyens pour Ensembl, RefGene et UCSC ont augmenté à 96,7 %, 94,5 % et 94,6 %, respectivement, et la différence de taux de cartographie entre les différents modèles de gènes a diminué. Cette grande différence dans les taux de cartographie entre les deux modes suggère l'incomplétude des modèles de gènes : il existe de nombreuses lectures qui ont été cartographiées dans les régions génomiques sans annotations.

Dans le mode de cartographie « transcriptome uniquement », une moyenne de 6,9%, 1,4% et 1,8% des lectures étaient des lectures mappées multiples dans les modèles de gènes Ensembl, RefGene et UCSC, respectivement (le panneau de droite de la figure 1). Le pourcentage de lectures mappées multiples dans Ensembl est plus élevé que dans RefGene ou UCSC. Habituellement, une annotation plus complète annote généralement plus de gènes et d'isoformes, et augmente ainsi la possibilité de mappages ambigus. Ces mappages ambigus se traduisent directement par une augmentation du pourcentage de lectures mappées de manière non unique.

L'impact d'un modèle de gène sur la cartographie de lecture ARN-seq

À l'étape 1, les lectures non mappées du mode de mappage « transcriptome uniquement » ont été filtrées. À l'étape 2, nous avons remappé les lectures restantes avec et sans l'utilisation de modèles de gènes. Lorsque des modèles de gènes étaient utilisés à l'étape 2, toutes les lectures pouvaient être mappées, de manière unique ou sur plusieurs emplacements, et il n'y avait pas de lectures non mappées. Lorsque ces lectures ont été remappées sur le génome sans utiliser de modèles de gènes, certaines sont devenues non mappées. Selon le nombre d'emplacements mappés (#ML), toutes les lectures de séquences ont été classées en trois catégories, uniques (c'est-à-dire #ML = 1), multiples (c'est-à-dire #ML > =2) et non mappées (c'est-à-dire #ML = 0). Les résumés de remappage des lectures d'ARN-Seq à l'étape 2 pour les 16 échantillons ont été présentés à la figure 2 (longueur de lecture = 75 pb) et au fichier supplémentaire 1 : figure S2 (longueur de lecture = 50 pb), respectivement. Les données numériques correspondant à la figure 2 et au fichier supplémentaire 1 : figure S2 ont été totalisées dans le fichier supplémentaire 1 : tableaux S3 et S4, respectivement. Le RefGene et l'UCSC avaient systématiquement le pourcentage le plus élevé de lectures mappées de manière unique, tandis que le pourcentage de lectures mappées de manière non unique était beaucoup plus élevé dans Ensembl (échantillons colorés en bleu sur la figure 2). Sans modèle de gène, le pourcentage de lectures non cartographiées était presque constant à 6 % (échantillons colorés en rose sur la figure 2). Comme nous l'avons démontré comme suit, un modèle de gène affecte principalement l'alignement des lectures de jonction, mais a peu d'impact sur les lectures de non-jonction. En moyenne, 23% des lectures dans nos échantillons étaient des lectures de jonction, et généralement environ un tiers d'entre elles n'ont pas pu être cartographiées sans l'utilisation d'un modèle de gène. Par conséquent, il est prévu que

6 % (23 % * 0,33) des lectures mappées ne sont plus mappées sans l'utilisation d'un modèle de gène.

L'effet d'un modèle de gène sur les résumés de cartographie pour 16 échantillons de tissus (lire la longueur = 75 pb). RefGene et UCSC ont systématiquement le pourcentage le plus élevé de lectures mappées de manière unique, tandis que le pourcentage de lectures mappées de manière non unique est beaucoup plus élevé dans Ensembl. Sans modèle de gène (indiqué en rose) lors de l'étape de mappage, 6 % constants des lectures ne sont plus mappées.

Pour évaluer l'impact d'un modèle de gène sur la cartographie de lecture, les résumés de cartographie de la figure 2 et du fichier supplémentaire 1 : la figure S2 n'étaient pas suffisants. Par exemple, une lecture pourrait être alignée différemment avec et sans l'aide d'un modèle de gène dans la cartographie, et dans ce scénario, le résumé de la cartographie ne pourrait pas identifier une telle différence. Ainsi, nous avons comparé les détails de mappage pour chaque lecture, y compris les positions de début et de fin, et les sites d'épissage. Pour plus de simplicité, à l'étape 2, nous nous sommes concentrés sur les lectures mappées de manière unique dans le mode de mappage « transcriptome uniquement ». Une lecture mappée de manière unique pourrait être classée en quatre catégories en fonction de ses informations de cartographie correspondantes sans modèle de gène : (1) « Identique » - restant mappé sur la même région génomique (2) « Alternative » - toujours mappée de manière unique mais différemment (3) « Multiple » : mappé à plus d'emplacements et (4) « Non mappé ». Les résultats détaillés de l'évaluation sont résumés dans la figure 3 (longueur de lecture = 75 pb) et le fichier supplémentaire 1 : figure S3 (longueur de lecture = 50 pb) et rapportés dans le fichier supplémentaire 1 : tableaux S5 et S6.

L'impact d'un modèle de gène sur l'ARN- Mappage de lecture de séquence (longueur de lecture = 75 pb). (UNE) composition des lectures mappées : environ 23 % sont des lectures avec jonction et les 77 % restants sont des lectures sans jonction (B) effet sur le mappage des lectures sans jonction : en moyenne, 95 % restent mappés exactement au même emplacement génomique, tandis que 3 à 9 % des lectures deviennent des lectures mappées multiples (C) effet sur la cartographie des lectures de jonction : en moyenne 53 % des lectures restent cartographiées sur les mêmes régions génomiques sans l'aide d'un modèle de gène. Environ 30 % des lectures de jonction ne sont pas mappées, tandis que 10 à 15 % mappent alternativement. (Remarque : les 16 noms d'échantillons de tissus sont indiqués comme suit : une: adipeux b: surrénales, c: cerveau : Sein e: deux points F: cœur g: un rein h: leucocyte je: le foie j: poumon k: ganglion lymphatique je: ovaire m: prostate m: Muscle squelettique o: testicules et p: thyroïde).

Dans la figure 3A, nous avons divisé les lectures mappées de manière unique en deux classes, c'est-à-dire les lectures sans jonction et les lectures de jonction, et avons étudié l'impact d'un modèle de gène sur leur cartographie. Conformément à la figure 3A, environ 23 % des lectures mappées étaient des lectures avec jonction, et les 77 % restants étaient des lectures sans jonction. Pour les lectures sans jonction (voir la figure 3B), 95 % sont restés mappés exactement au même emplacement génomique, indépendamment de l'utilisation d'un modèle de gène. Sans modèle de gène, 3 à 9 % des lectures sans jonction sont devenues des lectures mappées multiples. Ainsi, il est rare qu'une lecture sans jonction devienne non mappée ou mappée alternativement. Cependant, la cartographie des lectures de jonction a été fortement influencée par les modèles de gènes (voir figure 3C). Sans utiliser de modèle de gène, une moyenne de 53 % des lectures de jonction sont restées mappées sur les mêmes régions génomiques, 30 % d'entre elles n'ont été mappées à aucune région génomique et 10 à 15 % d'entre elles ont été mappées alternativement. De telles cartographies alternatives sont généralement inférieures à leurs résultats de cartographie correspondants utilisant un modèle de gène [20]. Semblable aux lectures sans jonction, une moyenne de 5 % des lectures avec jonction ont été mappées à plus d'un emplacement sans utiliser de modèle de gène. Comme le montre la figure 3C, plus de lectures de jonctions mappées de manière unique sont devenues de multiples lectures mappées dans RefGene et/ou UCSC que dans Ensembl lorsque les lectures de séquences étaient alignées sur le génome de référence sans l'utilisation de modèles de gènes.

L'impact du choix du modèle de gène sur la quantification des gènes

Différents identifiants de gènes sont utilisés dans différentes bases de données d'annotations. Par conséquent, nous avons cartographié ces identifiants spécifiques à la base de données dans les symboles de gènes HGNC uniques du HUGO Gene Nomenclature Committee lorsque nous comparons leurs résultats de quantification de gènes à travers les différents modèles de gènes provenant de ces bases de données. Considérant que les annotations sont plus ou moins incomplètes dans ces bases de données, nous nous sommes concentrés uniquement sur les gènes communs. Le diagramme de Venn de la figure 4 montrait le chevauchement et l'intersection des annotations RefGene, UCSC et Ensembl. Il est clair que RefGene a le moins de gènes uniques, alors que plus de 50% des gènes d'Ensembl sont uniques. En général, les différentes annotations ont des chevauchements très élevés : 21 598 gènes communs sont partagés par les trois annotations de gènes.

Le chevauchement et l'intersection entre RefGene, UCSC, et annotations d'ensemble. En général, les différentes annotations ont des chevauchements très élevés : il existe 21 598 gènes communs partagés par les trois modèles de gènes. RefGene a le moins de gènes uniques, tandis que plus de 50% des gènes d'Ensembl sont uniques.

Pour étudier l'impact de différents modèles de gènes sur les résultats de la quantification des gènes, nous nous sommes concentrés sur cet ensemble de 21 598 gènes communs. La corrélation globale entre RefGene et Ensembl a été montrée sur la figure 5. Les axes x et y représentaient log2 (count + 1). Pour tous les gènes, 1 a été ajouté aux comptes pour éviter une erreur logarithmique pour les gènes avec des comptes de zéro. Idéalement, nous devrions obtenir un nombre identique de lectures mappées pour tous les gènes communs, quel que soit le choix d'un modèle de gène, cependant, ce n'était clairement pas le cas. Bien que la majorité des gènes aient des niveaux d'expression très cohérents ou presque identiques, il y avait un nombre important de gènes dont les résultats de quantification ont été considérablement affectés par le choix d'un modèle de gène. Comme le montre la figure 5, il y avait de nombreux gènes pour lesquels le nombre de lectures mappées sur eux était de 0 dans un modèle de gène, mais beaucoup dans d'autres.

La corrélation des résultats de quantification des gènes entre RefGene et Ensembl. Les axes x et y représentent Log2(count + 1). Bien que la majorité des gènes aient des niveaux d'expression très cohérents ou presque identiques, il existe de nombreux gènes dont les résultats de quantification sont considérablement affectés par le choix d'un modèle de gène.

Pour quantifier la concordance entre les annotations RefGene et Ensembl, nous avons d'abord calculé le ratio de lecture cartographiée pour chaque gène. Pour un gène donné, nous avons défini le nombre de lectures brutes dans les annotations RefGene et Ensembl comme #C1 et #C2, respectivement. Pour éviter la division par 0, 1 a été ajouté à tous les nombres de lectures brutes avant que les rapports ne soient calculés. Les nombres ajustés ont été notés #C1' (=#C1 + 1) et #C2' (=#C2 + 1), respectivement. Le rapport a été calculé comme Max(#C1',#C2')/Min(#C1',#C2'). Par conséquent, le rapport calculé était toujours égal ou supérieur à 1. La distribution des rapports a été résumée dans le tableau 1 (longueur de lecture = 75 pb). Parmi les 21 958 gènes communs, environ 20 % des gènes n'avaient aucune expression dans les deux annotations. Des comptes identiques ont été obtenus pour seulement 16,3 % des gènes. Environ 28,1 % des niveaux d'expression des gènes différaient de 5 % ou plus, et parmi eux, 9,3 % des gènes (équivalent à 2038) différaient de 50 % ou plus. Comme le montrent le tableau 1 et la figure 5, le choix d'un modèle de gène a eu un impact important sur la quantification des gènes. La concordance entre les annotations UCSC et RefGene a été rapportée dans le fichier supplémentaire 1 : Tableau S7 (longueur de lecture = 75 pb). Par rapport à Ensembl, UCSC avait une bien meilleure concordance avec RefGene, en termes de résultats de quantification des gènes. 38,3 % des gènes avaient des nombres de lectures identiques, bien plus élevés que les 16,3 % entre Ensembl et RefGene. Le pourcentage de gènes avec des niveaux d'expression différant de 5% ou plus n'était que de 11,3%, ce qui était bien inférieur aux 28% correspondants entre Ensembl et RefGene. De plus, seuls 3,24 % des résultats de quantification des gènes différaient de 50 % ou plus, ce qui était inférieur aux 9,3 % entre Ensembl et RefGene.

Pourquoi le choix d'un modèle de gène a-t-il un effet si dramatique sur la quantification des gènes ? Ci-dessous, nous avons choisi quelques cas extrêmes ou représentatifs pour fournir des explications possibles. Dans l'échantillon de foie, les niveaux d'expression pour ces gènes exemplaires à la fois pour Ensembl et RefGene ont été résumés dans le tableau 2 (longueur de lecture = 75 pb). PIK3CA (phosphatidylinositol-4,5-bisphosphate 3-kinase, sous-unité catalytique alpha) utilise l'ATP pour phosphoryler PtdIns, PtdIns4P et PtdIns(4,5)P2. Dans l'échantillon de foie, il y avait 1094 lectures mappées sur PIK3CA dans l'annotation Ensembl, tandis que seulement 492 lectures étaient mappées dans RefGene. La définition du gène PIK3CA dans Ensembl et RefGene, et le profil de cartographie des lectures ARN-Seq ont été montrés sur la figure 6. Clairement, la différence dans la définition du gène donne lieu à l'écart observé dans la quantification. Dans Ensembl, il existe trois isoformes pour PIK3CA, et l'isoforme la plus longue est ENST00000263967. La longueur totale de ce transcrit est de 9653 pb, comprenant 21 exons, avec un très long exon #21 (6000 pb, chr3 : 178 951 882-178 957 881). Dans RefGene, PIK3CA n'a qu'un seul transcrit nommé NM_006218. Ce transcrit est long de 3909 pb avec un exon #21 très court (seulement 616 pb, situé à chr 3:178,951,882-178,952,497). La définition du gène PIK3CA dans Ensembl semble plus précise que celle dans RefGene, sur la base du profil de cartographie des lectures de séquence. De même, la différence de nombre de lectures pour le gène EGFR et SLC30A1 dans Ensembl et RefGene résulte principalement de la différence de définition du gène (Fichier supplémentaire 1 : Figures S4 et S5).

Les différentes définitions de gènes pour PIK3CA donnent lieu à des différences dans la quantification des gènes. PIK3CA dans l'annotation Ensembl est beaucoup plus longue que sa définition dans RefGene, expliquant pourquoi il y a 1094 lectures mappées sur PIK3CA dans Ensembl, alors que seulement 492 lectures sont mappées dans RefGene. La définition du gène PIK3CA dans Ensembl semble plus précise que celle dans RefGene, sur la base du profil de cartographie des lectures de séquences.

La figure 7 montre un autre exemple d'un modèle de gène remarquablement différent défini dans Ensembl par rapport à celui dans RefGene. Dans RefGene, un transcrit bi-cistronique code les produits des gènes MTPN (myotrophine) et LUZP6 (leucine zipper protein 6), qui sont situés sur le chromosome 7. Toutes les lectures cartographiées sont également réparties sur ces deux gènes. Le transcrit mature est de 3884 pb dans RefGene. Cependant, dans l'Ensembl, LUZP6 ne fait que 177 pb et se trouve complètement dans le MTPN. En conséquence, toutes les lectures mappées sur la région de chevauchement sont attribuées à MTPN uniquement parce que LUZP6 n'a aucune lecture unique mappée dessus, ce qui explique pourquoi le nombre de lectures pour LUZP6 était de 0 lorsque l'annotation Ensembl a été choisie. De même, la différence dans la définition du gène (voir Fichier supplémentaire 1 : Figure S6) peut expliquer les résultats de quantification pour PIGY/PYURF dans le tableau 2. Le gène PIGY dans Ensembl ne mesure que 217 pb et se chevauche complètement avec PYURF (PIGY Upstream Reading Frame) . Ainsi, toutes les lectures mappées sur la région de PIGY sont attribuées au gène PYURF, tandis qu'aucune lecture n'est attribuée à PIGY. Dans RefGene, PIGY et PYURF codent exactement le même ARNm, bien que les séquences protéiques traduites soient différentes. Ainsi, toutes les lectures mappées sur PIGY/PYURF sont également réparties sur ces deux gènes. Le gène PECAM1 est un autre exemple intéressant. Il est situé sur le chromosome 17 dans le modèle RefGene. Dans l'Ensembl, cependant, ce gène est situé sur le chromosome HG183_PATCH : 62 399 863-62 491 136. HG183_PATCH n'est pas du tout inclus dans le génome humain GRCH37.3, ce qui explique pourquoi zéro lecture mappée sur le gène PECAM1 à l'aide de l'annotation Ensembl.

Les différentes définitions des gènes pour LUZP6. Dans l'annotation Ensembl, LUZP6 ne mesure que 177 pb et se trouve complètement dans un autre gène, MTPN. En conséquence, toutes les lectures de séquence provenant de LUZP6 sont affectées à MTPN à la place. Dans RefGene, LUZP6 et MTPN sont dérivés de la même région génomique, et les deux codent exactement le même ARNm, bien que les séquences de codage des protéines soient différentes. Par conséquent, toutes les lectures mappées sur cette région sont également réparties entre ces deux gènes.

L'effet des modèles de gènes sur l'analyse différentielle

Généralement, l'analyse différentielle RNA-Seq nécessite des réplicats biologiques. Cependant, nous avons analysé des échantillons uniques provenant de 16 tissus différents. Pour démontrer l'effet des modèles de gènes sur l'analyse différentielle, les changements de pli entre les échantillons de cœur et de foie ont été calculés à l'aide des annotations RefGene et Ensembl. La corrélation du Log2Ratio calculé (foie/cœur) a été représentée sur la figure 8. Le graphique doit montrer une ligne diagonale parfaite si le choix d'un modèle de gène n'a aucun effet sur l'analyse différentielle. Bien que la majorité des gènes aient des changements d'expression très cohérents ou comparables, il existe un certain nombre de gènes dont les rapports sont considérablement affectés par le choix d'un modèle de gène. Fait intéressant, certains gènes ont un facteur de changement très élevé dans un modèle de gène, mais aucun changement du tout dans un autre modèle de gène. De toute évidence, le choix d'un modèle de gène a un effet sur l'analyse de l'expression différentielle en aval, en plus de la quantification des gènes.

La corrélation du Log2Ratio calculé (cœur/ le foie) entre RefGene et Ensembl. Les points vert, bleu et rouge indiquent la différence absolue correspondante entre les deux Log2Ratios supérieurs à 1, 2 ou 5, respectivement. Bien que la majorité des gènes aient des changements d'expression très cohérents, de nombreux gènes sont remarquablement affectés par le choix de différents modèles de gènes.

L'effet d'un modèle de gène sur la cartographie dépend de la longueur de lecture

Tous les résultats d'analyse pour l'ensemble de données avec une longueur de lecture de 50 pb ont été rapportés dans les tableaux et figures supplémentaires. Intuitivement, plus une lecture est courte, plus il est probable qu'elle corresponde à plusieurs emplacements. Par conséquent, le pourcentage de lectures mappées de manière unique diminue et le pourcentage de lectures à mappage multiple augmente. Quel que soit le modèle de gène utilisé pour la cartographie, cette observation se vérifie par exemple si l'on compare le fichier supplémentaire 1 : tableau S1 avec le fichier supplémentaire 1 : tableau S2 et/ou le fichier supplémentaire 1 : tableau S3 avec le fichier supplémentaire 1 : tableau S4. Ainsi, la fidélité de mappage pour une lecture de séquence augmente avec sa longueur, et ceci est particulièrement vrai pour les lectures de jonction. Comme démontré dans la figure 3C et le fichier supplémentaire 1 : tableau S5, lorsque la longueur de lecture était de 75 pb, une moyenne de 53 % des lectures de jonction restaient mappées sur les mêmes régions génomiques lorsqu'elles étaient cartographiées sans annotation génétique. Cependant, ce pourcentage est tombé à 42 % lorsque la longueur de lecture était de 50 pb (Fichier supplémentaire 1 : Figure S3C et Fichier supplémentaire 1 : Tableau S6). Ainsi, l'effet d'un modèle de gène sur la cartographie des lectures de jonction est significativement influencé par la longueur de lecture.

En attendant, l'abondance relative des lectures de jonction est fortement déterminée par la longueur de lecture.

Selon la figure 3A et le fichier supplémentaire 1 : tableau S5, en moyenne, environ 23 % des lectures de séquences étaient des lectures de jonction lorsque la longueur de lecture était de 75 pb. Le pourcentage de lectures de jonction a chuté à 16% lorsque la longueur de lecture était de 50 pb (voir Fichier supplémentaire 1 : Figure S3A et Fichier supplémentaire 1 : Tableau S6). Cela s'explique par le fait que plus la lecture est longue, plus il est probable qu'elle s'étend sur plus d'un exon. À mesure que la technologie de séquençage évolue, la longueur de lecture deviendra de plus en plus longue. Par conséquent, davantage de lectures de jonction seront générées par les technologies de séquençage à canon court. Par conséquent, la nécessité d'incorporer l'annotation du génome dans le processus de cartographie de lecture augmentera considérablement.

Quelle annotation du génome choisir pour la quantification des gènes ?

En pratique, il n'y a pas de réponse simple à cette question, et cela dépend de l'objectif de l'analyse. Dans cet article, nous avons démontré que le choix d'un modèle de gène a un effet sur les résultats de quantification. Auparavant, nous avons comparé les résultats de la quantification des gènes lorsque les annotations RefGene et Ensembl étaient utilisées. Parmi 25 958 gènes communs, les expressions de 2038 gènes (c'est-à-dire 9,3 %) différaient de 50 % ou plus lors du choix d'une annotation par rapport à l'autre. Une si grande différence résulte fréquemment des différences de définition des gènes dans les annotations. Les gènes portant le même symbole HUGO dans différents modèles de gènes peuvent être définis comme des régions génomiques complètement différentes. Lors du choix d'une base de données d'annotations, les chercheurs doivent garder à l'esprit qu'aucune base de données n'est parfaite et que certaines annotations de gènes peuvent être inexactes ou totalement erronées.

Wu et al. [27] ont suggéré que lors de la conduite de recherches qui mettent l'accent sur des estimations d'expression génique reproductibles et robustes, une annotation du génome moins complexe, telle que RefGene, pourrait être préférée. Lors de la conduite de recherches plus exploratoires, une annotation du génome plus complexe, telle que Ensembl, devrait être choisie. Sur la base de notre expérience de l'analyse des données RNA-Seq, nous recommandons d'utiliser l'annotation RefGene si RNA-Seq est utilisé en remplacement d'un microarray dans le profilage du transcriptome. Pour les échantillons humains, les puces Affymetrix GeneChip HT HG-U133+ PM sont l'une des plates-formes de puces à ADN les plus populaires pour le profilage du transcriptome, et les gènes couverts par cette puce se chevauchent très bien avec RefGene, selon Zhao et al. [6] h. Malgré le fait que l'Ensembl R74 contienne 63 677 entrées de gènes annotées, seules 22 810 entrées (environ un tiers) correspondent à des gènes codant pour des protéines. Il existe 17 057 entrées représentant divers types d'ARN, notamment ARNr (566), snoRNA (1549), snRNA (2067), miRNA (3361), misc_RNA (2174) et lincRNA (7340). Il y a 15 583 pseudogènes dans l'Ensembl R74. Pour la plupart des projets de séquençage d'ARN-Seq, seuls les ARNm sont vraisemblablement enrichis et séquencés, et il est inutile de mapper les lectures de séquences sur des ARN tels que les miARN ou les lincARN. L'Ensembl R74 contient 819 transcrits traités qui ont été générés par transcription inverse d'un transcrit d'ARNm avec réintégration ultérieure de l'ADNc dans le génome, et ne sont généralement pas exprimés activement. Dans ce scénario, une lecture provenant véritablement d'un ARNm actif peut être mappée sur le transcrit traité ou mappée uniquement sur le transcrit traité, ce qui est particulièrement vrai pour les lectures de jonction. Par conséquent, la véritable expression de l'ARNm correspondant peut être sous-estimée. Un autre inconvénient de l'utilisation d'une base de données d'annotations plus importante est le calcul des valeurs p ajustées, car l'ajustement de la valeur p brute pour permettre des tests multiples est principalement déterminé par le nombre de gènes dans le modèle. Si les gènes d'intérêt sont définis de manière incohérente entre différentes annotations, il est recommandé d'analyser l'ensemble de données RNA-Seq à l'aide de différents modèles de gènes.


Quelle est la différence entre plusieurs ARNm RefSeq pour un gène ? - La biologie

Foire aux questions TargetScan (FAQ)

  1. Quelles sont les définitions des "familles de miARN conservés","familles de miARN non conservés","sites de miARNconservés" et "sites de miARN non conservés" ?
    • Pour les familles de miARN dans TargetScan 6 (humain et souris), les seuils de conservation sont comme si Friedman et al. (2009) :
      • largement conservé = conservé chez la plupart des vertébrés, généralement chez le poisson zèbre (tableau supplémentaire 1 de Friedman et al.)
      • conservé = conservé chez la plupart des mammifères, mais généralement pas au-delà des mammifères placentaires (tableaux supplémentaires 2 et 3 de Friedman et al.)
      • mal conservé = tous les autres
    • Pour les sites de miARN dans TargetScan 5 et 6 (humain et souris), la conservation du site est définie par la longueur de branche conservée, chaque type de site ayant un seuil de conservation différent :
      • 8mer >= 0.8
      • 7mer-m8 >= 1,3
      • 7mer-1A >= 1,6
    • Pour TargetScanFly 5 et 6, les familles de miARN conservées au-delà du sous-genre Sophophora sont classées comme conservées, et les sites avec des longueurs de branches d'au moins 3,16 (60% de la longueur totale des branches) sont classés comme conservés.
    • Pour TargetScanWorm 5 et 6, les familles de miARN présentes dans C. elegans et C. briggsae sont classées comme conservées, et les sites présents dans les trois espèces sont classés comme conservés.
    • Les versions antérieures de TargetScan, comme la version 4, utilisaient des définitions plus simples des familles de miARN et des sites tels que
      • hautement conservé = conservé chez l'homme, la souris, le rat, le chien et le poulet
      • conservé = conservé chez l'homme, la souris, le rat et le chien

  2. Qu'entendez-vous par « miARN représentatif », « Aggregate P CT » ou un autre terme TargetScan ?
    • Essayez de cliquer sur le terme qui, dans ces cas, apparaît sous forme d'en-têtes de tableaux sur le site Web. Ils renvoient à des fenêtres contextuelles contenant des descriptions de termes tels que miARN représentatif ou Aggregate P CT .

  3. Si un gène a plusieurs transcrits, comment puis-je savoir lequel a été utilisé pour la prédiction de la cible ?
    • For TargetScanHuman and Mouse 6, the annotated 3' UTR of each transcript of a gene was used for target prediction. The transcipt ID (NM_*) corresponding to the UTR annotation appears above the blue bar that represents the UTR in the top image on each gene-centric pages.
    • For TargetScan 5 and earlier, we selected the transcript with the longest 3' UTR, after removing any regions that overlap the coding region of another RefSeq transcript. The NM_* ID of the transcript (and its length) is shown in small text near the top of the gene page, just above the blue bar representing the gene.
    • For TargetScanWorm 5.2, we selected 3' UTRs, often more than one per gene, determined using the methods described in Jan et al., 2011.


Difference between siRNA vs miRNA:

1. The siRNA called small interfering or short interfering RNA while the miRNA is known as microRNA.

2. The siRNA is not conserved throughout the species while miRNA are highly conserved in the related organisms of species.

3. Structurally, the siRNA is a 21-23 nucleotide long RNA duplex having a dinucleotide 3’ overhang.

Whereas the miRNA is made up to 19-25 nucleotide RNA hairpin which forms duplex by binding with each other.

4. The siRNA is an exogeneous double-stranded RNA uptaken by the cell, generally, are viral RNAs, it is also encoded by heterochromatin regions and transposons.

Whereas the miRNA are endogenous single-stranded, non-coding RNA molecule, by forming a hairpin structure, it becomes duplex. The miRNAs are the non-coding RNA molecule which is encoded by some of the genes.

5. Though both are processed by the RISC, the siRNA only abort gene expression, if it finds the exact complementary sequence on mRNA.

On the other side, the miRNA binds imperfectly or at the 3’ untranslated region of the mRNA and hinder in the translation process.

6. For doing gene silencing, the siRNA required the Ago 2 protein- argonaute protein 2 whereas the miRNA required the Ago protein but not necessarily the Ago2. Any argonaute family protein can do miRNA mediated gene silencing.

Generally, in addition to ago2, several other proteins such as ago1, ago4, ago7 and ago6 are involved in the siRNA mediated gene silencing in different organisms. Contrary, a go1 and ago10 are majorly linked in the miRNA mediated gene regulation.


Difference between DNA and RNA

RNA and DNA have some similarities, but also their differences. Next we will see what the differences between DNA and RNA are.

DNA is the abbreviation for deoxyribonucleic acid . This is largely responsible for how people are viewed physically ( phenotype ) and how they act, as well as certain health conditions and traits that distinguish them. It is also responsible for storing genetic information about how and what work each cell should do.

It ‘s a molecule that encodes the genetic instructions that are used for the development and functioning of cells in living organisms and many viruses . E l DNA is one macromolecule essential for the existence of all living organisms .

The genetic information is encoded as a sequence of nucleotides : guanine , adenine , thymine , and cytosine . DNA tells to each cell what proteins have to do and also is responsible for storing long – term data .

The type of protein in a cell, is what determines the function of the same . The DNA is inherited from parents to children , so they share similar traits .

The DNA molecule has a form double helix , which resembles a staircase that is twisted into a spiral . Each rung of the ladder has a pair of nucleotides that stores the information . The DNA backbone consists of a sugar ( deoxyribose) and a phosphate group , from which the DNA gets its name .

The nucleotides are bound to the sugar in a special formation . The adenine (A ), thymine (T ), cytosine ( C) and guanine ( G) are nucleotides that always form pairs AT and GC although they can be found in any order in the DNA . The adenine and thymine pair to make two hydrogen bonds , while cytosine and guanine make three Hydrogen bonds. When the order is different it is as if the DNA write “codes” with “letters” that tell a cell ‘s duties to perform .

The ribonucleic acid ( RNA) molecule is a single chain which plays a vital role in encoding, decoding , regulation and expression of genes. S to DNA, is composed of the same nucleotides , but these are found in shorter chains .

The RNA is a molecule of single – stranded . Each nucleotide is composed of sugar ribose with carbons numbered 1 through 5. The carbon atoms are composed of four bases different : Adenine ( A), guanine (G ), cytosine ( C) and uracil (U ).

The RNA backbone is composed of ribose sugar bound with a phosphate group and bases . The bases are always formed as follows: GC and AU although they can be found in any order . Unlike DNA, the RNA is outside the nucleus of the cells and is not protected inside.

There are several types of RNA: transfer RNA ( tRNA ) , messenger RNA (mRNA ), ribosomal RNA ( rRNA ) … All of these performs different functions in the body . The RNA polymerase is responsible for decoding the genetic data of l DNA that the mRNA used then to direct how proteins act in the body . The tRNA is responsible for the delivery of amino acids to the ribosomes, where the rRNA binds the amino acids to create specific proteins . Therefore, the proteins are composed of a combination of different amino acids.

Thus RNA plays an important role in the decoding and transmission of the genetic composition found in DNA and then used to create the proteins needed by our body .


What Is Moderna Vaccine?

The Moderna COVID-19 vaccine, codenamed mRNA-1273 is one of the first few vaccine candidates to be approved for emergency use by the FDA to curb the ongoing pandemic. The preliminary results suggested an efficacy rate of 94.5% against the COVID-19 infection with no severe allergic reactions. Like the Pfizer vaccine, Moderna’s vaccine is also an mRNA-based vaccine meaning it uses messenger RNA to provide instructions for our cells to make that spike protein of the coronavirus which the body then mount an immune response against. The mRNA vaccine technology is a novel technology for vaccine development that offers several advantages over other vaccine technologies in terms of efficacy, stability and speed of development.

The company has synthesized part of the virus RNA and embedded this RNA in lipid nanoparticles. The mRNA takes messages from the virus genes to the infected host cell, instructing the cell to make specific proteins. It then tells the host cell to make the spike protein which exists in the spike the virus uses to enter a person’s cells. When injected, it instructs our cells to make antibodies against this spike protein, which in turn stops the virus from getting into our cells.


Structure de l'ADN [retour au sommet]

The three-dimensional structure of DNA was discovered in the 1950's by Watson and Crick. The main features of the structure are:

Function of DNA [retour au sommet]

DNA is the genetic material, and gènes are made of DNA. DNA therefore has two essential functions: réplication et expression.

Replication means that the DNA, with all its genes, must be copied every time a cell divides.

Expression means that the genes on DNA must control characteristics. A gene was traditionally defined as a factor that controls a particular characteristic (such as flower colour), but a much more precise definition is that a gene is a section of DNA that codes for a particular protein. Characteristics are controlled by genes through the proteins they code for, like this:

Expression can be split into two parts: transcription (making RNA) and Traduction (making proteins). These two functions are summarised in this diagram (called the central dogma of genetics).

No one knows exactly how many genes we humans have to control all our characteristics, the latest estimates are 60-80,000. The sum total of all the genes in an organism is called the génome.

The table shows the estimated number of genes in different organisms:

Saccharomyces cerevisiae

* kbp = kilo base pairs, i.e. thousands of nucleotide monomers.

Amazingly, genes only seem to comprise about 2% of the DNA in a cell. The majority of the DNA does not form genes and doesn t seem to do anything. The purpose of this junk DNA remains a mystery!


What is difference between several mRNA RefSeq for one gene? - La biologie

The problem of the "missing messenger" was solved with a combination of experiment and collective insight about the role of ribonucleic acid (RNA). The close chemical kin to DNA—the principal difference is that uracil, rather than thymine, is one of the bases—RNA was known to play at least one role in protein synthesis. RNA-containing molecules, known as ribosomes, were found in the cytoplasm of cells, and protein synthesis could not proceed without them. But it remained unclear how ribosomal RNA received specific information from DNA.


Fran ois Jacob
In this regard, experiments with E. coli bacteria, conducted at the Institut Pasteur, became the focus of intense interest in 1959. The "PaJaMo" experiments—performed by Arthur Pardee, Fran ois Jacob, and Jacques Monod—built upon research into the system of bacterial enzyme production pioneered by Jacques Monod. They involved observations of carefully controlled gene transfer during conjugation—mating between "male" and "female" bacteria.

In previous experiments, Monod had learned how to genetically manipulate the compounds that control sugar metabolism in E. coli—collectively known as the B-galactosidase system. He had first bred mutated "female" bacteria in which this system ceased to function. When normal "male" bacteria then penetrated and inserted genes into such bacteria, however, the system was immediately—within minutes—restored to normal and the bacteria could digest sugar. How such information transfer could take place so quickly suggested the existence of a specific, relatively simple molecule that was complementary to DNA.


Jacques Monod
Courtesy the Archives, California Institute of Technology
Discussions among Monod, Jacob, Crick, and Brenner led to a solution. They recalled research from the early 1950s with bacteriophages—viral parasites that invade bacteria. Experiments had shown that soon after bacteriophages insert their DNA into bacterial cells, traces of RNA rapidly appear. In addition, the composition of such RNA closely resembled the DNA of the invading bacteriophage.

With this as context, the PaJaMo experiments suggested that another type of RNA was rapidly synthesized from DNA. Comparatively short-lived, its crucial presence had been initially overlooked. But in 1960, Fran ois Jacob and Jacques Monod named this hypothetical molecule "messenger RNA" (mRNA). Its presence was subsequently confirmed by experiment.

As it was finally understood, several types of RNA represent a basic division of labor in protein synthesis. Messenger RNA (mRNA) presents information contained in DNA sequences to the ribosomes, which are structured by ribosomal RNA (rRNA). Other molecules, known as transfer RNA (tRNA), attach to specific amino acids and conduct them to the ribosomes for protein synthesis.