Informations

Existe-t-il un terme pour le contraire d'intergénique ?

Existe-t-il un terme pour le contraire d'intergénique ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je recherche un terme qui décrit les régions d'ADN qui chevauchent des gènes, c'est-à-dire des régions d'ADN non intergéniques.
Par exemple, disons que j'écris un article sur les sites de liaison à l'ADN (c'est-à-dire les séquences d'ADN auxquelles les protéines se lient), mais mon article se concentre exclusivement sur les sites de liaison à l'ADN qui chevauchent des gènes. Quel serait mon titre ? "Les sites de liaison à l'ADN non intergéniques sont [… ]" est une option, mais je me demande s'il existe un terme plus approprié.

Si je comprends bien, "Gene-overlapping" semble être utilisé pour désigner des gènes qui chevauchent d'autres gènes (https://en.wikipedia.org/wiki/Overlapping_gene).
De plus, Google dit que "génique" signifie "relatif aux gènes".

L'une de mes idées est-elle appropriée? Ou peut-être un autre terme ?


Pour clarifier ce que j'entends par intergénique et non intergénique, voici la figure de https://en.wikipedia.org/wiki/Intergenic_region. J'ai ajouté un exemple pour une région d'ADN non intergénique.

Explicitement, une région d'ADN intergénique est une région d'ADN qui ne partage aucune base avec aucun gène. Une région d'ADN non intergénique est une région d'ADN qui partage au moins une base avec un gène.


Il me semble que « génique » est un très bon mot.

Cet article utilise directement « génique » par opposition à « intergénique », ce qui semble être un précédent raisonnable :

L'« ADN non codant » peut être trouvé à la fois dans les gènes environnants et dans les gènes (voir la figure schématique 1). Nous appellerons le premier type « intergénique », et le second type « génique », un « gène » faisant ici référence à une séquence d'ADN transcrite.


ARN long non codant

ARN longs non codants (longs ARNnc, lncRNA) sont un type d'ARN, défini comme étant des transcrits d'une longueur supérieure à 200 nucléotides qui ne sont pas traduits en protéine. [2] Cette limite quelque peu arbitraire distingue les ARNnc longs des petits ARN non codants tels que les microARN (miARN), les petits ARN interférents (siARN), les ARN interagissant avec Piwi (piARN), les petits ARN nucléolaires (snoARN) et d'autres ARN courts. [3] Les ARN non codants intergéniques longs (lincRNAs) sont des séquences de lncRNA qui ne chevauchent pas les gènes codant pour les protéines. [4]


Fond

Des études estiment que jusqu'à 85 % du génome humain est transcrit de manière omniprésente par l'ARN polymérase II (Pol II), ce qui entraîne une pléthore de produits d'ARN [1,2,3,4]. Beaucoup de ces transcrits appartiennent à des catégories bien établies, telles que les ARN messagers (ARNm) qui se caractérisent par la présence d'une coiffe 5', d'une séquence codante (CDS) et d'une queue poly(A). D'autres transcrits sont classés comme de longs ARN non codants (lncRNAs), généralement définis comme des molécules d'ARN de plus de 200 nt avec un faible potentiel de codage. Actuellement, les lncRNA sont divisés en trois groupes principaux en fonction de leur localisation génomique par rapport aux gènes codant pour les protéines : les transcrits en amont du promoteur (PROMPT), produits jusqu'à 2,5 kb en amont des sites actifs de démarrage de la transcription (TSS) [5] les ARN activateurs (eRNA) , transcrits bidirectionnellement à partir d'éléments d'ADN amplificateurs [6, 7] et de grands ARN non codants intermédiaires (lincRNAs), situés dans des régions intergéniques, éloignées des gènes codant pour les protéines, et régulés en tant qu'unités transcriptionnelles indépendantes [8]. Les annotations des gènes et des transcrits du génome humain sont continuellement mises à jour et leur affectation à des catégories de biotypes spécifiques peut changer d'une base de données à l'autre [9]. En particulier, au cours de la dernière décennie, des efforts ont été déployés pour identifier et caractériser de nouveaux gènes lncRNA, soit par le biais de prédictions informatiques, soit par des tests fonctionnels [10, 11]. Malgré de tels efforts, une proportion marquée de lectures d'ARN-seq à partir de cellules humaines correspond toujours à des parties non annotées et ostensiblement intergéniques du génome humain [12]. Il est donc souvent difficile de comprendre si de telles lectures proviennent d'unités de transcription indépendantes ou sont associées à des gènes annotés.

De nombreux lncRNAs bien caractérisés, tels que le transcrit spécifique de X-inactif Xist [13], partagent des caractéristiques de traitement (par exemple, une coiffe de 5 m 7 G et une queue poly(A)) avec des ARNm [8] et ont des fonctions spécifiques validées expérimentalement. Cependant, la majorité des loci des gènes lncRNA pourraient ne pas fonctionner par leurs produits résultants, mais plutôt par l'acte de transcription lui-même, ce qui, par exemple, peut affecter l'expression des gènes voisins [14,15,16]. À l'appui de ce point de vue, des études ont mis en évidence comment les gènes d'ARNnc sont associés à une terminaison transcriptionnelle précoce de Pol II et leurs produits subissent une dégradation post-transcriptionnelle rapide [3, 17, 18, 19, 20], expliquant ainsi leur faible abondance nucléaire. De plus, des études récentes indiquent un scénario possible dans lequel les transcrits naissants des gènes codant pour les protéines jouent un rôle similaire en régulant le remodelage de la chromatine [21]. Par exemple, la liaison du complexe répressif Polycomb 2 (PRC2) à des cibles génomiques a été initialement attribuée à un ensemble spécifique d'ARNnc [22,23,24,25]. Cependant, il a été montré plus tard que PRC2 se lie également aux ARNm naissants non épissés, qui séquestrent le complexe, empêchant ainsi l'extinction des gènes [26,27,28,29].

En plus des ARNm et des lncARN décrits ci-dessus, en aval des transcrits géniques (DoG) se produit lorsque Pol II se termine loin en aval des extrémités des gènes [30]. Ces transcrits de lecture semblent être liés à des conditions de stress, telles que le stress osmotique et oxydatif [30, 31]. Il reste difficile de savoir si la transcription des DoG a une fonction de régulation génique, mais les rôles possibles vont du contrôle de l'expression génique à médiation antisens [32] au maintien de la structure ouverte locale de la chromatine. De plus, leur réglementation reste largement méconnue. Néanmoins, l'existence de DoGs augmente la complexité de l'annotation du transcriptome, posant des défis supplémentaires à la compréhension de la fonction et de la régulation des transcrits intergéniques.

Dans une étude récente [33], nous avons effectué l'ARN-seq des compartiments nucléaire et cytoplasmique de cellules HeLa non traitées et avons constaté qu'une fraction étonnamment importante (7,63 %) d'ARN-seq nucléaire était dérivée de régions génomiques intergéniques. Étant donné que la majorité de ces lectures (60,3 %) n'ont pas pu être détectées dans les échantillons cytoplasmiques, nous cherchons ici à étudier leur origine transcriptionnelle. Nous avons développé une méthode informatique pour identifier et classer les sources de transcription intergénique. Nous étudions leurs caractéristiques, leurs modes d'expression et leur environnement épigénétique. Plus précisément, nous observons que la plus grande fraction d'ARN intergénique correspond aux DoG, en amont des transcrits géniques (UoG), qui résultent probablement de TSS alternatifs en amont des gènes annotés, et du lieur de gènes (LoG), qui sont des DoG qui continuent dans le voisin corps de gène. Nous constatons que la plupart des ARN intergéniques sont générés lors de la transcription associée à des gènes annotés et sont confinés à la chromatine en raison de la dégradation efficace des DoG et LoG par XRN2 et des UoG par l'exosome. La plupart des ARN intergéniques restants correspondent à des lncRNA mal épissés qui sont dégradés par l'exosome. Nous concluons que la plupart des ARN intergéniques non annotés sont la conséquence d'une transcription non productive associée à des gènes connus, et exercent leurs fonctions potentielles localement, avant d'être rapidement éliminés par des mécanismes de contrôle de qualité cellulaire.


Résultats

Stratégie de co-expression pour l'annotation lncRNA

Nous avons émis l'hypothèse qu'une stratégie de co-expression basée sur une combinaison des caractéristiques suivantes générerait probablement les réseaux de régulation les plus précis des lncRNA (Fig. 1). Tout d'abord, nous avons choisi une plate-forme de séquençage de molécule unique (SMS) de séquençage de nouvelle génération (NGS) de 3e génération comme base pour l'estimation de l'expression de chaque espèce d'ARNlnc et d'ARNm. Cette plate-forme de séquençage a une procédure de préparation de bibliothèque relativement simple qui n'implique pas d'étapes d'amplification [24] et représente donc plus probablement de véritables abondances originales de diverses espèces d'ARN, en particulier dans la plage de faible abondance [25, 26]. La précision dans cette plage est particulièrement pertinente pour les lncRNA qui ont tendance à avoir de faibles niveaux d'expression en général [3, 27]. Par conséquent, SMS pourrait, en théorie, fournir une estimation plus précise de la co-expression entre les ARNnc et leurs ARNm cibles potentiels. Deuxièmement, nous avons utilisé un seul type de cellule pour générer les réseaux de co-expression. Alors que de nombreux ensembles de données d'expression accessibles au public sont disponibles, leur utilisation dans l'annotation de co-expression des lncRNAs souffre d'un problème potentiel majeur : les lncRNAs sont souvent exprimés dans un ou plusieurs types de cellules [3, 27]. Par conséquent, une analyse de co-expression sur plusieurs types de cellules inclurait probablement de nombreux échantillons dans lesquels un lncRNA donné n'est pas exprimé ou exprimé à des niveaux de bruit et diluerait donc gravement les signaux de corrélation réels. Troisièmement, nous avons utilisé des délais courts de traitements perturbant le transcriptome (voir ci-dessous). Nous avons supposé qu'une analyse de co-expression basée sur les niveaux d'ARN mesurés peu de temps après que le système est perturbé et forcé de s'adapter en modifiant les niveaux de divers transcrits capturerait plus probablement des interactions régulatrices directes par opposition à des traitements plus longs qui pourraient être dilués avec des effets indirects.

Nous avons précédemment trouvé l'expression de nombreux vlincRNAs dans une lignée cellulaire de leucémie humaine K562 [18]. Ce fait, ainsi que la disponibilité de plusieurs types de données génomiques pour cette lignée cellulaire du consortium ENCODE [3], ont fait du K562 un système attrayant pour cette étude. La première étape de notre pipeline consistait à générer une base de données d'expression dans plusieurs conditions de traitement pour calculer la co-expression de chaque vlincRNA avec tous les ARNm codant pour les protéines. Nous avons profilé les transcriptomes de la lignée cellulaire K562 après des traitements avec 29 inhibiteurs et médicaments anticancéreux affectant diverses voies et fonctions cellulaires (voies de signalisation, cycle cellulaire, métabolisme et réparation de l'ADN, modificateurs de la chromatine, etc.) (Fichier supplémentaire 1 : Tableau supplémentaire S1) . Comme mentionné ci-dessus, nous avons utilisé des traitements relativement courts de 3 et 6 h pour chaque médicament.

L'ARN total traité à la DNaseI de chaque échantillon a été converti en ADNc à l'aide d'hexamères non aléatoires (NSR) dépourvus de séquences qui se lient aux ARNr [28] et analysés à l'aide de RNA-seq réalisé sur la plate-forme SMS. Pour estimer le degré de perturbation du transcriptome par chaque médicament, nous avons estimé le nombre de transcrits différentiellement exprimés (DE) régulés à la hausse ou à la baisse - à la fois les ARNm codant pour les protéines et les vlincRNA - définis par le changement de pli (FC) > 1,5 dans les deux points dans le temps par rapport au solvant (DMSO ou eau) contrôles pour les deux 12 995 gènes annotés exprimés dans les ARNv K562 et 407 détectés précédemment dans cette lignée cellulaire [18] (Fig. 2a–c, fichier supplémentaire 1 : tableau supplémentaire S2). Dans l'ensemble, l'expression de 10 248 (78,9 %) des gènes codant pour les protéines a changé dans ces conditions dans au moins un traitement médicamenteux avec 7 229 gènes régulés à la hausse et 6 698 gènes régulés à la baisse (Fig. 2a, fichier supplémentaire 1 : tableau supplémentaire S2). Les nombres correspondants pour les vlincRNA étaient de 392 (96,3 %) avec 176 régulés à la hausse et 374 à la baisse (Fig. 2a, fichier supplémentaire 1 : tableau supplémentaire S2). Pour tout traitement médicamenteux donné, nous avons détecté 1 190 (9,2 %) et 623 (4,8 %) gènes régulés à la hausse ou à la baisse et, de manière correspondante, 11 (2,7 %) et 79 (19,4 %) vlincRNA sur la base des valeurs médianes correspondantes pour tous les traitements (Fig. 2a). Dans l'ensemble, les vlincRNA avaient tendance à être régulés à la baisse par rapport aux gènes connus en réponse aux traitements médicamenteux, suggérant une corrélation négative potentielle entre ces deux types de transcrits (Fig. 2a, voir également ci-dessous).

Analyses d'expression et de co-expression par SMS pour divers traitements médicamenteux. une Distributions des nombres d'ARNm DE (à gauche) et d'ARNvlinc (à droite). Les cercles intérieurs jaunes représentent les ARNm ou les vlincRNA exprimés dans K562 les sections centrales orange et verte représentent respectivement les transcrits régulés à la hausse ou à la baisse dans au moins un traitement médicamenteux les sections extérieures orange et verte représentent respectivement les transcrits régulés à la hausse ou à la baisse dans tous les traitements médicamenteux. b, c Nombre d'ARNvlinc DE (b) et les ARNm (c) pour chaque traitement indiqué. Les barres bleues et oranges représentent respectivement les transcrits régulés à la hausse et à la baisse. Fractions d'ARNvlinc DE validées par qPCR dans chaque traitement indiqué. e Boîtes à moustaches représentant les nombres de gènes trouvés dans les réseaux vlincRNA basés sur la co-expression négative et positive

Les médicaments variaient considérablement en ce qui concerne l'effet sur les transcriptomes codants et non codants (Fig. 2b, c, fichier supplémentaire 1 : tableau supplémentaire S2). Parmi les trois principaux médicaments qui ont présenté le plus grand effet de régulation à la hausse sur les vlincRNAs—mirin (inhibiteur de MRE11, un composant du complexe MRN), BML-277 (inhibiteur de CHK2) et YM-155 (intercalateur d'ADN possible) (Fig. 2b, Fichier supplémentaire 1 : Tableau supplémentaire S2) - au moins deux sont connus pour inhiber la détection des dommages à l'ADN ou les voies de réponse (mirin et BML-277). Les médicaments liés aux dommages à l'ADN ont également provoqué des changements importants dans le transcriptome codant pour les protéines (Fig. 2c, fichier supplémentaire 1 : tableau supplémentaire S2). Pourtant, la fraction de vlincRNAs régulée à la hausse en réponse aux traitements mirin et BML-277 était plus élevée que celle des ARNm codant pour les protéines (Fichier supplémentaire 1 : Tableau supplémentaire S2). De plus, les médicaments qui ont induit les fractions les plus élevées d'expression des gènes codant pour les protéines affectent les fonctions épigénétiques, tels que les modificateurs de la chromatine (panobinostat et EPZ-6438, inhibant respectivement les histone désacétylases et Ezh2) ou les lecteurs de marques d'histone spécifiques (inhibiteur de bromodomaine I-BET151) et fonctions non liées aux dommages à l'ADN (Fig. 2c, fichier supplémentaire 1 : tableau supplémentaire S2). En tant que tel, il semble que la sous-classe vlincRNA des lncRNA pourrait être enrichie en transcrits qui participent à au moins certains processus cellulaires liés aux dommages à l'ADN.

Pour valider la reproductibilité et l'authenticité de notre analyse d'expression, nous avons effectué des expériences de traitement indépendantes avec trois médicaments (mirin, étoposide et SN-38) et analysé les changements d'expression de vlincRNAs sélectionnés en réponse à ces médicaments après 6 h de traitements en utilisant de vrais -temps PCR. Nous avons sélectionné 42 vlincRNAs différentiellement exprimés (DE) et, comme prévu, la plupart (36, 85,7%) des vlincRNAs DE ont pu être validés (Fig. 2d, fichier supplémentaire 1 : tableau supplémentaire S3). De plus, sur les 6 vlincRNAs qui n'ont pas pu être validés dans les expériences de PCR en temps réel, 4 (66,7%) ont montré la direction attendue du changement bien que n'atteignant pas le FC de 1,5. En tant que telle, l'analyse DE basée sur la plate-forme SMS RNA-seq semble capturer des changements d'expression authentiques et reproductibles.

Nous avons ensuite généré une liste d'ARNm co-exprimés avec chaque vlincRNA. La co-expression a été définie comme une corrélation de Spearman de > 0,35 ou < -0,35 entre un vlincRNA et un ARNm codant pour une protéine avec la signification de la corrélation p valeur < 0.01 (Fig. 1) calculée sur 64 échantillons (traitements médicamenteux et échantillons témoins traités au solvant). Pour chaque vlincRNA, nous avons trouvé entre 134 et 5385 (médiane 1615) transcrits co-exprimés en utilisant ces seuils. Fait intéressant, nous avons observé un nombre beaucoup plus élevé d'ARNm corrélés négativement que d'ARNm corrélés positivement avec des médianes de 430 et 1 022 pour les transcrits co-exprimés respectivement positivement et négativement, et la tendance vers une corrélation négative était hautement significative (p valeur < 2.2E−16, test de rang signé de Wilcoxon) (Fig. 2e, Fichier supplémentaire 1 : Tableau supplémentaire S4). Néanmoins, à l'instar des résultats rapportés précédemment [29], les gènes en corrélation positive avec les vlincRNAs ont été enrichis à proximité immédiate de ces transcrits. Les corrélations médianes de co-expression entre les vlincRNA et les gènes situés à moins de 5 kb, 5-10 kb, 10-100 kb et > 100 kb les uns des autres étaient respectivement de 0,44, 0,37, -0,38 et -0,38.

Validation des réseaux de co-expression à l'aide de profils d'interaction lncRNA-chromatine

Une limitation potentielle majeure de la stratégie de co-expression est que la corrélation d'expression (positive ou négative) peut se produire sans interactions physiques ou fonctionnelles directes entre les entités corrélées. Étant donné qu'un certain nombre d'ARNnc caractérisés fonctionnellement semblent réguler d'autres gènes en interagissant et en modulant leur environnement de chromatine [4, 5], nous avons supposé que les ARNvlinc pouvaient également fonctionner de la même manière, comme cela a été en fait montré pour le VAD vlincRNA [19]. Par conséquent, nous avons validé les réseaux de co-expression obtenus dans cette étude en cartographiant les sites d'interactions ARN-chromatine à l'échelle du génome de vlincRNA sélectionnés avec l'hypothèse clé sous-jacente que les vlincRNA devraient soit interagir, soit être relativement proches de leurs gènes cibles ( Fig. 1).

À cette fin, nous avons adapté l'approche RAT (reverse transcription-associated trap) précédemment publiée [30, 31] qui présente deux avantages clés pour les très longs transcrits étudiés dans ce travail (Fig. 3a). Premièrement, RAT repose sur une transcription inverse in situ à l'intérieur de noyaux réticulés avec des oligonucléotides complémentaires d'un ARN d'intérêt et en présence de dCTP biotinylé pour marquer les complexes ARN-chromatine. Après l'immunoprécipitation de streptavidine, les régions de chromatine liées sont identifiées sur la base d'une analyse NGS (Fig. 3a). L'incorporation de biotine dans l'ADNc résultant évite la nécessité de concevoir plusieurs oligonucléotides biotinylés étroitement espacés comme dans d'autres techniques (par exemple, ChIRP et méthodes similaires) conçues pour cartographier les sites d'interactions entre un lncRNA spécifique et la chromatine [32,33,34], ce qui serait économiquement prohibitif pour ces très longues transcriptions. Deuxièmement, la fragmentation de la chromatine est réalisée avec des enzymes de restriction (Fig. 3a, b) qui ne fragmentent pas l'ARN ou l'ADN simple brin contrairement aux autres approches utilisant la sonication [32,33,34] qui briseraient probablement ces très longs transcrits.

Description et validation du test RAT. une L'organigramme de la partie biologique moléculaire du test RAT. L'ovale bleu clair représente une région du noyau à proximité relative d'un vlincRNA qui serait co-purifié avec le vlincRNA par le test RAT. Les lignes vertes et noires représentent des molécules d'ADN qui sont respectivement et ne sont pas situées à proximité relative du vlincRNA. Les lignes rouges et violettes représentent des oligonucléotides spécifiques de l'ensemble 1 et 2 ciblant chaque vlincRNA (lignes courtes) et les ADNc amorcés par ces oligonucléotides (lignes longues). b Un exemple des distributions de taille d'ADN obtenues après fragmentation de la chromatine dans une expérience RAT typique pour les échantillons traités au DMSO ou au médicament (étoposide ou SN-38). Les tests effectués avec soit l'ensemble d'oligonucléotides 1 ("P1"), 2 ("P2"), soit le contrôle sans oligonucléotide ("NP") pour le vlincRNA ID-1202. c Distributions de taille des particules obtenues dans une expérience de tri dans le tampon (panneau du milieu) et le tampon contenant la chromatine fragmentée en utilisant les conditions utilisées dans une expérience RAT typique (panneau du bas).La distribution des particules avec des tailles connues de 100, 200 et 300 nm est montrée dans le panneau supérieur. Notez l'augmentation de la fraction des particules dans la gamme 300-500 nm dans l'échantillon de chromatine fragmentée vs le tampon de tri (7,06 % vs 2,85 %). L'organigramme de la partie analytique du test RAT. e En haut : définition de l'odds ratio et représentation de l'hypothèse testée dans la partie ci-dessous. En bas : boîtes à moustaches des rapports de cotes des chevauchements entre les deux répliques biologiques du test RAT au niveau du gène (à gauche) et de la région (à droite) à différents seuils de signal RAT (X-axes)

Récemment, un certain nombre de méthodes pour détecter les interactions ARN-chromatine à l'échelle du génome ont été développées. Cependant, une caractéristique commune de ces méthodes (telles que GRID-seq [35], MARGI [36] et Red-C [37]) était la ligature de molécules d'ADN et d'ARN à proximité à l'aide d'oligonucléotides de pontage. Ces derniers étaient de l'ordre de

40 à 60 bases et pouvait ainsi détecter des molécules séparées de pas plus de 20 nm, la longueur d'un nucléotide étant de 0,34 nm. Cependant, dans nos tests RAT, la taille des particules de chromatine après fragmentation de l'ADN a atteint 300 à 500 nm (Fig. 3c, Méthodes). Étant donné que toutes les régions génomiques devraient être situées dans de telles particules et devraient être co-précipitées avec le transcrit cible (Fig. 3a), cela signifierait que RAT ne se limite pas aux interactions immédiates, mais peut plutôt mesurer une proximité ou une colocalisation beaucoup plus distale. entre les régions de l'ARN et de la chromatine.

Étant donné que les médicaments induisant des dommages à l'ADN ont eu l'effet le plus important sur l'expression des vlincRNAs, nous avons choisi 6 vlincRNAs induits par les inhibiteurs de la topoisomérase (étoposide et/ou SN-38) pour l'analyse RAT avec un exemple d'un tel vlincRNA montré dans le fichier supplémentaire 2 : Figure supplémentaire S1. La procédure RAT a été réalisée sur des cellules traitées avec de l'étoposide, du SN-38 ou du DMSO. Dans l'ensemble, l'analyse RAT a été réalisée sur 14 combinaisons vlincRNA-traitement avec deux répliques biologiques par combinaison dans le but d'analyser le changement potentiel dans les réseaux en réponse au traitement médicamenteux. Chaque test RAT a été réalisé séparément avec 2 ensembles d'oligonucléotides non chevauchants conçus contre le même vlincRNA (Fig. 3a, Méthodes). De plus, pour chaque traitement, la procédure RAT a également été réalisée sans les oligonucléotides comme contrôle de spécificité. L'analyse en aval a été réalisée à l'aide de deux niveaux de signal RAT traité : (1) score RAT normalisé moyen calculé pour chaque paire de bases dans le génome humain ou (2) niveau de région génomique obtenu après application de seuils de stringence différente au score RAT normalisé moyen ( Fig. 3d, Méthodes). Les seuils ont été définis en fonction du premier centile (le plus strict), 5, 10, 20 ou 30 (le moins strict) (%-ile) du score RAT normalisé moyen pour chaque échantillon (Fig. 3d, Méthodes). Les gènes contenant les régions RAT dans leurs limites ont été considérés comme co-localisés avec le vlincRNA correspondant.

En tant que première étape de l'évaluation des performances de l'approche RAT, nous avons estimé le chevauchement entre les régions RAT obtenues à partir des répliques biologiques au niveau des régions ou des gènes. Dans le premier cas, les coordonnées génomiques exactes des régions d'interaction devaient être présentes dans les deux répliques, tandis que dans les dernières, les gènes devaient contenir des régions d'interaction n'importe où dans leurs limites dans les deux répliques, mais les coordonnées des régions d'interaction pouvaient être différentes. Dans l'ensemble, nous avons trouvé un chevauchement statistiquement significatif du signal RAT entre les répliques pour chaque combinaison vlincRNA-traitement aux deux niveaux (Fig. 3e, fichier supplémentaire 1 : tableau supplémentaire S5). De plus, les chevauchements du signal RAT entre les deux répliques étaient statistiquement significatifs à plusieurs seuils. Cependant, comme on pouvait s'y attendre, les forces des chevauchements, telles que mesurées par les rapports de cotes (définis sur la figure 3e) augmentaient avec la rigueur du Seuil de signal RAT (Fig. 3e, Fichier supplémentaire 1 : Tableau supplémentaire S5, Méthodes). En général, les rapports de cotes des chevauchements au niveau des gènes entre les deux répliques étaient systématiquement plus élevés (Fichier supplémentaire 1 : Tableau supplémentaire S5). Par conséquent, sauf indication contraire, toutes les analyses ci-dessous ont été effectuées sur des gènes contenant les régions d'interaction vlincRNA-chromatine n'importe où dans leurs limites dans les deux répliques (méthodes).

Pour évaluer la relation entre la co-expression et la proximité relative dans le noyau entre les vlincRNA et les gènes co-exprimés, pour chaque vlincRNA, nous avons mesuré le score RAT agrégé normalisé moyen (ANARS) dans les limites des gènes de contrôle co-exprimés et de fond correspondants. et dans leurs régions flanquantes de 5 kb (Fichier supplémentaire 3 : Figure supplémentaire S2, Méthodes). Comme le montre la figure 4a pour un vlincRNA (ID-1132), les gènes co-exprimés négativement et positivement avaient tendance à avoir des ANARS plus élevés dans les corps des gènes et leurs régions flanquantes que les gènes de fond. Pour formaliser cette observation, nous avons généré des parcelles de fonction de distribution cumulative empirique (ECDF) représentant la distribution des ANARS classés pour les gènes co-exprimés et de fond (Fig. 4b, fichier supplémentaire 4 : figure supplémentaire S3, méthodes). L'ANARS des gènes co-exprimés était systématiquement plus élevé pour les gènes co-exprimés négatifs et positifs que les gènes de fond, dans les corps des gènes et dans les régions flanquantes, pour la plupart des conditions de traitement par vlincRNA, comme le montre la figure 4b pour vlincRNA ID- 1132 et dans le fichier supplémentaire 4 : Figure supplémentaire S3 pour tous les autres vlincRNA.

Modèles et signification statistique de l'enrichissement du signal RAT dans les gènes co-exprimés. une Graphiques montrant ANARS pour les corps des gènes et les régions flanquantes de ± 5 kb pour tous les gènes co-exprimés avec vlincRNA ID-1132 et les gènes de fond. Les tailles des régions géniques ont été réduites à 5 kb. L'ANARS montré dans cet exemple a été calculé sur la base du test RAT effectué dans les cellules traitées au DMSO. L'ANARS pour les gènes de fond positif, négatif et témoin est représenté respectivement par des points rouges, bleus et oranges. b Graphiques ECDF pour les données présentées dans une. Notez le décalage vers la droite des parcelles correspondant aux gènes co-exprimés signifiant une augmentation du signal par rapport aux gènes de fond. Les 30 % supérieurs des données utilisées pour l'analyse de signification statistique sont délimités par des cases. c Résumé de la distribution de la signification statistique de l'enrichissement des ANARS dans les gènes co-exprimés vs les gènes de fond (en haut) et cis vs tous les gènes (en bas). Graphiques montrant ANARS pour les corps des gènes et les régions flanquantes de ± 5 kb pour les gènes co-exprimés avec vlincRNA ID-1132 (et situés sur le même chromosome (cis, points rouges) et tous les gènes co-exprimés (points bleus). Les tailles des régions géniques ont été réduites à 5 kb. e Boîtes à moustaches des données présentées dans pour les postes avec ANARS non nul

Pour tester si la différence est significative, nous avons calculé p valeurs de l'enrichissement du signal RAT normalisé dans les gènes co-exprimés par rapport aux gènes témoins de fond. L'analyse statistique a été effectuée sur les 30 % supérieurs des valeurs ANARS classées pour les gènes co-exprimés et de fond, comme illustré par les régions des graphiques ECDF délimitées par les cases sur la figure 4b (Méthodes). L'actuel p les valeurs sont données dans le fichier supplémentaire 1 : tableau supplémentaire S6, et les résultats de l'analyse sont résumés dans la figure 4c (corps des gènes) et le fichier supplémentaire 5 : figure supplémentaire S4 (corps des gènes et régions flanquantes). Fait intéressant, l'enrichissement de l'ANARS dans les gènes co-exprimés positivement et négativement par rapport aux gènes de fond était statistiquement significatif pour la plupart des combinaisons (12/14) de vlincRNA-traitement (Fig. 4c, fichier supplémentaire 5 : figure supplémentaire S4). En outre, l'enrichissement était statistiquement significatif dans les 14 combinaisons pour les deux types de gènes co-exprimés positivement ou négativement (Fig. 4c, fichier supplémentaire 5 : figure supplémentaire S4).

La plupart des gènes co-exprimés étaient situés sur des chromosomes autres que celui hébergeant les vlincRNA correspondants (trans). Cependant, fait intéressant, l'ANARS pour le cis les gènes co-exprimés (situés sur le même chromosome que le vlincRNA) avaient tendance à être plus élevés que ceux de tous les gènes co-exprimés, comme indiqué sur la figure 4d, e pour le vlincRNA ID-1132 et dans le fichier supplémentaire 6 : figure supplémentaire S5 pour tous les autres vlincRNA. Nous avons ensuite estimé la signification statistique de l'enrichissement de l'ANARS dans le cis gènes par rapport à tous les gènes (Fig. 4c, fichier supplémentaire 5 : figure supplémentaire S4, fichier supplémentaire 1 : tableau supplémentaire S6). L'enrichissement était statistiquement significatif parmi tous les échantillons pour les gènes co-exprimés positivement et pour la majorité (9/14) des échantillons pour les gènes co-exprimés négativement (Fig. 4c, fichier supplémentaire 5 : figure supplémentaire S4, fichier supplémentaire 6 : supplémentaire Figure S5, Fichier supplémentaire 1 : Tableau supplémentaire S6). Pris ensemble, ces résultats ont fourni un support solide que les gènes co-exprimés ont été enrichis à l'aide de la procédure RAT et étaient donc situés à proximité des vlincRNA correspondants dans le noyau. Cependant, les gènes co-exprimés positivement et ceux situés sur le même chromosome avaient un signal systématiquement plus élevé que les gènes co-exprimés négativement et ceux situés sur d'autres chromosomes (voir la section « Discussion »).

Nous avons ensuite estimé le chevauchement entre l'ensemble de données de co-expression et les gènes contenant des régions RAT pour chaque vlincRNA et avons fait les deux observations suivantes. Premièrement, la signification du chevauchement dépendait des niveaux d'expression. Plus précisément, les gènes peu abondants avaient une probabilité beaucoup plus élevée d'avoir un chevauchement significatif entre les gènes co-exprimés positivement et les gènes montrant des preuves de colocalisation par rapport aux gènes très abondants (Fig. 5a, b, fichier supplémentaire 1 : tableau supplémentaire S7 ). Cependant, la tendance s'est inversée pour les gènes en corrélation négative avec les vlincRNA (Fig. 5a, b, fichier supplémentaire 1 : tableau supplémentaire S7). Nous avons observé cette tendance pour chaque vlincRNA et chaque traitement (Fichier supplémentaire 1 : Tableau supplémentaire S7). Par conséquent, pour augmenter le rapport signal sur bruit, nous avons d'abord trié les gènes par expression maximale parmi tous les échantillons, puis filtré les gènes co-exprimés négativement en étant dans la moitié supérieure des gènes exprimés et les gènes co-exprimés positivement en étant dans la partie inférieure demi. Deuxièmement, la force du chevauchement augmentait avec la rigueur du seuil du signal RAT, tel que jugé par les rapports de cotes croissants, comme illustré sur la figure 5c (Fichier supplémentaire 1 : Tableau supplémentaire S8). Ce résultat a indiqué que les seuils de signal RAT étaient en effet informatifs dans l'enrichissement des vlincRNA co-localisés et de leurs cibles régulatrices.

Validation des réseaux dérivés de la co-expression à l'aide du test RAT. une, b Boîte à moustaches des rapports impairs (une) et p valeurs (b) de chevauchement entre les réseaux de co-expression et les ensembles de données d'interaction de la chromatine après stratification des gènes dans les moitiés supérieure et inférieure en fonction de l'expression. c En haut : définition de l'odds ratio et représentation de l'hypothèse testée dans la partie ci-dessous. En bas : boîtes à moustaches des rapports de cotes des chevauchements entre les réseaux de co-expression et les gènes contenant des régions RAT aux niveaux du gène (gauche) et de la région (droite) à différents seuils de signal RAT (X-axes). Un diagramme illustrant la sélection des seuils de signal RAT finaux pour chacune des 14 combinaisons vlincRNA-traitement sur la base du meilleur chevauchement avec les gènes co-exprimés. e, F Chevauchement entre les réseaux de co-expression et les gènes contenant des signaux RAT aux seuils de signal RAT finaux pour les plateformes SMS et Illumina. Rapports de cotes (e) et p valeurs (F) sont indiqués

À l'étape suivante, nous avons choisi de choisir un seuil de signal RAT unique individuellement pour chacune des 14 combinaisons de traitement vlincRNA en fonction du meilleur chevauchement avec les gènes co-exprimés, comme illustré sur la figure 5d (Méthodes). En utilisant ces critères, nous avons constaté qu'un vlincRNA peut être aux alentours de 20-2030 (médiane 1104) et 47-239 (médiane 123) gènes co-exprimés négativement et positivement de manière correspondante. Les rapports de cotes et les p les valeurs de chevauchement entre les cartes finales d'interaction de la chromatine et les gènes co-exprimés négativement variaient respectivement de 1,07 à 2,4 (médiane 1,23) et de 1,16E−81 à 7,82E−2 (médiane 9,36E−48) (Fig. 5e, f, boxplots marqués « SMS » et fichier supplémentaire 1 : tableau supplémentaire S9). Les valeurs correspondantes pour les gènes co-exprimés positivement étaient de 1,14 à 2,38 (médiane 1,33) et de 7,83E−15 à 3,89E−2 (médiane 3,91E−9) (Fig. 5e, f, boxplots marqués « SMS » et fichier supplémentaire 1 : Tableau supplémentaire S10). Le résultat important de cette analyse était que la majorité des gènes co-exprimés avec un vlincRNA (74,2 % de transcrits corrélés positifs ou 81,7 % négatifs) présentaient des preuves de co-localisation avec ce vlincRNA.

Les VlincRNA régulent directement l'expression des gènes dans leurs réseaux de régulation

Comme étape suivante, pour fournir un soutien direct à l'effet régulateur des vlincRNAs, nous avons évalué les effets du knockdown direct de 2 vlincRNAs obtenu à l'aide du système CRISPR/Cas13 [23] sur l'expression des gènes dans leurs réseaux régulateurs (Fig. 1). Nous avons profité de la lignée cellulaire K562 exprimant la doxycycline (Dox) Cas13 inductible que nous avons précédemment utilisée pour montrer la pertinence biologique des vlincRNA dans un criblage à haut débit [22]. Dans cette étude, une population mixte de cellules, chaque cellule exprimant de manière stable l'un des 588 ARNg individuels a été soumise à un défi de survie avec différents médicaments anticancéreux [22]. Ici, nous avons généré 8 lignées cellulaires stables exprimant des ARNg individuels qui rendent les cellules sensibles au stress génotoxique dans ce criblage à haut débit et ciblant 2 vlincRNA [22]. Pour chaque vlincRNA, nous avons généré 4 lignées cellulaires stables exprimant constitutivement 2 ARNg de ciblage différents et 2 ARNg de contrôle de mésappariement apparentés contenant des mutations dans les bases 12 à 14 de l'ARNg 28-mer comme précédemment rapporté [22]. Ces mutations abrogeraient l'activité de l'ARNg [23]. Pour éviter les effets clonaux, chaque lignée cellulaire était représentée par une population mixte de cellules avec différents sites d'insertion de lentivirus.

Chacune des 8 lignées cellulaires a été traitée avec Dox pendant 0, 3 ou 6 jours, et la population d'ARN de chaque échantillon a été soumise à une analyse RNA-seq. Dans l'ensemble, nous avons observé une précipitation cohérente dans 3 ARNg sur 4 avec un épuisement moyen de 20,4 % par rapport au jour 0 et les ARNg de contrôle non ciblés sur la base de l'analyse ARN-seq (méthodes, fichier supplémentaire 1 : tableau supplémentaire S10). Si l'épuisement d'un vlincRNA a un effet sur les gènes qu'il régule, alors les niveaux d'ARN des gènes corrélés négativement devraient augmenter tandis que ceux des gènes corrélés positivement, diminuer (Fig. 6a). Ainsi, les changements de pli du premier en réponse au knockdown du vlincRNA seraient plus élevés que celui du dernier. Inversement, si un vlincRNA n'a aucun effet sur les gènes qu'il régule, il ne devrait y avoir aucune différence dans les changements d'expression relatifs entre les gènes en corrélation négative et positive avec lui. Pour déterminer si la différence existe, le facteur de changement de chaque gène a été calculé pour le point de temps de 3 et 6 jours par rapport à (1) le contrôle de mésappariement correspondant et (2) les échantillons non induits (les contrôles du jour 0) sur la base de Analyse RNA-seq (Méthodes).

Effet des knockdowns de vlincRNA utilisant CRISPR/Cas13 sur les changements de plis relatifs des gènes co-exprimés. une Représentation schématique de la connexion attendue entre les gènes co-exprimés positivement ou négativement (à gauche) et le changement correspondant du niveau d'expression en réponse à un knockdown de vlincRNA (à droite). be Différences relatives dans les changements de pli entre les gènes co-exprimés négativement et positivement pour chaque paire de contrôle de ciblage d'ARNg (en bas). Les différences relatives ont été calculées en tant que Cohen métriques (b, ) ou des différences de médianes (c, e) soit en combinant les données pour les deux moments (3 et 6 jours) (b, c) ou en les analysant séparément (, e). Plus de détails dans le texte

Nous avons ensuite estimé les différences dans les changements de plis relatifs entre 4 groupes de gènes pour chaque vlincRNA. Les 3 premiers groupes étaient basés sur les gènes co-exprimés : (1) tous les gènes co-exprimés négativement contre tous les gènes co-exprimés positivement, (2) 100 gènes co-exprimés le plus négativement contre 100 gènes co-exprimés le plus positivement, et (3) 50 gènes les plus négativement contre 50 gènes les plus positivement co-exprimés. Le groupe de contrôle de fond final était composé de tous les gènes restants, dont beaucoup présentaient également une faible corrélation (positive ou négative) avec l'expression de vlincRNA, qui n'a toutefois pas dépassé les seuils de signification décrits ci-dessus pour que ces gènes soient considérés comme co-exprimés avec les vlincRNA ( fig. 6a). En théorie, l'effet de l'épuisement du vlincRNA sur ces gènes de fond devrait être moindre que sur les gènes co-exprimés. Ainsi, la différence relative de changement de facteur dans les gènes de fond en corrélation négative et positive avec l'expression de l'ARNvlinc servirait de contrôle pour les différences observées entre les gènes co-exprimés négativement et positivement (Fig. 6a). Par conséquent, le groupe de fond a été divisé en deux sous-ensembles sur la base d'une corrélation négative ou positive avec un vlincRNA et les différences dans les changements de plis relatifs entre les deux groupes ont été calculées. Pour chaque comparaison, nous avons calculé 3 métriques : (1) les différences entre les changements de plis relatifs médians, (2) le coefficient de Cohen les effets des différences entre les changements de plis relatifs moyens, et (3) la signification statistique de la différence à l'aide du test de somme des rangs de Wilcoxon (Fig. 6b-e, fichier supplémentaire 1 : tableau supplémentaire S10). Les comparaisons ont été effectuées en traitant séparément les points de temps de 3 et 6 jours et en combinant les deux points de temps.

Étonnamment, les changements de plis relatifs des gènes co-exprimés négativement étaient presque toujours plus élevés que ceux des gènes co-exprimés positivement, comme le montrent les différences entre les médianes et les valeurs de Cohen positives. scores (Fig. 6b–e, fichier supplémentaire 1 : tableau supplémentaire S10). Cependant, les différences entre les médianes et les valeurs de Cohen les valeurs étaient beaucoup plus élevées pour les gènes co-exprimés par rapport aux gènes corrélés de fond (Fig. 6b-e, fichier supplémentaire 1 : tableau supplémentaire S10). Cette différence était particulièrement prononcée lorsque les 50 ou 100 premiers gènes co-exprimés négativement étaient comparés aux 50 ou 100 premiers gènes co-exprimés positivement (Fig. 6b-e, Fichier supplémentaire 1 : Tableau supplémentaire S10). Dans l'ensemble, les grandeurs de la Cohen les effets étaient assez faibles, principalement < 0,1 pour les gènes de fond de contrôle (Fig. 6b, d, fichier supplémentaire 1 : tableau supplémentaire S10). Les différences des médianes et de Cohen les valeurs étaient plus élevées au jour 3 par rapport au jour 6 (Fig. 6d, e, fichier supplémentaire 1 : tableau supplémentaire S10), probablement en raison de l'accumulation d'effets indirects affectant l'expression des gènes cibles.De plus, en utilisant le test de somme des rangs de Wilcoxon, les changements de plis relatifs médians des gènes co-exprimés négativement étaient significativement plus élevés (p valeur < 0,05) que celles des co-exprimés positivement pour 2 ARNg sur 3 (Fichier supplémentaire 1 : Tableau supplémentaire S10). Cependant, plusieurs comparaisons pour l'ARNg restant atteignaient le seuil de signification avec le p valeurs comprises entre 0,05 et 0,09 (Fichier supplémentaire 1 : Tableau supplémentaire S10). Sur la base de ces résultats, nous sommes arrivés aux conclusions suivantes. Premièrement, les vlincRNA semblent réguler directement plusieurs autres gènes, à la fois positivement et négativement, et ces interactions régulatrices pourraient être prédites sur la base de la corrélation d'expression dans notre test de co-expression. Deuxièmement, les gènes avec une co-expression plus forte avec les vlincRNAs présentent une régulation plus forte par les vlincRNAs. Troisièmement, même des niveaux relativement modestes d'épuisement de ces transcrits peuvent avoir des phénotypes moléculaires mesurables.

Propriétés fonctionnelles des réseaux de régulation vlincRNA

Le fort chevauchement statistique entre la co-expression SMS et les ensembles de données d'interaction de la chromatine combinés à la validation CRISPR/Cas13 a indiqué que nous avons identifié de véritables réseaux de régulation vlincRNA. Comme décrit ci-dessus, le signal RAT pour les gènes dans les réseaux vlincRNA était significativement plus élevé que dans les gènes de fond dans la plupart des traitements. Par conséquent, il semble que différents traitements n'ont pas modifié de manière significative les réseaux de régulation vlincRNA. Pour quantifier davantage cette observation, nous avons identifié des listes de gènes partagés par les ensembles de données de co-expression et d'interaction de la chromatine dans chaque traitement (DMSO ou médicaments) pour chaque vlincRNA. Ensuite, nous avons estimé la fraction de chevauchement entre ces listes pour chaque vlincRNA. Dans l'ensemble, 83,7 à 100 % (médiane de 92,9 %) et 48,6 à 83,8 % (médiane de 63,7 %) de gènes co-exprimés respectivement négativement et positivement corrélés ont été partagés par les témoins traités au DMSO et les traitements médicamenteux. Les rapports de cotes respectifs des co-expressions positives et négatives étaient de 52,8 à 192,7 (médiane 83) et de 6,3 à 95,6 (médiane 12,6), indiquant que les chevauchements entre les traitements médicamenteux et les traitements DMSO étaient statistiquement significatifs (Fig. 7a, fichier supplémentaire 1 : Tableau supplémentaire S11). De plus, les réseaux n'ont pas changé de manière significative en réponse aux traitements avec différents médicaments. Pour les deux vlincRNA profilés dans les cellules traitées à l'étoposide et au SN-38, 87,2 à 99 % (médiane de 93,1 %) et 80,4 à 93,7 % (médiane de 87,1 %) de gènes co-exprimés respectivement négativement et positivement corrélés ont été partagés par les deux médicaments.

Propriétés des réseaux de régulation vlincRNA. une Stabilité des réseaux de régulation dans différents traitements—boîtes à moustaches des rapports de cotes du chevauchement entre les réseaux dans les échantillons traités au DMSO et au médicament pour les 6 vlincRNA. be Régulation de plusieurs gènes dans trans et cis. La plupart des gènes des réseaux corrélés positivement et négativement se trouvent sur différents chromosomes, comme illustré pour les réseaux de co-expression du vlincRNA ID-1202 dans les traitements à l'étoposide ou au DMSO. Les connexions entre le vlincRNA situé sur le chromosome 3 et chaque gène co-exprimé (soit positivement ou négativement) avec lui et contenant le site des interactions vlincRNA-chromatine sont représentées par les lignes fines. Box plots des rapports de cotes (c), p valeurs (), et le nombre total de gènes en commun (e) sur la base des comparaisons des réseaux de co-expression et des ensembles de données d'interaction de la chromatine pour tous les gènes (tracés de gauche) ou des gènes trouvés sur le même chromosome (tracés de droite) pour les 14 combinaisons vlincRNA-médicament. F, g Les dix principaux termes GO enrichis en gènes trouvés dans l'un ou l'autre négatif (F) ou positif (g) réseaux de co-expression pour les 407 vlincRNA. Les termes GO ont été classés en fonction du nombre de vlincRNA (X-axes) dont les réseaux se sont enrichis en ces termes. Les nombres à côté de chaque terme représentent le % de vlincRNA contenant le terme sur le total de 407 vlincRNA. h Boîtes à moustaches des valeurs de corrélation de Spearman de toutes les combinaisons par paires possibles d'ARNm-ARNm, vlincRNA-vlincRNA et ARNm-vlincRNA

Deuxièmement, les réseaux se composaient principalement de gènes situés sur des chromosomes différents de ceux où les vlincRNA ont été trouvés, comme illustré dans la figure 7b. Cependant, conformément aux résultats ci-dessus, les rapports de cotes du chevauchement entre les ensembles de données de co-expression et d'interaction de la chromatine étaient plus élevés pour les gènes situés sur les mêmes chromosomes (cis) que les vlincRNAs que ceux des autres chromosomes (trans) (Fig. 7c), mais seulement 12/28 de ces chevauchements étaient statistiquement significatifs (Fig. 7d, Fichier supplémentaire 1 : Tableau supplémentaire S12). La raison probable en est que le nombre de gènes sur les mêmes chromosomes n'était pas aussi élevé que l'ensemble du génome (Fig. 7e, fichier supplémentaire 1 : tableau supplémentaire S12). Par conséquent, nous avons combiné tous les échantillons pour augmenter la puissance statistique et avons en effet pu montrer que les rapports de cotes de chevauchement entre les ensembles de données de co-expression et d'interaction de la chromatine étaient plus élevés dans cis que dans trans (p valeur 6.1E−3, test de la somme des rangs de Wilcoxon). Par conséquent, ces résultats suggèrent que les vlincRNAs participent à la fois cis et trans interactions cependant, alors que ces dernières sont beaucoup plus nombreuses, les interactions ARN-chromatine avec les gènes sur les mêmes chromosomes ont tendance à être plus fortes (voir la section « Discussion »).

Pour mieux comprendre les propriétés des réseaux de régulation vlincRNA, nous avons effectué une analyse Gene Ontology (GO) pour annoter les 407 vlincRNA en fonction des fonctions des gènes dans les réseaux. Étonnamment, les réseaux pour différents vlincRNAs présentaient un enrichissement de fonctions similaires (Fig. 7f, g, fichier supplémentaire 1 : tableau supplémentaire S13). La plupart des réseaux corrélés négativement étaient significativement enrichis en fonctions liées à l'ARN (Fig. 7f), tandis que les réseaux positifs étaient significativement associés à divers termes GO de développement (Fig. 7g). Par exemple, les 5 principaux termes GO enrichis parmi les réseaux corrélés négativement et partagés par ≥ 65% des vlincRNA étaient « traitement de l'ARN », « l'épissage de l'ARN », « l'épissage de l'ARNm », « le processus métabolique de l'ARNm » et « l'épissage de l'ARNm » (Fig. 7f, Fichier supplémentaire 1 : Tableau supplémentaire S13). La «transcription basée sur un modèle d'ADN» faisait partie des 20 principaux termes GO et était partagée par 50 % de tous les vlincRNA (Fichier supplémentaire 1 : Tableau supplémentaire S13). D'autre part, les 5 principaux termes GO enrichis dans les réseaux positivement corrélés étaient « développement du système nerveux », « développement du système nerveux central », « développement d'organismes multicellulaires », « développement de systèmes » et « développement de structures anatomiques » partagés par 27 -35% des vlincRNAs (Fig. 7g, Fichier supplémentaire 1 : Tableau supplémentaire S13). L'extension aux 50 premiers termes GO a révélé un enrichissement supplémentaire des réseaux co-exprimés négativement dans les fonctions associées au cycle cellulaire, telles que « transition de phase du cycle cellulaire », « cycle cellulaire », « processus du cycle cellulaire mitotique », « la chromatide sœur mitotique ségrégation » et « régulation négative du processus du cycle cellulaire » partagées par 43 à 46 % des vlincRNA (Fichier supplémentaire 1 : Tableau supplémentaire S13). La même étape a révélé l'enrichissement des fonctions associées à l'adhésion cellulaire parmi les gènes trouvés dans les réseaux positivement corrélés et partagés par 13 à 21 % des vlincRNA (Fichier supplémentaire 1 : Tableau supplémentaire S13).

Dans l'ensemble, l'enrichissement de fonctions similaires parmi les gènes co-exprimés a suggéré que les vlincRNA ont des modèles d'expression quelque peu similaires. Pour résoudre ce problème, nous avons calculé la corrélation de Spearman médiane entre les vlincRNA ou les ARNm uniquement et entre les paires de vlincRNA et les ARNm. Les corrélations médianes vlincRNA-vlincRNA, vlincRNA-mRNA et mRNA-mRNA étaient respectivement de 0,28, -0,02 et 0,03 (Fig. 7h). Ainsi, en effet, les vlincRNA ont tendance à être régulés de manière coordonnée et à participer au contrôle de gènes ayant des fonctions similaires.

Les VlincRNA sont nécessaires à la survie cellulaire dans des conditions de stress

Pour tester directement si les vlincRNA et leurs réseaux de régulation pouvaient avoir une signification biologique, nous avons testé l'importance des 2 vlincRNA utilisés pour les expériences CRISPR/Cas13 pour la capacité de la cellule à survivre au stress génotoxique. Les cellules des 8 lignées cellulaires individuelles CRISPR/Cas13 décrites ci-dessus ont été mélangées en proportions égales, cultivées pendant 3 jours en présence ou en l'absence de Dox puis traitées avec de l'étoposide (également avec ou sans Dox). Comme le montre notre étude précédente, l'étoposide a eu un effet toxique puissant et durable sur les cellules K562, entraînant une mort cellulaire continue même après l'élimination du médicament, et une récupération lente [22]. Ici, pour chaque traitement, après avoir éliminé l'étoposide, les cellules ont pu repousser pendant

10 jours jusqu'à ce qu'ils reprennent une croissance et une apparence normales, puis nous avons estimé la survie des cellules hébergeant chaque ARNg en calculant l'abondance normalisée de cet ARNg dans l'ADN génomique des cellules regroupées à l'aide de NGS. Pour chaque traitement et chaque paire d'ARNg, nous avons calculé le rapport des abondances d'ARNg ciblant/non ciblant pour estimer la survie relative des cellules hébergeant des ARNg ciblant les ARNvv par rapport aux cellules hébergeant leurs contrôles apparentés non ciblant.

Fait intéressant, la moyenne/médiane des ratios des ARNg de ciblage par rapport à leurs contrôles apparentés, soit immédiatement après le regroupement ou la croissance pendant 3 jours avant l'ajout d'étoposide, était de 0,9/0,91 même si toutes les lignées cellulaires étaient mélangées dans des proportions égales (Fichier supplémentaire 1 : Supplément Tableau S14, Méthodes). Cela suggère que même pendant les étapes de croissance et d'expansion menant de la transfection lentivirale à l'établissement des lignées cellulaires individuelles, une perte préférentielle de cellules exprimant les ARNg ciblant s'est produite vraisemblablement en raison de leur toxicité combinée à l'expression fuyante de Cas13 en l'absence de Dox. Les traitements ultérieurs à l'étoposide ont entraîné une baisse supplémentaire de ce rapport, en particulier lorsqu'ils sont combinés à l'induction de Cas13 par Dox (Fichier supplémentaire 1 : Tableau supplémentaire S14). Les ratios moyen/médian des ARNg ciblant vs non ciblant étaient de 0,91/0,87 pour l'étoposide/-Dox et de 0,78/0,76 pour le traitement étoposide/+Dox (Fichier supplémentaire 1 : Tableau supplémentaire S14). Dans l'ensemble, sur les 4 paires d'ARNg, la baisse du rapport (indiquant plus de cellules mortes) dans les échantillons étoposide/+Dox était statistiquement significative avec p valeurs de 0,01 et 0,04 t test) par rapport aux cellules non traitées à l'étoposide ou à celles traitées à l'étoposide/-Dox. Fait intéressant, les cellules exprimant l'ARNg D33_v2_6 qui n'ont pas montré d'épuisement significatif de l'ARNvlinc dans l'analyse du transcriptome étaient les plus épuisées même sans traitement médicamenteux par rapport à leur contrôle sans ciblage dans l'analyse de survie cellulaire avec les ratios moyens correspondants de 0,84, 0,76 et 0,66 ( Fichier supplémentaire 1 : Tableau supplémentaire S14). Ces résultats suggèrent que notre incapacité à détecter des changements constants dans le niveau du transcrit cible pourrait être causée par la mort de cellules où ce vlincRNA est épuisé dans une population mixte de cellules. Au total, ces résultats démontrent que ces vlincRNA sont nécessaires à la survie des cellules dans des conditions de croissance normales et en particulier sous un stress génotoxique.

Effet d'une plateforme de mesure d'ARN sur l'authenticité des réseaux dérivés de co-expression

Pour tester si le chevauchement significatif entre les réseaux dérivés de co-expression et les ensembles de données d'interaction de la chromatine serait une caractéristique générale pour tout ensemble de données d'expression, nous avons régénéré une fraction de l'ensemble de données utilisé pour l'analyse de co-expression à l'aide de la plate-forme Illumina de 2e génération utilisant également l'ARNr -ARN total appauvri. Nous avons généré les réseaux de co-expression en utilisant les mêmes critères que ci-dessus. Surtout, l'application de la même p valeur seuil pour estimer la fiabilité des estimations de corrélation devrait en théorie tenir compte des différents nombres d'échantillons utilisés pour calculer les corrélations de co-expression (64 pour SMS vs 32 pour Illumina). De plus, l'ensemble de données Illumina avait une beaucoup plus grande (en moyenne

10 fois) nombre de lectures générées par échantillon et lectures significativement plus longues : 150 lectures de base appariées vs lecture unique en moyenne

35 bases pour SMS. Pour chaque vlincRNA, nous avons trouvé un nombre plus élevé de transcrits co-exprimés utilisant les mêmes seuils dans l'ensemble de données Illumina RNA-seq que dans celui du SMS avec les nombres médians correspondants de 2 073 et 1 615. Comme dans l'analyse de co-expression basée sur SMS, nous avons observé une tendance statistiquement significative vers la corrélation négative entre les vlincRNAs et les ARNm avec les nombres médians correspondants d'ARNm co-exprimés négativement et positivement de 1 119 et 943 par vlincRNAs (p valeur < 2.2E–16, test de rang signé de Wilcoxon).

Cependant, le chevauchement avec l'ensemble de données RAT était faible sur la base de comparaisons avec des combinaisons individuelles de vlincRNA-traitement ou sur un ensemble de données fusionné en combinant tous les traitements pour tous les vlincRNA (Fig. 5e, f, fichier supplémentaire 1 : tableaux supplémentaires 15 et 16). Alors que les rapports de cotes des chevauchements avec les gènes co-exprimés négativement indiquaient un enrichissement et allaient de 1,03 à 1,74 (médiane 1,19) (Fig. 5e, Fichier supplémentaire 1 : Tableau supplémentaire S15), le p les valeurs étaient beaucoup moins significatives par rapport à celles de SMS RNA-seq mentionnées ci-dessus, avec la médiane p valeur de 3,7E−2 (allant de 2,22E−47 à 0,35) (Fig. 5f, Fichier complémentaire 1 : Tableau complémentaire S15). De plus, les rapports de cotes pour les gènes co-exprimés positivement étaient bien inférieurs à ceux de l'ensemble de données SMS RNA-seq allant de 0,8 à 1,06 avec la médiane de 1,0 et la médiane p valeur étant de 0,53 (allant de 3,09E−2 à 0,93) (Fig. 3a, b, Fichier complémentaire 1 : Tableau complémentaire S15). Des résultats similaires ont été obtenus en utilisant les données fusionnées : alors que le chevauchement était significatif pour les vlincRNA co-exprimés négativement pour les deux plates-formes, bien qu'avec une signification plus élevée dans le cas du SMS, il n'était significatif que pour les vlincRNA co-exprimés positivement détectés par le SMS plate-forme (Fichier supplémentaire 1 : Tableau supplémentaire S16). Lorsque des vlincRNA co-exprimés positivement et négativement ont été combinés, le chevauchement n'était significatif que pour la plate-forme SMS (Fichier supplémentaire 1 : Tableau supplémentaire S16).

Nous avons également comparé l'effet du knockdown de vlincRNA sur les réseaux de co-expression générés par les deux plateformes. Dans l'ensemble, les réseaux générés par Illumina avaient des profils similaires à ceux des SMS (Fichier supplémentaire 1 : Tableau supplémentaire S17). Cependant, les différences entre les gènes co-exprimés dans les réseaux et les gènes de fond étaient beaucoup moins significatives (Fichier supplémentaire 1 : Tableau supplémentaire S17). Par exemple, les Cohen les effets des données combinées des jours 3 et 6 pour les ARNg D30_v6_6 et D33_v2_10 étaient de 0,148 et 0,273 pour les gènes du réseau et, par conséquent, de 0,062 et 0,113 pour les gènes de fond pour les réseaux générés par SMS (Fig. 6b, fichier supplémentaire 1 : tableau supplémentaire S10) - en moyenne 2,4 fois plus élevé pour les gènes du réseau. Les valeurs correspondantes pour les réseaux Illumina étaient de 0,086 et 0,295 par rapport à 0,080 et 0,218 (Fichier supplémentaire 1 : Tableau supplémentaire S17) – en moyenne 1,2 fois plus élevées. Par conséquent, les réseaux générés à l'aide de différentes plates-formes d'expression, même sur le même type d'échantillon, différeraient probablement de manière significative en termes d'authenticité.


Les gènes ne se limitent pas à l'ADN : comment maman et papa ajoutent quelque chose de plus, rien que pour vous

Des biologistes des universités de Bath et de Vienne ont découvert 71 nouveaux gènes « imprimés » dans le génome de la souris, une découverte qui les rapproche de certains des mystères de l'épigénétique - un domaine de la science qui décrit comment les gènes sont activés (et off) dans différentes cellules, à différents stades de développement et à l'âge adulte.

Pour comprendre l'importance des gènes imprimés pour l'héritage, nous devons prendre du recul et nous demander comment fonctionne l'héritage en général. La plupart des trente mille milliards de cellules dans le corps d'une personne contiennent des gènes qui proviennent à la fois de leur mère et de leur père, chaque parent contribuant à une version de chaque gène. La combinaison unique de gènes contribue en partie à rendre un individu unique. Habituellement, chaque gène d'une paire est également actif ou inactif dans une cellule donnée. Ce n'est pas le cas pour les gènes imprimés. Ces gènes - qui représentent moins d'un pour cent du total de plus de 20 000 gènes - ont tendance à être plus actifs (parfois beaucoup plus actifs) dans une version parentale que dans l'autre.

Jusqu'à présent, les chercheurs connaissaient environ 130 gènes imprimés bien documentés dans le génome de la souris - les nouveaux ajouts portent ce nombre à plus de 200.

Le professeur Tony Perry, qui a dirigé les recherches du département de biologie et de biochimie de Bath au Royaume-Uni, a déclaré : « L'empreinte affecte une importante famille de gènes, avec des implications différentes pour la santé et la maladie, de sorte que les plus de soixante-dix nouveaux gènes ajoutent un morceau du puzzle."

L'IMPORTANCE DES HISTONES

Un examen attentif des gènes nouvellement identifiés a permis au professeur Perry et à ses collègues de faire une deuxième découverte importante : l'activation et la désactivation de gènes imprimés n'est pas toujours liée à la méthylation de l'ADN, où des groupes méthyle sont ajoutés à l'ADN génomique - un processus connu pour réprimer l'activité des gènes, les éteignant). La méthylation de l'ADN a été le premier type d'empreinte connu et a été découverte il y a une trentaine d'années. D'après les résultats des nouveaux travaux, il semble qu'une plus grande contribution à l'empreinte soit apportée par les histones - des structures enveloppées d'ADN génomique dans les chromosomes.

Bien que les scientifiques sachent depuis un certain temps que les histones agissent comme des interrupteurs « gradateurs » pour les gènes, en les éteignant (ou en les rallumant), jusqu'à présent, on pensait que la méthylation de l'ADN était le principal interrupteur pour l'activité des gènes imprimés. Les résultats de la nouvelle étude jettent le doute sur cette hypothèse : de nombreux gènes nouvellement identifiés se sont avérés être associés à des modifications de l'histone 3 lysine 27 (H3K27me3), et seulement une minorité avec une méthylation de l'ADN.

POURQUOI L'IMPRESSION EST IMPORTANTE

Les scientifiques n'ont pas encore déterminé comment une version parentale d'un gène donné peut être activée ou désactivée et maintenue de cette façon pendant que l'autre est dans l'état opposé. On sait qu'une grande partie de la commutation marche/arrêt se produit pendant la formation des gamètes (sperme et ovule), mais les mécanismes précis restent flous. Cette nouvelle étude souligne la possibilité intrigante que certains gènes imprimés ne soient pas marqués dans les gamètes, mais deviennent actifs plus tard dans le développement, voire à l'âge adulte.

Bien qu'elle n'implique qu'une faible proportion de gènes, l'empreinte est importante plus tard dans la vie. Si cela se passe mal et que la copie du gène imprimé d'un parent est activée alors qu'elle devrait l'être (ou vice versa), la maladie ou la mort survient. Les gènes à empreinte défectueuse sont associés à de nombreuses maladies, y compris les troubles neurologiques et métaboliques et le cancer.

"Nous pouvons sous-estimer l'importance de la relation entre l'empreinte et la maladie, ainsi que la relation entre l'empreinte et l'hérédité des maladies parentales, telles que l'obésité", a déclaré le professeur Perry."J'espère que cette image améliorée de l'empreinte augmentera notre compréhension de la maladie."


Conclusion

Dans ce rapport, il a été montré qu'une région intergénique de 351 pb entre At5g06290 et À5g06280 dirige l'expression des gènes dans différents tissus d'Arabidopsis d'une manière mutuellement exclusive. Les produits géniques de ces loci sont une 2-Cys peroxiredoxine B située dans le chloroplaste impliquée dans la défense antioxydante, et une protéine de fonction inconnue. Il s'agit du premier rapport d'une région intergénique qui pilote l'expression d'un gène impliqué dans la défense antioxydante des chloroplastes. Ces résultats montrent également que le 2CPB est induit par le stress thermique dans les feuilles et les racines, suggérant une fonction de cette protéine dans le système de défense contre le stress thermique de Arabidopsis thaliana.


La région intergénique de Cabine d'Arabidopsis thaliana1 et taxi2 gènes divergents fonctionnent comme un promoteur bidirectionnel

Le génie génétique joue un rôle unique dans les études fondamentales de biologie végétale et dans l'amélioration des caractères des cultures. Ces efforts nécessitent souvent l'introduction et l'expression de plusieurs gènes en utilisant des promoteurs d'un répertoire très limité. La pratique courante actuelle d'expression de plusieurs gènes est l'utilisation répétée de promoteurs identiques ou similaires. Cette pratique provoque un silence de transgène plus fréquent en raison d'un degré élevé d'homologie de séquence et d'une plus grande chance de réarrangement parmi les séquences de promoteur utilisées de manière répétée. Par conséquent, la disponibilité et l'utilisation de promoteurs bidirectionnels naturels pour minimiser le silençage génique et obtenir un modèle d'expression souhaitable des transgènes est un problème critique dans le domaine du génie génétique végétal. Nous décrivons ici l'utilisation d'un seul promoteur bidirectionnel naturel pour piloter l'expression de deux gènes rapporteurs dans les cellules épidermiques d'oignon et dans les plants de tabac transgéniques. Nous montrons que (1) le promoteur entraîne l'expression simultanée des gènes rapporteurs GUS et GFP après une expression transitoire et une transformation stable, (2) la transcription est également forte dans les deux sens, (3) les régions immédiates en amont dans chaque direction contrôlent la transcription indépendamment de et (4) les gènes rapporteurs sont exprimés dans les feuilles et les tiges mais pas dans les racines, comme prévu du fait que le promoteur endogène contrôle l'expression de deux gènes photosynthétiques dans Arabidopsis. Par conséquent, l'utilisation de promoteurs bidirectionnels dans un arrière-plan hétérologue fournit un moyen d'exprimer de multiples gènes dans des plantes transgéniques et facilite l'amélioration des cultures basée sur le génie génétique.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Messages de séduction

La parade nuptiale humaine a d'autres similitudes avec la parade nuptiale chez les animaux « inférieurs ». Normalement, les gens se courtisent lentement. La prudence pendant la parade nuptiale est également caractéristique des araignées. L'araignée-loup mâle, par exemple, doit entrer dans l'entrée longue et plus sombre de l'enceinte d'une femelle afin de courtiser et de s'accoupler. C'est ce qu'il fait lentement. S'il est trop impatient, elle le dévore.

Les hommes et les femmes trop agressifs au début du processus de séduction subissent également des conséquences désagréables. Si vous vous approchez trop près, touchez trop tôt ou parlez trop, vous serez probablement repoussé. Comme courtiser parmi les araignées-loups, les babouins et d'autres créatures, le pick-up humain fonctionne sur le message. À chaque étape du rituel, chaque partenaire doit répondre correctement, sinon la parade nuptiale échoue.


Résumé de l'auteur

Une grande partie du génome humain est composée de séquences intergéniques, les régions entre les gènes. La séquence intergénique était autrefois considérée comme un « ADN indésirable » transcriptionnellement silencieux, mais il est récemment devenu évident que les régions intergéniques peuvent être transcrites. Cependant, la portée, la nature et l'identité de cette transcription intergénique restent inconnues. Ici, en analysant un grand nombre de données RNA-seq, nous avons constaté que plus de 85 % du génome est transcrit, ce qui nous permet de générer un catalogue complet d'une classe importante de transcrits intergéniques : les longs ARN intergéniques non codants (lincRNA). Nous avons découvert que le génome code beaucoup plus d'ARNlinc qu'on ne le savait auparavant. Une question clé dans le domaine est de savoir si ces transcrits intergéniques sont du bruit fonctionnel ou transcriptionnel. Nous avons constaté que les lincARN que nous avons identifiés présentent de nombreuses caractéristiques incompatibles avec le bruit, notamment une régulation spécifique de leur expression, la présence d'une séquence conservée et des preuves d'un traitement régulé. De plus, ces lincARN sont fortement enrichis en séquences intergéniques qui étaient auparavant connues pour être fonctionnelles dans les traits et les maladies humaines. Cette étude fournit un cadre essentiel à partir duquel les éléments fonctionnels dans les régions intergéniques peuvent être identifiés et caractérisés, facilitant les efforts futurs vers la compréhension des rôles de la transcription intergénique dans la santé humaine et la maladie.

Citation: Hangauer MJ, Vaughn IW, McManus MT (2013) La transcription omniprésente du génome humain produit des milliers d'ARN intergéniques longs non codants auparavant non identifiés. PLoS Genet 9(6) : e1003569. https://doi.org/10.1371/journal.pgen.1003569

Éditeur: John L. Rinn, Broad Institute of MIT et Harvard, États-Unis d'Amérique

A reçu: 28 septembre 2012 Accepté: 1er mai 2013 Publié : 20 juin 2013

Droits d'auteur: © 2013 Hangauer et al. Il s'agit d'un article en libre accès distribué selon les termes de la licence d'attribution Creative Commons, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'auteur et la source d'origine soient crédités.

Le financement: Ce travail a été financé par la subvention NIH 5U01ES017154 dans le cadre du NIH Human Epigenome Atlas UCSF-UBC Reference Epigenome Mapping Center (MTM), la subvention NIH U01CA168370 dans le cadre du NIH Bay Area Cancer Target Discovery and Development Network (MTM), PBBR New Frontier Bourse de recherche (MTM) et par Susan G. Komen Bourse postdoctorale For The Cure KG1101214 (MJH). Les bailleurs de fonds n'ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Intérêts concurrents : Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.


Discussion

Identification des ARNnc

Alors qu'un nombre croissant d'études ont confirmé que les ARNnc possèdent des fonctions régulatrices importantes dans différentes voies biologiques, leur identification informatique peut être très difficile. Une approche actuelle consiste à identifier les ARNnc sur la base de recherches d'homologie, telles que les méthodes basées sur la séquence, le profil HMM et les méthodes améliorées de structure [34], [35], [36]. Par rapport à ces méthodes, notre pipeline pour l'identification des ARNnc présente deux avantages [37]. Tout d'abord, nos ARNnc ont été identifiés à partir des données du transcriptome. La plupart des méthodes basées sur la recherche d'homologie utilisent la séquence entière du génome comme point de départ, il n'est donc pas évident si les ARNnc identifiés par ces méthodes sont des éléments fonctionnels transcrits. Normalement, d'autres expériences sont nécessaires pour valider l'expression de ces éléments fonctionnels. Deuxièmement, la plupart des méthodes de recherche d'homologie sont basées sur des alignements multiples ou en prenant des ARNnc connus comme ensemble d'apprentissage, de sorte que la sortie générée par ces programmes a tendance à identifier uniquement les ARNnc conservés. La conservation des ARNnc n'est pas aussi évidente que celle des ARNm. Certains ARNnc, comme les miARN, sont en effet soumis à une forte contrainte sélective, mais davantage d'ARNnc, en particulier les ARNnc longs, semblent être moins conservés que les ARN codant pour des protéines. En utilisant des filtres rigoureux dans notre pipeline, nous avons efficacement supprimé les transcrits codant pour les protéines et identifié différents types d'ARNnc, qui n'étaient pas limités aux ARNnc conservés. Pour le moment, nous avons ignoré les ARNnc transcrits à partir d'éléments répétitifs, principalement des rétrotransposons, car il est pratiquement impossible de mapper de telles séquences à un emplacement génomique unique et les scores de conservation de ces séquences ne sont disponibles que pour les insertions de rétrotransposons ancestraux. Cependant, les ARNnc des rétrotransposons peuvent également être fonctionnels, car des chercheurs précédents ont montré que les transcrits d'origine des rétrotransposons sont régulés de manière différentielle au cours du développement [38].

L'existence d'ARNnc bien caractérisés dans notre ensemble de données d'ARNnc a indiqué que notre pipeline était efficace, mais a également illustré à quel point peu d'ARNnc ont été conservés sur la base de la similarité de séquence. Pour éviter les faux positifs, nous nous sommes appuyés sur des critères stricts. Par exemple, lors de la cartographie des transcrits sur le génome, seuls les transcrits cartographiés avec une couverture supérieure à 90 % et une identité supérieure à 95 % ont été conservés pour des analyses ultérieures. Cela explique pourquoi environ 32% des transcriptions uniques ont été classées comme transcriptions “un-mapped”. Ces critères ont permis d'éliminer les séquences contaminantes et riches en erreurs. Par la suite, lors du filtrage des gènes codant pour les protéines à l'aide de BLAST, les transcrits avec hits (valeur E㰞-5), indépendamment de la couverture ou du pourcentage d'identité dans les bases de données bovines RefSeq ou Swiss-Prot, ont été rejetés. Cela a garanti que les paralogues ou pseudogènes distants non annotés ainsi que les EST codant pour les protéines étaient supprimés de notre ensemble d'ARNnc.

En conséquence, notre pipeline fournit un outil pour exploiter l'abondance des EST, qui étaient à l'origine utilisées pour identifier les gènes codant pour les protéines. De nombreuses études ont confirmé que les EST peuvent être utilisées pour détecter les ARNnc. La preuve la plus importante est l'ensemble de données FANTOM ncRNA, qui sont des ARNnc de type ARNm identifiés à partir d'ADNc de souris [4]. Des ARNc identifiés à partir d'EST ont également été rapportés chez d'autres organismes [39], [40]. Récemment, une classe d'ARNnc longs humains avec une fonction de type amplificateur a été identifiée à partir de l'annotation GENCODE qui, en partie, reposait sur des EST mappées sur des régions non codantes pour les protéines [9]. Parce que nos analyses étaient basées sur des critères aussi stricts, il est fort probable que nos résultats représentent une estimation prudente et faible du nombre de longs ARNnc dans un transcriptome de mammifère.

La distribution à l'échelle du génome des ARNnc

Selon des études antérieures sur l'ARN-seq et le tuilage, il est possible de mapper plus de lectures dans les régions introniques que dans les régions intergéniques [5]. En revanche, nos données ont montré qu'il y avait plus d'ARNnc intergéniques que d'ARNnc introniques dans le transcriptome bovin non codant pour les protéines. Les introns sont connus pour être de riches sources de transcrits d'ARNnc petits et longs [41], mais le plus grand nombre d'ARNnc intergéniques conservés que nous avons identifiés indique qu'il pourrait y avoir plus de transcrits régulateurs fonctionnels intégrés dans les régions intergéniques des génomes bovins.

Des recherches antérieures ont montré que de nombreux ARNnc sont exprimés de manière spécifique aux tissus ou sont limités à certains stades de développement [42], [43], [44], qui se manifesteraient probablement sous forme de singletons dans le tissu regroupé, des bibliothèques EST normalisées qui représentent presque toutes les EST bovines que nous avons analysées. De plus, la prévalence des transcrits non épissés (tableau 1) a également été rapportée dans les ARNnc par Khachane et al. dans un ensemble de données d'ARNnc longs fonctionnels [45]. Ces caractéristiques peuvent expliquer pourquoi les ARNnc ne sont pas aussi facilement détectés que les gènes codant pour les protéines dans de nombreuses situations.

La carte à l'échelle du génome de la distribution des ARNnc chez les bovins démontre que les ARNnc sont répartis plus uniformément dans tout le génome que les gènes codant pour les protéines. Cela peut signifier que les ARNnc ont évolué différemment en gènes codant pour des protéines, qui peuvent former des régions riches en gènes par duplication de gènes [46]. Cela pourrait aussi expliquer en partie la mauvaise conservation des ARNnc. Les différentes distributions génomiques des ARNnc par rapport aux gènes se reflètent dans la corrélation modérée entre les densités des ARNnc et des gènes codant pour les protéines, indiquant que de nombreux ARNnc peuvent fonctionner comme des éléments de régulation à distance plutôt que de réguler leurs gènes voisins d'une manière basée sur la proximité. Auparavant, il a été démontré expérimentalement que les ARNnc régulent l'expression des gènes en influençant le processus de transcription ou la structure de la chromatine dans trans-mode d'action [47], [48], [49]. Certains de ces ARNnc longs de type amplificateur récemment découverts activent des gènes distants plutôt que ceux environnants, à des distances supérieures à 300 kb [9].

La corrélation modérée de la densité des ARNnc avec la densité des gènes se reflète également dans le fait que la plupart des ARNnc intergéniques bovins ont été transcrits à partir de régions proches des gènes codant pour les protéines, en particulier à partir de l'extrémité 3′. Ce biais de distribution a déjà été observé dans des expériences d'expression de RNA-seq et de tuilage array [4], [29], [50]. Cependant, nos résultats étaient basés sur de longues lectures de la plupart des tissus et des stades de développement et il était donc peu probable qu'ils résultent d'extrémités courtes et irrégulières de transcriptions continues. En outre, alors que bon nombre de ces transcrits ont été trouvés très près des gènes, des nombres importants ont également été trouvés à des milliers à des dizaines de milliers de paires de bases. Même dans les ARN liés à l'UTR que nous avons classés, il existe encore une proportion (492 sur 4 584) transcrite à partir du brin antisens des gènes codant pour les protéines. Par conséquent, la plupart des ARNnc intergéniques, qui ont été transcrits à partir des deux brins à proximité des gènes codant pour les protéines, étaient incompatibles avec des explications triviales telles que le bruit transcriptionnel ou les UTR mal annotés. Nous devons donc considérer que ces ARNnc intergéniques proches des gènes peuvent fonctionner comme cis-éléments régulateurs de leurs gènes voisins ou comme trans-séquences régulatrices agissantes. Des études antérieures ont confirmé qu'il existe des ARNnc fonctionnels transcrits à partir du promoteur, du début de la transcription et des régions terminales des gènes codant pour les protéines dans l'orientation sens [10], [11]. Les preuves des ARNnc antisens proviennent d'une étude récente utilisant la technologie tSMS (true Single Molecule Sequencing) [12], [29]. Dans cette étude, un nouveau mécanisme de copie d'ARN a été proposé, capable de produire de petits ARN poly(U) antisens à partir des régions de début ou de terminaison de la transcription des gènes, confirmant que certaines EST humaines résultent de ce processus [12]. Ceci est cohérent avec nos résultats, où une fraction significative des ARNnc antisens proches du gène a été cartographiée très près des extrémités 3 & 02032 des gènes. Cependant, bien que la signification fonctionnelle de ces transcrits antisens soit inconnue, ce mécanisme de copie n'explique pas la fraction significative des ARNnc proches des gènes provenant du brin antisens beaucoup plus loin des extrémités 3 & 02032 des gènes. Même pour les ARNnc intergéniques proches de 3 gènes codant pour les protéines voisines d'extrémité, dans la même orientation transcriptionnelle, qui pourraient être transcrits à partir d'UTR non caractérisés potentiels, il est également possible qu'il s'agisse de transcrits fonctionnels indépendants, qui ont été observés. principalement dans les génomes humains, de souris et de mouches, et classés comme uaRNA [30]. Dans l'ensemble, il est difficile de trouver une explication raisonnable, cohérente et triviale pour l'apparition de transcrits non codants tels que nos ARNnc nous conduisant à conclure qu'ils ont un objectif biologique.

Niveau de conservation des ARNnc

La grande majorité des ARNnc que nous avons identifiés n'avaient pas de similarité de séquence détectable avec des ARNnc bien annotés. Cependant, en général, l'analyse de conservation des ARNnc bovin basée sur les scores phastCons et GERP++ a montré que les ARNnc étaient moins conservés que les gènes codant pour les protéines, tout en présentant de fortes signatures de sélection. Notre résultat était cohérent avec les études précédentes, qui ont démontré que les ARNnc pouvaient subir des contraintes sélectives différentes par rapport aux gènes codant pour les protéines [7], [9], [51]. Notre résultat était également cohérent avec la possibilité que les ARNnc puissent représenter différentes catégories d'ARNnc, chacune manifestant différents niveaux de conservation de séquence.

Nous avons observé que les ARNnc intergéniques étaient légèrement plus conservés que les introniques. Cette découverte a indiqué qu'il pourrait y avoir plus d'éléments fonctionnels transcrits à partir des régions intergéniques du génome, tels que les nouveaux ARNnc récemment découverts, y compris les uaARN, les PASR, les lincARN et les ARN de type amplificateur, identifiés à partir des régions intergéniques [7], [9], [10], [11], [30].

Motifs spécifiques de séquence identifiés à partir d'ARNnc intergéniques

Des études antérieures ont signalé qu'il existe des ARNnc petits ou longs transcrits à partir d'éléments régulateurs de gènes, comme des régions promotrices. Un rapport de Hans et al. ont montré qu'il existe des ARNnc transcrits à partir de régions promotrices, qui ont été nommées ARN associés au promoteur [52]. Ces ARN associés au promoteur fonctionnent comme des motifs de reconnaissance pour diriger les complexes de silençage épigénétique vers les régions promotrices des gènes cibles. Les ARN associés au promoteur peuvent également interagir avec les sites de reconnaissance des facteurs de transcription pour former des triplex ADN:ARN, qui interagissent ensuite avec le promoteur ADNr, médiant le recrutement de DNMT3b et inhibant les gènes ARNr par régulation épigénétique [53]. L'emplacement de ces ARNnc intergéniques bovins à 5 extrémités par rapport à leurs gènes voisins correspondants et l'existence de motifs de séquence communs indiquent que ces motifs de séquence d'ARNnc intergéniques peuvent fonctionner comme des sites de reconnaissance pour les protéines de liaison à l'ARN, qui forment une protéine d'ARN complexe pour moduler l'expression du gène cible. Certains motifs de séquence de nos ARNnc intergéniques à 5 extrémités ont montré une forte similitude avec des motifs d'ADN connus et le nombre presque égal de motifs sens et antisens distribués dans ces ARNnc intergéniques à 5 extrémités transcrits a indiqué qu'ils pourraient être compatibles avec différents modèles de régulation. Les motifs de séquence sens et antisens pourraient tous deux se lier à des motifs d'ADN connus pour former des triplex ADN:ARN qui régulent l'expression des gènes comme ci-dessus. Alternativement, cela pourrait également être la transcription des ARNnc intergéniques eux-mêmes qui interfère avec la liaison des facteurs de transcription aux sites cibles dans les régions promotrices. Il a été rapporté que les motifs de séquence sont largement distribués dans les 3&x02032 UTR des gènes codant pour les protéines. Ils ont tendance à être des sites de reconnaissance de protéines de liaison à l'ARN ou des sites cibles de miARN, qui jouent un rôle important dans la stabilité ou la dégradation de l'ARNm [54]. L'existence de motifs de séquence dans les ARNnc intergéniques indique qu'un système de régulation similaire peut également impliquer des ARN non codants.

Corrélation d'expression et signification fonctionnelle

La faible corrélation d'expression entre les ARNnc intergéniques et leurs gènes voisins ne signifie pas qu'ils manquent de signification fonctionnelle. Trois arguments soutiennent ce point de vue. Tout d'abord, la plage dynamique observée de l'abondance des balises MPSS pour les ARNnc intergéniques était très similaire à celle des balises RefSeq. Cela implique que des niveaux ou des types de régulation similaires existent pour les ARNnc et les ARNm intergéniques. Deuxièmement, les profils d'expression du MPSS bovin que nous avons analysés ont été générés à partir de plusieurs sources, y compris différents tissus/lignées cellulaires, différents stades de développement et différents sexes [24]. Des études ont confirmé que les ARNnc intergéniques ont tendance à être exprimés de manière spécifique au tissu ou au développement [55], [56]. Les ARNnc intergéniques dans différents tissus ou stades de développement peuvent être réprimés ou activés. Cela rendra la corrélation de l'expression floue et imprévisible lorsque ces étapes sont regroupées pour l'analyse. Troisièmement, les ARNnc intergéniques pourraient représenter un large spectre d'ARN fonctionnels non codants. Différentes classes d'ARNnc utilisent différents mécanismes pour réguler l'expression des gènes. Certains ARNnc intergéniques qui sont cis-les régulateurs pourraient avoir de fortes corrélations avec leurs gènes voisins.Alors que les ARNnc intergéniques fonctionnent dans trans pourraient montrer une faible corrélation avec leurs gènes voisins. Les scores MIC pour chaque ARNnc intergénique avec tous les RefSeqs ont confirmé que de nombreux ARNnc intergéniques présentaient de fortes corrélations avec un certain nombre de gènes codant pour des protéines non voisins, ce qui indiquait que les ARNnc intergéniques pouvaient avoir plusieurs cibles et être impliqués dans plusieurs réseaux de régulation génique. Chez l'homme, la souris et le poisson zèbre, des études basées sur l'ARN-seq ont également montré qu'il n'y a pas de forte corrélation d'expression entre les ARNnc intergéniques et les gènes voisins au niveau global [55], [56].

En conclusion, nous avons démontré que les ensembles de données EST peuvent être utiles pour identifier des ARNnc ou des précurseurs d'ARNnc. L'analyse de la distribution génomique et de la conservation des ARNnc a suggéré que ces transcrits n'étaient pas d'origine triviale et provenaient pour la plupart de régions génomiques présentant des signatures de sélection négative ou de conservation. Nos résultats soutiennent le point de vue que la plupart des ARNnc sont fonctionnels dans le contexte de l'hypothèse du régulon [57] et que d'autres études devraient viser à valider cela expérimentalement. Enfin, nous supposons que certains des ARNnc proches des gènes que nous avons identifiés peuvent agir comme cis-éléments d'expression génique régulateurs des gènes régulateurs par le biais de certains mécanismes encore inconnus, mais que la plupart d'entre eux peuvent être trans-agissant.


Voir la vidéo: LES CONTRAIRES Apprends les mots contraires avec les jumeaux Paprika! (Juillet 2022).


Commentaires:

  1. Mizahn

    Ne vous en faites pas !

  2. Sethos

    Absolument d'accord avec vous. Il y a quelque chose dedans aussi, ça me semble une excellente idée. Je suis d'accord avec toi.

  3. Daimhin

    À mon avis, c'est une question intéressante, je participerai à la discussion.

  4. Babatunde

    Cela semble assez séduisant

  5. Dok

    C'est la bonne information

  6. Arara

    ))))))))))) Je ne peux pas croire :)

  7. Vudosho

    Une bonne question



Écrire un message