Informations

18.7 : Polymorphismes - Biologie

18.7 : Polymorphismes - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Un polymorphisme est une variante génétique qui apparaît dans au moins 1% d'une population. (par exemple, les groupes sanguins ABO humains, le facteur Rh humain et le complexe majeur d'histocompatibilité humain). En fixant le seuil à 1 %, il exclut les mutations spontanées qui peuvent s'être produites dans - et se propager à travers les descendants d'une seule famille.

Polymorphismes protéiques

Tous les exemples ci-dessus sont des produits protéiques d'allèles. Ceux-ci peuvent être identifiés par sérologie, c'est-à-dire en utilisant des anticorps pour détecter les différentes versions de la protéine. (Les anticorps ont provoqué l'agglutination des globules rouges dans ce test) et l'électrophorèse - si des modifications d'acides aminés dans la protéine modifient sa charge électrique nette, elle migrera plus ou moins rapidement dans un champ électrique. Les enzymes sont souvent polymorphes. Une population peut contenir deux variantes ou plus d'une enzyme codée par un seul locus. Les variants diffèrent légèrement dans leur séquence d'acides aminés et cela les amène souvent à migrer différemment sous électrophorèse. En traitant le gel avec le substrat de l'enzyme, sa présence peut être visualisée.

Électrophorèse d'extraits de tissus de 15 rainettes vertes différentes (Hyla cinerea) révèle 4 versions alléliques de l'enzyme aconitase (une des enzymes du cycle de l'acide citrique). Les résultats:

  • Huit grenouilles (n° 2, 3, 4, 6, 7, 9, 12 et 14) étaient homozygotes pour l'allèle M.
  • La grenouille #8 était homozygote pour l'allèle E.
  • Trois grenouilles (#1, 11, 15) sont hétérozygote pour le M et S allèles.
  • Deux (#5, 13) étaient hétérozygotes pour M et E.
  • La grenouille #10 était hétérozygote pour M et F.

Les variantes électrophorétiques d'une enzyme présentes dans une population sont appelées allozymes.

Polymorphismes de longueur de fragment de restriction (RFLP)

Les protéines sont des produits de gènes et les versions polymorphes sont donc simplement le reflet de différences alléliques dans le gène ; c'est-à-dire des différences alléliques dans l'ADN. Souvent, ces changements créent de nouveaux - ou abolissent les anciens - sites pour que les enzymes de restriction coupent l'ADN. La digestion avec l'enzyme produit alors des fragments d'ADN d'une longueur différente. Ceux-ci peuvent être détectés par électrophorèse. La plupart* des RFLP sont créés par une modification d'un seul nucléotide dans le gène, c'est pourquoi on les appelle polymorphismes nucléotidiques (SNP).

Polymorphismes nucléotidiques simples (SNP)

Les développements dans le séquençage de l'ADN permettent désormais de rechercher facilement des versions alléliques d'un gène en séquençant des échantillons du gène prélevés sur différents membres d'une population (ou sur un individu hétérozygote). Les allèles dont la séquence ne révèle qu'un seul nucléotide modifié sont appelés polymorphismes nucléotidiques simples ou SNP. Les SNP peuvent se produire dans des parties non codantes du gène, de sorte qu'ils ne seraient pas visibles dans le produit protéique. Ils pourraient ne pas altérer le site de coupe des enzymes de restriction connues, de sorte qu'ils ne seraient pas détectés par l'analyse RFLP. En octobre 2005, plus d'un million de SNP avaient été identifiés dans le génome humain.

Copier les polymorphismes numériques (CNP)

L'analyse génétique (à l'aide de puces à ADN et de FISH) a révélé une autre classe de polymorphismes humains. Ces polymorphismes de nombre de copies sont des duplications ou des suppressions importantes (des milliers de paires de bases) que l'on trouve chez certaines personnes mais pas chez d'autres. En moyenne, une personne diffère d'une autre par 11 d'entre elles. Un ou plusieurs ont été trouvés sur la plupart des chromosomes, et la liste est probablement incomplète. Bien que la plupart de cet ADN ne soit pas codant, des gènes fonctionnels sont intégrés dans certains d'entre eux. Exemple: AMY1, le gène codant pour l'amylase salivaire, une enzyme qui digère l'amidon. Les humains varient dans le nombre de copies de AMY1 dans leur génome.

  • Les populations dont le régime alimentaire est riche en amidons (par exemple, de nombreux Américains, Japonais) ont en moyenne 7 copies du gène.
  • Les populations ayant un régime alimentaire pauvre en amidon (par exemple, les tribus nomades en Sibérie dont le régime alimentaire est dominé par les produits laitiers et le poisson) n'ont en moyenne que 5 copies.

Dans le cas d AMY1, plus il y a de copies présentes, plus il y a d'enzyme produite. On ne sait pas comment une personne s'adapte à une modification du nombre de gènes autosomiques (contrairement à la façon dont les femmes humaines ajustent l'activité des gènes sur leurs deux chromosomes X pour qu'elle corresponde à celle des hommes avec leur chromosome X solitaire).

Comment les polymorphismes sont-ils utiles ?

L'analyse du polymorphisme est largement utilisée. Dans le typage tissulaire, il est utilisé pour trouver la meilleure correspondance entre le donneur, par exemple un rein, et le receveur. Il est utilisé pour trouver les gènes de la maladie (par exemple, le gène de la maladie de Huntington a été localisé lorsque la présence de la maladie s'est avérée être liée à un RFLP dont l'emplacement sur le chromosome était connu). Dans les études de population, il est utilisé pour évaluer le degré de diversité génétique dans une population, notamment :

  • L'étude McAlpine, qui a produit la photo ci-dessus, a révélé que les grenouilles hétérozygotes étaient des reproducteurs plus prospères que les homozygotes.
  • Une recherche de polymorphismes chez les éléphants de mer et les guépards a révélé qu'ils en ont peu ou pas.
  • Déterminer si deux populations représentent des espèces distinctes ou des races de la même espèce. Cela est souvent essentiel à l'application des lois protégeant les espèces menacées.

Suivi des schémas de migration d'une espèce (par exemple, les baleines).

Comment naissent et persistent les polymorphismes ?

Ils surgissent par mutation. Mais qu'est-ce qui les maintient dans la population ? Plusieurs facteurs peuvent maintenir le polymorphisme dans une population.

  • Effet fondateur : Si une population a commencé avec quelques individus - dont un ou plusieurs portaient un allèle particulier - cet allèle peut devenir représenté dans de nombreux descendants. Dans les années 1680, Ariaantje et Gerrit Jansz ont émigré de Hollande en Afrique du Sud, l'un d'eux apportant un allèle de la maladie métabolique bénigne porphyrie. Aujourd'hui, plus de 30 000 Sud-Africains sont porteurs de cet allèle et, dans tous les cas examinés, peuvent remonter à ce couple - un exemple remarquable de l'effet fondateur.
  • Dérive génétique: Un allèle peut augmenter - ou diminuer - en fréquence simplement par hasard. Tous les membres de la population ne deviendront pas parents et tous les groupes de parents ne produiront pas le même nombre de descendants. L'effet, appelé dérive génétique aléatoire, est particulièrement fort dans les petites populations (par exemple, 100 couples reproducteurs ou moins) et lorsque l'allèle est neutre; c'est-à-dire qu'il n'est ni utile ni délétère

Finalement, la population entière peut devenir homozygote pour l'allèle ou - tout aussi probable - l'allèle peut disparaître. Avant que l'un ou l'autre de ces destins ne se produise, l'allèle représente un polymorphisme.

Deux exemples de réduit polymorphisme par dérive génétique :

  • Vers 1900, la chasse au nord éléphant de mer au large de la côte du Pacifique avait réduit sa population à seulement 20 survivants. Depuis la fin de la chasse, la population s'est redressée de cette goulet d'étranglement démographique à quelque 100 000 animaux aujourd'hui. Cependant, ces animaux sont homozygotes pour chacun des loci de gènes qui ont été examinés.
  • Guépards, le plus rapide des animaux terrestres, semble avoir traversé une période similaire de petite taille de population avec la dérive génétique qui l'accompagne. L'examen de 52 loci différents n'a révélé aucun polymorphisme ; c'est-à-dire que ces animaux sont homozygotes à tous les 52 loci. Le manque de variabilité génétique est si profond que les guépards accepteront les greffes de peau les uns des autres, tout comme le font les jumeaux identiques (et les souches de souris consanguines). Il reste à voir si une population avec une si petite diversité génétique peut continuer à s'adapter à un environnement changeant.

Sélection naturelle

Copier les polymorphismes de nombres

Le nombre variable d'exemplaires du AMY1 dans différentes populations humaines semble provenir de la pression évolutive des différences dans la teneur en amidon de leur régime alimentaire.

Polymorphisme équilibré

Dans les régions du monde (par exemple, certaines parties de l'Afrique) où le paludisme causé par Plasmodium falciparum est fréquent, l'allèle de l'hémoglobine drépanocytaire est également fréquent. En effet, les enfants qui héritent d'un gène de la chaîne bêta «normale» de l'hémoglobine et d'un gène de la drépanocytose ont plus de chances de survivre que l'un ou l'autre homozygote. Les enfants homozygotes pour l'allèle drépanocytaire meurent jeunes de la drépanocytose, mais les enfants homozygotes pour la chaîne bêta "normale" sont plus susceptibles de contracter la maladie et de mourir du paludisme à falciparum que les hétérozygotes. D'où la fréquence relativement élevée de l'allèle dans les régions impaludées. Lorsque la sélection naturelle favorise les hétérozygotes par rapport aux deux homozygotes, le résultat est polymorphisme équilibré. Il rend compte de la persistance d'un allèle même s'il est délétère lorsqu'il est homozygote.

Autre exemple : les protéines prions

Toutes les populations humaines sont polymorphes pour la protéine prion PrPC. Il est codé par le gène de la protéine prion (PRNP). Deux des allèles ont des codons différents à la position 129 - un encodage méthionine; L'autre valine. Homozygotie pour soit l'allèle augmente la sensibilité aux maladies à prions. Les personnes hétérozygotes sont plus résistantes. Une étude portant sur des femmes âgées ayant survécu à l'épidémie de kuru de la première moitié du 20e siècle (manger les tissus des défunts était interdit en 1950) a montré que 76,7 % d'entre elles étaient hétérozygotes. Ce tableau compare les fréquences des gènes dans cette population ainsi que dans une population qui n'a jamais pratiqué de fêtes mortuaires.

Tableau 1 : M est l'allèle codant pour la méthionine ; V l'allèle codant pour la valine.
MMMVVV
Survivants0.1330.7670.100
Non exposé0.2210.5140.264

Un calcul rapide montrera que le pool génétique des femmes exposées s'écarte largement de ce qui serait trouvé si la population était en équilibre Hardy-Weinberg. Dans ce cas, une forte sélection de mortalité en est la cause. Le pool génétique de la population non exposée est proche de l'équilibre Hardy-Weinberg. Ici, encore une fois, la sélection naturelle a favorisé les hétérozygotes par rapport aux deux homozygotes (et a conduit à la spéculation que le cannibalisme aurait pu être courant plus tôt dans l'histoire humaine).

Sélection naturelle vs. sexuelle : polymorphisme équilibré chez le mouton Soay

Hirta est une petite île de l'Atlantique Nord à 100 miles au large de la côte nord-ouest de l'Écosse. En 1932 une petite (107) population de moutons domestiques (Ovis bélier) a été introduit sur l'île depuis l'île voisine de Soay. Depuis lors, ces moutons ont été autorisés à courir à l'état sauvage et, depuis 1985, ont fait l'objet d'études intensives. Les moutons ont des cornes et, chez les mâles, celles-ci jouent un rôle important dans la compétition pour les femelles. La taille des cornes est fortement influencée par un seul locus de gène, RXFP2, avec deux allèles : Ho+ et HoP.

  • Homozygote Ho+Ho+ les mâles ont les plus grandes cornes et engendrent plus de progéniture, mais ont une survie réduite.
  • Homozygote HoPHoP les mâles ont des cornes plus petites (parfois même des cornes résiduelles appelées écueils). Ces mâles ont moins de succès dans l'accouplement mais ont une survie accrue.
  • hétérozygote Ho+HoP les mâles réussissent presque aussi bien à s'accoupler que Ho+Ho+ mâles et survivent presque aussi bien que HoPHoP mâles. Dans l'ensemble, les hétérozygotes ont donc une meilleure aptitude globale que les homozygotes - un autre exemple de polymorphisme équilibré. Il se présente comme un compromis entre les effets opposés de sélection naturelle (survie) et sélection sexuelle (succès reproducteur) sur un seul locus de gène.

Vous pouvez lire ces découvertes dans Johnston, Susan. E., et al., La nature 502, 93–95, 3 octobre 2013.


Récepteurs plaquettaires

Kenneth J. Clemetson , Jeannine M. Clemetson , dans Plaquettes (troisième édition) , 2013

Un GPVI

GPVI est l'un des membres importants de la superfamille des immunoglobulines (Ig) sur les plaquettes et, en plus de α2β1, est l'autre récepteur plaquettaire établi majeur pour le collagène. Bien que la GPVI ait été reconnue plus tôt sur les plaquettes 12 , sa fonction était alors obscure. La détection de patients manquant ou déficients en GPVI a été une étape importante dans l'identification de cette glycoprotéine en tant que récepteur critique du collagène. Le premier patient identifié avait des plaquettes avec un défaut spécifique de réponse au collagène. 118 GPVI a été cloné en 1999 14 suite à la démonstration que l'agoniste plaquettaire du serpent, la convulxine, agit par agrégation de GPVI. 119 Les plaquettes dépourvues de GPVI présentent toujours de faibles réponses au collagène mais pas à la convulxine, ce qui montre que la réticulation α2β1 est suffisante pour activer les plaquettes dans une mesure limitée. 120 GPVI est décrit en détail au chapitre 11 .


Types de polymorphisme

Polymorphismes protéiques

Polymorphisme des protéines se produit lorsque plus d'une variation ou d'un allèle occupent le locus de ce gène particulier au sein d'une population. Ainsi, ce type de gène peut conduire à des expressions anormales de la protéine nutritive, ce qui peut alors conduire à de nombreuses maladies.

RFLP

En général, Polymorphismes de longueur de fragment de restriction (RFLP) est une nouvelle technique ou méthode qui utilise des variations dans l'ordre homologue de l'ADN (acide désoxyribonucléique).

Il permet de différencier les célibataires ou les individus, les populations ou les différentes espèces pour cerner l'emplacement et l'écholocation des gènes dans un ordre donné ou dans une séquence.

Copier les polymorphismes numériques (CNP)

Il s'agit d'une autre classification du polymorphisme chez l'homme. Il s'agit de grandes duplications ou délétions présentes chez quelques individus d'une population. Chaque personne, en moyenne, est différente d'une autre de onze CNP. Un ou plusieurs CNP sont présents sur la majorité des chromosomes.

Polymorphismes nucléotidiques simples (SNP)

Les SNP sont les variations génétiques les plus observées chez les individus. Un nucléotide est un élément constitutif de l'ADN. Chaque SNP correspond à un seul variant nucléotidique. Le remplacement du nucléotide cytosine par le nucléotide thymine est un exemple de polymorphisme d'un seul nucléotide.

Si un gène a plus d'un allèle, cela signifie que le SNP est présent dans ce gène. Les SNP peuvent également être responsables de variations dans les séquences d'acides aminés. Cependant, en plus de leur association avec un gène, des polymorphismes nucléotidiques simples peuvent également se produire dans des zones non codantes de l'ADN.

Environ 90% de la variation génétique chez les êtres humains est due aux SNP. On observe que la plupart des variations n'affectent pas la fonction cellulaire chez l'homme. Cependant, certaines études ont montré que les SNP peuvent être une cause du développement de diverses maladies telles que le cancer. Ils peuvent également influencer les réponses physiologiques aux médicaments.

Polymorphisme de l'ADN

Les séquences d'ADN peuvent varier considérablement d'un individu à l'autre. Nous avons collectivement appelé ces changements Variantes d'ADN. La signification fonctionnelle causée par la plupart des variantes d'ADN n'est pas très apparente. Dans de tels cas, ces variations sont appelées Polymorphismes de l'ADN. Le polymorphisme est une différence existant dans la séquence d'ADN qui prévaut chez environ 1% de la population.

Les gènes codant pour les protéines n'occupent que 1 à 2 % du génome humain. Par conséquent, un plus grand nombre de variations polymorphes n'aura pas d'impact direct sur l'activité des gènes. Cependant, si une variation polymorphe tombe dans le région de régulation d'un gène, cela peut entraîner de graves implications fonctionnelles.

Il existe également des variantes d'ADN qui entraînent des altérations des acides aminés dans la protéine de l'ADN. Mais nous classons toujours ces variations comme neutre, surtout si la fonction de la protéine d'ADN n'est pas affectée par le changement d'acides aminés.

Les polymorphismes d'ADN sont utiles à diverses fins. Par exemple, il est utilisé en médecine moléculaire. Analyse de liaison ADN est une technique qui permet de détecter les maladies à travers les familles. Le polymorphisme de l'ADN est également utile pour Typage ADN médico-légal.

Polymorphisme enzymatique et protéique

Les enzymes sont des substances qui présentent un grand polymorphisme. La population d'une espèce contient généralement deux ou plus de deux variantes enzymatiques. Un seul locus les encode. Ils ont de légères variations dans leur séquence d'acides aminés. Ces variations subtiles les amènent généralement à migrer différemment sous électrophorèse.

Un phénomène bien documenté dans les populations humaines est connu sous le nom de polymorphisme enzymatique. Des études électrophorétiques ont montré des résultats indiquant qu'environ un tiers des enzymes du corps humain subissent polymorphisme génétique.

Polymorphisme génétique

Les types mentionnés ci-dessus peuvent tous relever du polymorphisme génétique. Cependant, si nous sommes particuliers avec le terme, il se réfère spécifiquement à la variation des gènes. Le polymorphisme génétique est un type de polymorphisme qui implique plusieurs allèles partageant le même locus génétique. Les variantes qui ont une fréquence d'occurrence d'au moins 1 % dans cette population sont considérées polymorphe.

Polymorphes génétiques peuvent exister parce que différents génotypes au sein d'une population se sont avérés adaptés et utiles dans diverses niches. En conséquence, la population les a tous retenus. Ainsi, les variantes d'un trait particulier sont devenues une partie de cette population.

Exemple: Les chats et les chiens ont différentes combinaisons d'allèles pour la pigmentation. Le locus E chez les chiens a cinq variantes et leurs mélanges variables entraînent différents modèles de pigmentation de la fourrure.

Idées fausses : il y a deux idées fausses générales concernant le polymorphisme. Ils sont les suivants :

Des traits tels que la hauteur ont des variations continues et ils peuvent tout aussi bien être hérités mais ils ne relèvent pas de la catégorie du polymorphisme.

Les variantes d'un gène différent selon la géographie ne sont pas incluses dans le polymorphisme car le terme est spécifique aux variantes existant dans le même habitat en même temps.


Résultats

Nous avons généré des lectures génomiques appariées de 2 × 95 nucléotides et 2 × 100 nucléotides sur une machine de séquençage Illumina HiSeq2000 et de 2 × 150 nucléotides sur un instrument Illumina GAIIx (tableau 1). Trois lignes de Flowcell HiSeq de lectures de 2 × 95 nucléotides ont donné 246 millions de paires de lectures correspondant à 46,8 milliards de bases de données de séquence. Ces données étaient un mélange de lectures génomiques de B. vulgaris (Bv, 99%) et le bactériophage PhiX174 (PhiX, 1%) ajouté comme contrôle de qualité standard. Une ligne de Flowcell HiSeq de 2 paires de lecture de 100 nucléotides contenant 99 % d'ADN génomique de A. thaliana (At) et 1% de PhiX ont donné 71 millions de paires de lecture correspondant à 14,3 milliards de bases séquencées. Une piste contenant uniquement PhiX a été séquencée sur un GAIIx et a donné 9 millions de paires de lecture de longueur 2 × 150 nucléotides (2,7 milliards de bases).

Propriétés des lectures brutes et critères de filtrage

Comme première évaluation de la qualité, nous avons analysé les séquences de lecture brutes et leurs valeurs de qualité correspondantes attribuées par le logiciel d'appel de base. Le logiciel d'appel de base Illumina calcule un score de qualité pour chaque base reflétant la probabilité que la base appelée soit erronée.Le calcul prend en compte l'ambiguïté du signal pour la base respective ainsi que la qualité des bases voisines et la qualité de l'ensemble de la lecture. Le score de qualité Q est défini par Q = -10 log10(P) par exemple, Q = 30 correspond à la probabilité P = 0,001 qu'une base a été appelée de manière incorrecte. La valeur la plus élevée possible pour Q attribuée par le logiciel d'appel de base est 40, correspondant à P = 0.0001.

Dans les échantillons séquencés sur le HiSeq, 80 % (Bv + PhiX, longueur de lecture 95 nucléotides) et 74 % (At + Phix, 100 nucléotides) de toutes les bases avaient des scores de qualité d'au moins 30, alors que pour les données PhiX (150 nucléotides ) séquencé sur le GAIIx cette fraction était de 64%. Le score de qualité moyen était Q = 31,8 (Bv + PhiX) et Q = 30,2 (At + PhiX) pour les données HiSeq et Q = 27,2 pour les données GAIIx. Pour les deux plates-formes, la première lecture d'une paire de lecture avait des scores de qualité moyens légèrement meilleurs que la deuxième lecture. La différence de Q entre les deux lectures était de l'ordre de 0,3 (HiSeq) et 1,7 (GAIIx), respectivement.

Les bases non appelées sont représentées par un 'point' dans la séquence et par un 'B' dans la chaîne de qualité (correspondant à un score de qualité de Q = 2, les valeurs de qualité sont représentées par des caractères ASCII). Dans l'ensemble de données HiSeq, 1,4% de toutes les bases n'étaient pas appelées, affectant 2,4% de toutes les lectures, et 0,5% de toutes les lectures étaient entièrement composées de bases non appelées. Dans l'ensemble de données GAIIx, nous avons trouvé que 14 % de toutes les bases n'étaient pas appelées, affectant 16 % de toutes les lectures, et 7 % de toutes les lectures étaient entièrement non appelées (tableau 1).

La qualité de l'extrémité 3' d'une lecture de séquençage peut être faible pour des raisons telles que des artefacts de phasage. Si la plupart des bases à l'extrémité 3' d'une lecture ont des valeurs de qualité de Q 15, le logiciel d'appel de base considère l'ensemble du segment comme non fiable et attribue des valeurs de Q = 2 aux bases de ce segment (représenté par un 'B' dans la chaîne de qualité, tout comme les bases non appelées). Illumina recommande d'exclure cette partie de la lecture dans une analyse plus approfondie (Guide de l'utilisateur CASAVA1.7). Dans ce qui suit, nous utilisons le terme « queue B » pour les B consécutifs à l'extrémité 3' d'une lecture, y compris les bases appelées de manière non fiable ainsi que les bases non appelées. Les cas les plus extrêmes - c'est-à-dire les lectures entièrement composées de B ou les lectures contenant un seul B à l'extrémité 3' - sont également considérés comme des lectures B-tailed. La fraction de bases situées dans les queues B était de 13,8% dans les données HiSeq et de 25,8% dans les données GAIIx. Parmi ces bases de queue B, 10,3 % (HiSeq) et 53,3 % (GAIIx) n'étaient pas appelées. La distribution de la longueur de la queue B montre une légère augmentation vers les queues B courtes et une forte augmentation vers les lectures entièrement composées de B. La taille prédominante est la queue B pleine longueur même après la suppression des lectures entièrement composées de bases non appelées (Figure S3 dans le fichier supplémentaire 1). Dans les deux ensembles de données HiSeq, en moyenne, 32,8% de toutes les lectures que nous avons étudiées avaient des queues B, et 19,6% de toutes les paires de lectures avaient une queue B dans les deux lectures. Dans les données GAIIx, 67,9 % de toutes les lectures avaient une queue B et 53 % de toutes les paires de lectures avaient une queue B dans les deux lectures. En excluant les lectures entièrement composées de bases non appelées, la longueur de lecture moyenne après rognage de la queue B a été réduite à 122 bases dans les lectures GAIIx (longueur de lecture originale 150 nucléotides), à 85 bases pour les lectures de l'échantillon HiSeq Bv + PhiX (longueur de lecture originale 95 nucléotides) et à 74 bases pour les lectures HiSeq At + PhiX (longueur de lecture originale 100 nucléotides).

La suppression des queues B a un effet important sur le taux d'erreur attendu (déterminé par la moyenne de la probabilité d'erreur de chaque base selon les valeurs de qualité d'Illumina). Dans les données HiSeq Bv + PhiX, la suppression des queues B a réduit le taux d'erreur attendu de 7,09 % à 0,16 % et a réduit la sortie de données de 11 %. Dans les données GAIIx, le taux d'erreur attendu a diminué de 16,43 % à 0,23 %, réduisant la quantité de données de 25,8 %. Outre l'élimination de la queue B, d'autres filtres peuvent être appliqués en fonction de la mesure de qualité d'Illumina. Nous avons testé plusieurs critères de filtrage séparément et en combinaison et enregistré les taux d'erreur attendus qui en résultent (tableau 2). Le logiciel Illumina fournit une évaluation de la qualité de lecture en introduisant le filtre de chasteté. La chasteté est déterminée à partir du rapport des intensités de signal des quatre bases possibles dans chaque cycle de séquençage. Les lectures ne passent pas le filtre de chasteté si elles dépassent un certain seuil de chasteté au cours des 25 premiers cycles (voir Matériels et méthodes pour plus de détails). Le taux d'erreur attendu le plus faible a été obtenu pour la combinaison de critères de filtrage suivante : rognage de la queue B, filtre de chasteté réussi, suppression des lectures contenant des bases non appelées, conservation des lectures uniquement si au moins les deux tiers des bases de la première moitié de la lecture avaient des valeurs de qualité de Q 30.

La teneur en GC (%GC) des lectures HiSeq non filtrées était plus élevée que prévu : 40 % pour les données Bv + PhiX et 45,5 % pour At + PhiX. Les B. vulgaris la séquence de référence a un %GC de 35 % [8] et celui de la A. thaliana le génome est de 36% (calculé à partir de TAIR10 [9]). La fraction des lectures PhiX (44,7% GC) ne représente que 1 à 2% des données. Pour l'échantillon PhiX séquencé sur le GAIIx, le %GC de 45,7% est beaucoup plus proche de la valeur attendue de 44,7%.

Mappage des lectures brutes par rapport aux séquences de référence

Nous avons évalué la qualité réelle des lectures de séquençage en mappant les lectures par rapport à des séquences de référence de haute qualité. Nous avons utilisé la séquence PhiX du bactériophage de 5 kpb, la séquence d'insertion de 110 kpb d'un B. vulgaris clone BAC, et le chromosome 1 de 30 Mbp de A. thaliana comme références (voir Matériels et méthodes). Le petit génome PhiX dense en gènes est couramment utilisé dans le séquençage d'Illumina comme contrôle qualité. La betterave sucrière a un génome très répétitif, et à partir de Arabidopsis nous avons utilisé la grande séquence d'un chromosome entier afin d'inclure des références de différentes longueurs et propriétés dans notre étude.

Nous avons cartographié l'ensemble des données par rapport au génome de référence PhiX (5 386 pb) et avons conservé toutes les paires de lecture qui avaient réussi le filtre de chasteté Illumina, ne contenaient pas de séquence d'adaptateur et faisaient correspondre le génome de manière unique avec l'orientation de lecture correcte et la distance de cartographie attendue. Il en a résulté 4 302 400 et 887 009 paires de lecture PhiX séquencées sur le HiSeq (2 × 95 nucléotides avec betterave à sucre ou 2 × 100 nucléotides avec Arabidpose, respectivement) et 6 405 298 paires de lecture PhiX séquencées sur le GAIIx (2 × 150 nucléotides). Pour distinguer ces trois ensembles de données PhiX dans l'analyse suivante, nous utilisons les termes PhiX-95nt, PhiX-100nt et PhiX-GAIIx.

L'échantillon de betterave sucrière est dérivé d'une bibliothèque de fusils de chasse du génome entier qui a été séquencé dans trois voies HiSeq. La référence est l'insert BAC ZR-47B15 (109 563 pb), ici appelé « ZR », séquencé en qualité finie [8] et précédemment utilisé dans une étude sur la qualité des lectures Illumina réalisées sur l'instrument de séquençage GA I [2]. Nous avons mis en œuvre des étapes de filtrage pour les lectures de betterave sucrière afin d'exclure les lectures mappées sur ZR mais provenant d'une région différente du génome (voir Matériels et méthodes). De telles lectures mal attribuées pourraient conduire à des conclusions erronées sur la couverture de lecture et les taux d'erreur de lecture - par exemple, dans le cas de régions répétitives divergentes. Nous avons obtenu 53 101 lectures couvrant ZR (26 495 paires, 111 singletons). Cet ensemble de données de lecture est appelé Bv-95nt dans ce qui suit.

Les Arabidopsis les données de séquençage du génome entier ont été cartographiées par rapport à l'ensemble Arabidopsis séquence du génome. Les paires ont été conservées si elles avaient réussi le filtre de chasteté Illumina et correspondaient au chromosome 1 de manière unique avec l'orientation de lecture correcte et la distance de cartographie attendue, résultant en 5 815 990 paires (appelées ensemble de données At-100nt).

Lire la distribution sur la séquence de référence

Pour la plupart des applications de séquençage, il est souhaitable d'obtenir une répartition uniforme des lectures le long de la référence. Des améliorations dans la génération de clusters et la chimie de séquençage peuvent avoir conduit à une réduction des biais observés précédemment [2, 3]. Cependant, nous observons toujours une variation de couverture élevée par rapport à la référence ZR, et même dans le génome PhiX profondément couvert, nous observons une variation d'un facteur 2. Dans l'échantillon de betterave sucrière, la couverture par base de ZR variait de 0- à 159- fois, avec une moyenne de 49 fois (Figure 1a). Le génome PhiX a été couvert, en moyenne, 159 300 fois (plage de 106 500 à 224 000 fois) par les données PhiX-95nt (figure 1b), 34 710 fois (plage de 23 280 à 49 560 fois) par les données PhiX-100nt, et 375 100 fois (plage de 162 100 à 508 300 fois) par les données PhiX-GAIIx. Semblable aux rapports précédents, nous avons trouvé une corrélation positive entre le % GC et la couverture de lecture pour les deux échantillons de plantes (figures S1, S4a, b et S6a dans le fichier supplémentaire 1). PhiX, en revanche, n'a pas montré de corrélation significative entre le %GC et la couverture (figures S4c-e, S5f et S6b, c dans le fichier supplémentaire 1). Le génome de PhiX diffère des séquences de référence végétales par son %GC moyen plus élevé (PhiX, 44,7% ZR, 34,8% At, 35,9%) et sa plus petite variation %GC (1er et 99e centiles de PhiX, 41 à 49% de ZR, 24 à 47% de At, 20 à 50%). La sélection des régions ZR de %GC entre 31 % et 39 % a clairement montré une corrélation, mais pas les régions de %GC entre 41 % et 49 % (données non présentées). Cette découverte suggère que l'étendue de la corrélation %GC-couverture dépend de la plage %GC de la séquence de référence.

Distribution de la profondeur de couverture de lecture pour (a) les lectures Bv-95nt et (b) les lectures Phix-95nt. La couverture de lecture a été calculée par base. Dans trois calculs distincts, nous avons considéré toutes les positions (noir), les positions dans les régions en dessous (rouge) et les positions dans les régions au-dessus (bleu) de la teneur moyenne en GC (%GC) de la référence. Le %GC régional a été déterminé sur la base d'une fenêtre de 250 bases en amont et 250 bases en aval de chaque position. Contrairement à PhiX (b), la variation de couverture dans l'échantillon de betterave sucrière (a) est liée au %GC.

Aucune corrélation entre la couverture et le taux d'erreur (Figure S7a dans le fichier supplémentaire 1) ou la couverture et le score de qualité moyen n'a pu être détectée (testé pour ZR Figure S7b dans le fichier supplémentaire 1).

Accumulation de lectures avec B-tails

Intuitivement, les lectures avec des extrémités 3' de faible qualité (marquées d'une queue B dans la chaîne de qualité) devraient se produire à n'importe quelle position dans la séquence de référence. Cependant, nous avons remarqué que les lectures à queue B n'étaient pas distribuées au hasard mais accumulées à des endroits distincts, et dans plusieurs cas, l'accumulation a été trouvée presque exclusivement sur un brin (Figure 2a Figure S8 dans le fichier supplémentaire 1). Les scores Q moyens ont été diminués en fonction de l'endroit où les queues B s'accumulaient (Figure 2b), comme prévu, mais même après la coupe des queues B, les régions précédemment couvertes par les queues B affichaient toujours des scores Q moyens inférieurs dans les bases restantes (Figure 2c). Cette observation a été faite dans les données PhiX-95nt ainsi que dans les données Bv-95nt et pourrait être parfaitement reproduite avec les données PhiX-100nt (Figure S9a-d dans le fichier supplémentaire 1). En comparant nos données PhiX-GAIIx aux deux ensembles de données HiSeq PhiX, nous avons observé que certains des pics de faible qualité étaient communs aux deux plates-formes de séquençage (Figure S9a, e dans le fichier supplémentaire 1).

Répartition des bases de faible qualité le long du génome de référence PhiX. L'analyse a été effectuée sur des lectures dérivées d'une bibliothèque Illumina PhiX (ensemble de données PhiX-95nt). (une) Nombre de bases dans les queues B (bases consécutives de Q-score = 2 à l'extrémité 3' d'une lecture) par position. (b) Q-score moyen des bases dans les lectures non rognées. (c) Q-score moyen des bases dans les lectures coupées B-tail. (ré) Taux d'erreur de substitution par base observé. Les calculs pour (a-d) ont été effectués séparément pour le brin avant (vert) et le brin inverse (rouge). Valeurs de faible qualité accumulées dans certaines régions même après élimination des queues B. Les pics des taux d'erreur observés se produisent à des positions où des comptes de faible qualité accrus sont détectés, et dans la plupart des cas, le pic n'est vu que sur un brin.

L'exemple de région de la figure 3 illustre la découverte d'une accumulation spécifique à la région de queues B dans la référence ZR. La comparaison de cette région avant et après la coupe de la queue B montre que le nombre élevé d'erreurs de substitution, densément emballé dans une région distincte de la séquence de référence, disparaît dès que les queues B sont supprimées (Figure 3a, b). Une analyse plus approfondie a indiqué que 95% des lectures à queue B dans cette région étaient mappées sur le brin avant, suggérant une accumulation spécifique au contexte de séquence de lectures de faible qualité (plus précisément, des parties 3' de lectures de faible qualité). Toutes les paires de lectures avec une queue B dans cette région n'avaient la queue B que dans l'une des deux lectures de la paire. L'accumulation de bases de faible qualité et d'erreurs de séquençage, y compris leur directionnalité, a également été observée par Nakamura et al. [6] dans les données de lecture bactérienne séquencées sur un GAIIx, mais dans leur étude, les valeurs de qualité n'étaient pas considérées comme un critère pour filtrer les parties erronées des lectures. Ils ont plutôt tronqué les reads d'un nombre fixe de bases ou supprimé des reads complets contenant un certain nombre de mésappariements. En enlevant uniquement la queue B d'une lecture, nous supprimons la grande majorité des bases erronées et en même temps nous maintenons la perte de couverture au minimum. L'effet de la diminution de la couverture due au rognage de la queue B est évident pour les régions d'accumulation de la queue B. Lors de l'alignement des lectures coupées de la queue B de Bv-95nt sur ZR, 46 % de toutes les bases de référence ont été affectées par une diminution de la couverture (tableau 3) dans certains cas, la couverture est tombée à 5 % de la couverture par les lectures complètes (avec B -queue). Pour les lectures PhiX, le rognage de la queue B a réduit la couverture de chaque base du génome mais dans une plage plus étroite (couverture restante de 68 à 99 %). Cependant, la couverture médiane n'a diminué que de 3% pour ZR et PhiX.

Alignement des lectures avant (a) et après (b) rognage de la queue B dans une région sélectionnée de la référence ZR (positions 63 633 à 63 662). Les lectures mappées de manière unique à partir de l'ensemble de données Bv-95nt ont été visualisées à l'aide du navigateur Tablet [17]. Les lectures de correspondance directe sont affichées en gris, les lectures de correspondance inverse sont affichées en bleu, les bases de non-concordance sont affichées en blanc. Les longues étendues blanches ne sont pas appelées bases. Les discordances accumulées dans une région et presque toutes les discordances sont éliminées après la suppression de la queue B.

L'analyse de l'erreur de séquençage dans les paragraphes suivants a été effectuée après le rognage de la queue B.

Taux d'erreur de substitution et distributions

Les erreurs de substitution sont beaucoup plus fréquentes que les insertions ou les suppressions (indels) dans les données de séquençage Illumina (tableau 4). Dans les lectures PhiX-95nt coupées en queue B et sans adaptateur, par exemple, les substitutions de base représentent 99,5 % de toutes les erreurs détectées. Nous avons trouvé 7 615 erreurs de substitution à 6 537 positions différentes dans le résultat de la cartographie des données Bv-95nt (6 % de toutes les positions ZR affectées) et 1 792 190 erreurs de substitution à 1 523 614 positions différentes dans les données At-100nt (5 % de toutes les positions At du chromosome 1 postes concernés). Toutes les positions dans le génome PhiX ont été affectées par des erreurs de substitution après la cartographie des données PhiX-GAIIx pour les données HiSeq, une couverture réduite au niveau des régions terminales de la séquence de référence PhiX linéaire se référant à un génome circulaire a entraîné 3 bases (PhiX-95nt) et 28 bases (PhiX-100nt) restant sans erreur. En moyenne, nous avons compté à chaque position de référence 154 substitutions dans PhiX-95nt, 37 substitutions dans PhiX-100nt et 916 substitutions dans PhiX-GAIIx (reflétant la différence de couverture entre les trois échantillons PhiX). Cela correspond à un taux d'erreur de substitution moyen global de 0,11 % pour les deux jeux de données HiSeq PhiX et de 0,28 % pour le jeu de données PhiX-GAIIx. Les ensembles de données de lecture HiSeq des deux échantillons de plantes avaient tous deux un taux d'erreur de substitution global de 0,16 %. Les bases non appelées n'étaient pas comptées comme erreurs de séquençage. Dans les queues B de PhiX-95nt, nous trouvons un taux d'erreur de substitution considérablement accru de 6,5%.

Nous avons déterminé la distribution des taux d'erreur au sein d'une lecture. Dans un cycle de séquençage Illumina, un allongement d'exactement une base par molécule par cluster en présence des quatre nucléotides en même temps a lieu. Nous avons calculé le taux d'erreur par cycle en divisant le nombre de substitutions de bases dans un cycle particulier par le nombre de toutes les bases séquencées de ce cycle. Nous avons généralement observé des taux d'erreur par cycle plus faibles dans la première moitié des lectures et des taux d'erreur plus faibles dans la lecture 1 par rapport à la lecture 2. Les taux d'erreur par cycle allaient de 0,04 à 0,3 % dans les lectures PhiX-95nt et de 0,08 à 0,29 % dans les lectures Bv-95nt. Vers l'extrémité 3', le taux d'erreur double pour les lectures PhiX-95nt (figure 4a) et n'augmente pas pour les lectures Bv-95nt (figure 4b). Pour les ensembles de données At-100nt et PhiX-100nt, le taux d'erreur a été approximativement doublé (lecture 1) ou triplé (lecture 2) vers l'extrémité 3' des lectures (Figure S10a, b dans le fichier supplémentaire 1), et le Phix-GAIIx les données (longueur 150 nucléotides) ont montré une augmentation du taux d'erreur d'environ cinq à dix fois (figure S10c dans le fichier supplémentaire 1). Des taux d'erreur accrus jusqu'à 1,78 % (environ 16 fois) ont pu être observés aux extrémités 3' des données HiSeq si aucun ajustement de l'adaptateur n'a été effectué (Figure S10d dans le fichier supplémentaire 1). Le séquençage d'inserts de bibliothèque inférieurs à la longueur de lecture entraîne des lectures contenant des parties de l'adaptateur. Nous avons supprimé les lectures contenant la séquence de l'adaptateur avant l'analyse (voir Matériels et méthodes).

Taux d'erreur observés des lectures HiSeq de 2 × 95 nucléotides par cycle (moyenne sur toutes les tuiles de Flow Cell). La lecture 1 (à gauche) et la lecture 2 (à droite) ont été analysées séparément pour les données PhiX-95nt (une) et données Bv-95nt (b). L'ADN de PhiX et de betterave sucrière a été séquencé dans la même piste, et les lectures ont été mappées par rapport aux séquences de référence PhiX ou ZR, respectivement.

Dans les données de séquençage, des taux d'erreur accrus ont été observés dans certains cycles de séquençage (Figure 4 Figure S10 dans le fichier supplémentaire 1). Il s'est avéré que seule une fraction des lectures était affectée par ces pics. Lors de l'inspection de leur placement spatial dans la Flow Cell, nous avons constaté qu'ils se concentraient dans certaines régions (figure S11 et supplément de texte T1 dans le fichier supplémentaire 1). Les taux d'erreur accrus se sont systématiquement reflétés dans les scores de qualité moyens des cycles et des régions particuliers pour les lectures HiSeq (figures S16 et S17 dans le fichier supplémentaire 1) ainsi que les lectures GAIIx (données non présentées). Ainsi, la prise en compte des valeurs de qualité devrait éviter en toute sécurité les effets perturbateurs potentiels causés par ces valeurs aberrantes lors de l'analyse en aval.

Dans le génome de référence PhiX, nous avons trouvé 161 positions de taux d'erreur significativement augmentés allant de 0,36 % à 8,83 % (supérieur au taux d'erreur moyen plus l'écart type). Les 161 bases représentent 3,0% du génome PhiX mais 24,7% de toutes les erreurs de substitution se produisent à ces positions (données PhiX-95nt).Une inspection plus approfondie a révélé que les taux d'erreur à ces positions diffèrent entre les deux brins atteignant des pics de 18,7 % lors de la détermination des taux d'erreur spécifiques au brin (Figure 2d Tableau S1 dans le fichier supplémentaire 1). Nous avons testé la reproductibilité en utilisant plusieurs autres ensembles de données PhiX (générés sur les méthodes supplémentaires des instruments GAIIx et HiSeq dans le fichier supplémentaire 1) et un autre programme de cartographie. Entre différents échantillons et deux programmes de cartographie, les positions sujettes aux erreurs étaient hautement reproductibles (Figure S12 et S13 dans le fichier supplémentaire 1). Cependant, le résultat est moins évident dans les données GA (Figure S13d-f dans le fichier supplémentaire 1) que dans les données HiSeq (Figure S13a-c dans le fichier supplémentaire 1). Parmi les données GA, cela est moins évident dans les ensembles de données de nombres de cycles plus petits que dans l'ensemble de données de 150 cycles (Figure S9h dans le fichier supplémentaire 1). Les 161 positions elles-mêmes, mais aussi les positions environnantes, présentent des valeurs moyennes de qualité faibles (figures 2c), et les valeurs de qualité sont faibles non seulement pour les bases appelées à tort mais aussi pour les bases correctement appelées (figure 5). L'emplacement de ces pics à proximité des régions de queues B accumulées (Figure 2a) nous a incités à couper une plus grande partie que la queue B réelle (5, 10 et 15 bases de plus que la longueur de la queue B), mais une coupe étendue et même la suppression complète des lectures à queue B n'a pas pu éliminer les pics de taux d'erreur (figure S14 dans le fichier supplémentaire 1). Comme suggéré par l'accumulation de queue B, nous trouvons une distribution non aléatoire des erreurs au sein de la référence, différente pour les deux brins.

Scores de qualité moyens des bases correctes et incorrectes séquencées (données PhiX-95nt) aux positions sujettes aux erreurs et à toutes les autres positions dans la référence PhiX. Les bases couvrant 161 positions de taux d'erreur significativement élevés (A, B) dans la référence PhiX montrent des scores de qualité moyens inférieurs à ceux des bases couvrant d'autres positions (C, D). Ceci est vrai pour les bases correctement appelées (A, C) ainsi que pour les bases incorrectement appelées (B, D).

Pour déterminer la probabilité que des bases voisines particulières apparaissent à côté des erreurs de substitution, nous avons calculé pour toutes les positions d'erreur de substitution les fréquences des tuples à trois bases contenant le mauvais appel de base à la position médiane (Figure 6a). Pour les bases flanquant le mauvais appel de base, nous avons utilisé les bases de référence correspondantes afin d'exclure d'éventuelles erreurs supplémentaires. En règle générale, nous avons trouvé que les erreurs de substitution étaient plus probablement précédées d'un G ou d'un C que d'un A ou d'un T, ce qui est en accord avec les rapports précédents [2]. Dans PhiX-95nt, le contexte d'erreur le plus fréquemment observé G-error-G était 3,9 fois plus élevé que A-error-T. La position après l'erreur est généralement plus variable que la position avant l'erreur, mais dans les tuples commençant par la même base, la position après l'erreur était plus fréquemment G ou A que C ou T. Lors de l'inspection des bases jusqu'à cinq positions précédant une erreur , G et C ont été légèrement plus fréquemment observés dans tous les modèles (Figure S15 dans le fichier supplémentaire 1). Nous avons porté une attention particulière aux positions des taux d'erreur élevés mentionnés ci-dessus et avons recherché un modèle partagé par le contexte de séquence de ces positions. En effectuant une analyse k-mer (K ​​= 3, 4, 5) ainsi qu'un simple comptage des quatre bases différentes, nous avons inspecté le voisinage proche (5 pb) et éloigné (200 pb) en amont et en aval de 136 de l'erreur positions sujettes (nous avons exclu les régions terminales qui présentaient une perte de couverture dans la référence linéaire du génome circulaire). Dans le voisinage proche, nous avons trouvé un pourcentage élevé de G (47 %) en amont et un pourcentage légèrement plus élevé de A et T (59 %) en aval de la base d'erreur (% GC moyen de PhiX = 44,7 %). En conséquence, les k-mers en amont contenant des G étaient surreprésentés, avec TGG et AGG montrant les nombres les plus élevés dans les environs et GGG et CGG étant les k-mers les plus fréquents liés à tous les k-mers du génome (5 pb ainsi comme les environs de 10 pb testés). Dans le voisinage éloigné de 200 pb, aucun k-mer significativement surreprésenté n'a été trouvé. Nakamura et al. [6] ont rapporté que GGC a été trouvé dans les environs de 10 pb de la plupart des positions de départ des régions sujettes aux erreurs dans leurs données. Nous avons trouvé ce motif dans les environs de 10 pb de seulement 31 des 136 positions sujettes aux erreurs dans nos données. Cependant, les positions de départ des régions sujettes aux erreurs détectées par Nakamura et al. ne sont pas nécessairement conformes aux positions à base unique des taux d'erreur élevés que nous rapportons ici (voir Discussion).

Fréquences et contexte des erreurs de séquençage et scores de qualité par rapport aux taux d'erreur observés. L'échantillon de betterave sucrière (jaune) et le Arabidopsis échantillon (bleu) ont été séquencés avec l'ADN PhiX (respectivement rouge et vert) sur un instrument de séquençage HiSeq2000. Seul l'ADN PhiX (noir) a été séquencé sur un GAIIx. (une) Contexte de séquence des erreurs de substitution. La fréquence des bases voisines une position en amont et en aval d'une position d'erreur est affichée. Des triplets de séquence ont été résumés pour tous les types de substitutions de bases à la position centrale (indiquée par un « e »). Nous avons compté les lectures couvrant les positions de triplet et ignoré les éventuelles erreurs de substitution supplémentaires dans la séquence de triplet de la lecture. La fréquence a été déterminée en divisant l'occurrence d'un triplet contenant une erreur de substitution centrale par l'occurrence de tous les triplets avec les mêmes bases marginales mais une base centrale variable. L'affichage des triplets est ordonné en augmentant la fréquence moyenne dans les données HiSeq. (b) Fréquence des erreurs de substitution de base. Pour chaque échantillon, la proportion de chaque substitution est indiquée (ordonnée par fréquence moyenne croissante dans les échantillons HiSeq). (c) Taux d'insertions ou de délétions dans les faisceaux d'homopolymères normalisés par la longueur d'homopolymère. Des homopolymères de plus de sept bases n'étaient présents que dans les deux échantillons de plantes. Les homopolymères de longueur 16 à 19 dans les données Bv-95nt et de longueur 26 à 29 dans les données At-100nt étaient chacun couverts par moins de 50 lectures. (ré) Taux d'erreur attendus par rapport aux taux d'erreur observés. Les taux d'erreur attendus selon les scores de qualité (Q) ont été calculés pour Q = 2 à Q = 40 (ligne diagonale continue). Pour chaque échantillon, les bases alignées de manière unique ont été regroupées par score de qualité, et le taux d'erreur observé a été déterminé à partir du nombre d'erreurs de substitution observées pour chaque Q séparément.

Pour une base mal appelée, trois erreurs de substitution différentes sont possibles. Il a été rapporté précédemment que dans les données GA I, des conversions de bases particulières étaient plus fréquemment observées que d'autres [2]. Nous avons compté tous les événements de conversion dans nos données HiSeq et GAIIx et avons retrouvé certaines préférences. En résumé sur toutes les données HiSeq, nous avons trouvé que A remplaçant C ou vice versa (29,2 %) et G remplaçant T ou vice versa (26,8 %) étaient les substitutions les plus fréquentes. Les groupes fluorophore attachés aux bases A et C sont excités par le même laser et ne se distinguent que par l'émission à des longueurs d'onde différentes il en est de même pour les fluorophores des bases G et T. Le fait que ces paires de bases s'échangent à hautes fréquences suggère un impact de ces paramètres de détection les spectres d'émission de bases excitées par le même laser pourraient ne pas être parfaitement séparés.

Les conversions individuelles montrent une légère variation entre les différents échantillons HiSeq et une plus grande variation entre les échantillons HiSeq et GAIIx (Figure 6b). La conversion la plus fréquente des données GAIIx (A en C) est la même que celle rapportée pour les données GA I [2]. Dans trois des quatre échantillons HiSeq, G était la base apparaissant le plus souvent comme une erreur d'appel (conversion de toute autre base en G : PhiX-95nt, 38 % PhiX-100nt, 32 % At-100nt, 32 %) l'échantillon Bv-95nt avait A (33 %) comme base résultante la plus fréquente (tableau S2 du fichier supplémentaire 1). La base correcte la plus souvent appelée de manière incorrecte était A dans At-100nt, PhiX-100nt et PhiX-GAIIx, C dans Bv-95nt et T dans PhiX-95nt. Nous avons analysé séparément les positions présentant des taux d'erreur significativement élevés mentionnés ci-dessus. Chacune des 136 positions analysées dans le génome PhiX a montré un mélange des trois erreurs de substitution possibles mais dans tous les cas l'une d'entre elles était clairement dominante (vue à des fractions de 42,5% à 99,1%). Cela peut prêter à confusion avec les polymorphismes de faible abondance observés dans des échantillons hétérogènes. Étant donné que le taux d'erreur individuel pour la base dominante différait considérablement dans de nombreux cas entre les deux volets (pour 117 des 136 positions d'au moins 10 fois, pour 125 positions d'au moins 5 fois), une analyse spécifique au volet peut aider à distinguer de vrais polymorphismes à partir d'erreurs de substitution spécifiques à une région en confirmant l'apparition d'une variation sur les deux brins à peu près au même taux. En outre, comme mentionné ci-dessus, les positions de taux d'erreur élevés se reflètent dans les valeurs de qualité, qui doivent également être prises en compte. La conversion de A ou T dans la séquence de référence en G ou C dans la séquence de lecture a été observée à 118 (87 %) des 136 positions en tant que substitution de base dominante et, parmi celles-ci, dans 102 cas (86 %) les positions étaient précédé d'un G, ce qui fait que G[A/T] est le motif le plus fréquent aux positions de taux d'erreur élevés. Cependant, ce motif se produit beaucoup plus de fois (992) à la fois dans le brin avant et dans le brin inverse du génome PhiX.

Insertions et suppressions

La fréquence des insertions et des suppressions (indels) est très faible, et les insertions sont moins fréquentes que les suppressions (tableau 5 tableau S3 du dossier complémentaire 1). La différence dans le nombre d'insertions et de suppressions était plus importante dans les échantillons PhiX que dans les échantillons de plantes. Parmi les indels à base unique, une insertion ou délétion de A ou T a été plus fréquemment observée que les indels de C ou G (élevés d'un facteur moyen de 7,5 dans les échantillons de plantes et d'un facteur de 1,6 dans les échantillons de PhiX). Les événements indel de plus d'une base se sont produits à des taux inférieurs à ceux des indels à base unique (14,8 % de tous les événements indel dans les échantillons de plantes, 2,4 % dans les échantillons PhiX). Nous avons calculé le taux d'erreur indel par base dans des homopolymères de différentes tailles. Le séquençage d'Illumina est considéré comme robuste contre les erreurs d'homopolymère. Cependant, dans les homopolymères de longueurs croissantes de 2 à 15 nucléotides, nous avons observé une augmentation de 1 000 fois du taux d'erreur indel par base d'homopolymère (figure 6c).

ELANDv2 effectue des alignements multiseed et gapped, permettant la détection d'indels d'une longueur allant jusqu'à 20 bases. La description des conditions des appels d'indel ELANDv2 implique qu'aucun indel n'est signalé dans les régions terminales des lectures. En effet, les simulations ont montré qu'aucun indel n'était détecté s'il était situé avant la position 5 ou après la position 89 dans les lectures de 95 nucléotides. Tous les indels entre les positions 21 et 76 ont été signalés, et une fraction des indels a été signalée pour les positions 5 à 20 et 77 à 89. Par conséquent, les taux d'erreur des indels indiqués dans le tableau 4 peuvent être considérés comme légèrement sous-estimés.

Évaluation des valeurs de qualité

Les scores de qualité sont pertinents pour la détection des SNP et les appels de consensus et ils sont également utilisés par des programmes de cartographie tels que BWA [10] et Bowtie [11]. Dans tous les échantillons HiSeq séquencés, les taux d'erreur observés correspondaient bien aux taux d'erreur attendus dérivés des valeurs de qualité attribuées par le logiciel d'appel de base Illumina. Les bases de données At-100nt et PhiX-100nt appelées avec une version logicielle plus récente sont plus proches des taux d'erreur attendus que les données Bv-95nt et PhiX-95nt traitées avec une version antérieure (Figure 6d). Les bases correctement appelées ont, en moyenne, un score de qualité élevé de 35 à 37 (At-100nt, Q = 37 Bv-95, Q = 36 PhiX-95nt, Q = 35) et les bases mal appelées ont, en moyenne, un faible score de qualité de 18 à 28 (At-100nt, Q = 18 Bv-95nt, Q = 28 PhiX-95nt, Q = 18). Nous n'avons trouvé aucune différence majeure lors de l'analyse des lectures 1 et 2 de la paire de lecture séparément (données non présentées).

Le filtrage de qualité améliore les scores de qualité Illumina moyens des bases séquencées au détriment de la suppression d'une partie des données (voir ci-dessus). Nous avons déterminé les taux d'erreur attendus (calculés à partir du score de qualité moyen) et les taux d'erreur observés après cartographie ainsi que la fraction de bases supprimées pour différents critères de filtrage séparément et en combinaison (tableau 6 tableau S4 dans le fichier supplémentaire 1). Le rognage de la queue B réduit considérablement les taux d'erreur observés et attendus. Ceci est une conséquence de l'élimination des bases de Q = 2, qui est une valeur arbitraire pour marquer des segments de lecture de faible qualité correspondant à un taux d'erreur extrêmement élevé de 63 %. Les bases non appelées n'étaient pas comptées comme erreurs de séquençage. S'ils étaient comptabilisés comme des erreurs de séquençage, les taux d'erreur observés augmentent légèrement d'un facteur pouvant aller jusqu'à 1,1 (tableau S5 du fichier complémentaire 1).


DIFFÉRENCIATION DES POLYMORPHISMES DE L'ADN MITOCHONDRIAL DANS DES POPULATIONS DE CINQ JAPONAIS ABIES ESPÈCE

Polymorphisme de l'ADN mitochondrial de 40 populations de cinq Abies espèce a été étudiée à l'aide de l'amplification par PCR barreurmoi et barreurIII sondes génétiques. En utilisant quatre combinaisons de sonde et d'enzyme de restriction, nous avons détecté trois haplotypes majeurs et 15 haplotypes totaux. Nous avons également trouvé des niveaux variés de diversité génétique pour les différentes espèces : 0,741, 0,604, 0,039, 0,000 et 0,292 pour A. firma, A. homolepis, A. veitchii, A. mariesii, et A. sachalinensis, respectivement. Les populations marginales et méridionales de A. firma et A. homolepis ont des haplotypes uniques, en particulier les populations de Kyushu, Shikoku et de la péninsule de Kii, qui habitent des zones coïncidant avec des refuges probables de la dernière période glaciaire et possèdent des niveaux élevés de diversité génétique de l'ADNmt. Les haplotypes de certaines populations suggèrent que la capture de l'ADNmt s'est également produite entre les espèces par introgression/hybridation. La forte différenciation des populations d'ADNmt dans Abies est très probablement due à l'hérédité maternelle des mitochondries et à la dispersion restreinte des graines. Un arbre phénétique basé sur la similitude génétique de l'ADNmt suggère que certaines espèces sont polyphylétiques. Sur la base de la variation de l'ADNmt, les cinq Abies les espèces pourraient être divisées grossièrement en trois groupes : (1) A. firma et A. homolepis, (2) A. veitchii et A. sachalinensis, et (3) A. mariesii. Cependant, nous avons constaté que tous ces Abies espèces, sauf A. mariesii, sont génétiquement très proches selon une analyse de leurs séquences d'ADNcp. Cela a montré que le chloroplaste rbcL gène différait par une seule substitution de base parmi les quatre espèces. Nous pensons que la variation de l'ADNmt et la similarité de l'ADNc reflètent clairement les relations et les processus de diffusion affectant ces Abies espèces depuis la dernière période glaciaire.


Discussion

Ce travail est la première tentative d'évaluer la relation entre les polymorphismes dans la caspase-3, la caspase-7 et caspase-8 gènes et la susceptibilité au cancer de l'endomètre. Nous avons trouvé qu'un polymorphisme à un seul nucléotide (rs2705901) dans caspase-3 et cinq polymorphismes mononucléotidiques (rs11196418, rs11593766, rs3124740, rs11196445 et rs10787498) dans caspase-7 étaient associés au risque de cancer de l'endomètre. Aucune association significative n'a été observée pour les variantes de caspase-8.

Soung et al. (40) ont précédemment étudié toute la région codante et tous les sites d'épissage du caspase-7 dans les tissus cancéreux solides humains et les tissus normaux pour les carcinomes de l'estomac, du côlon, de la tête/du cou, de l'œsophage, de la vessie et du poumon, et a exprimé le gène dérivé de la tumeur caspase-7 mutants dans les cellules T 293. Leurs données suggèrent que l'inactivation des mutations du gène de la caspase-7 entraîne la perte de sa fonction apoptotique et contribue à la pathogenèse de certains cancers solides humains. Cependant, aucune étude épidémiologique n'a évalué l'association de caspase-7 polymorphismes à risque de cancer. Dans notre étude, nous avons trouvé que cinq polymorphismes mononucléotidiques dans le caspase-7 gène, une variante dans le promoteur (rs11196418), une mutation non synonyme (rs11593766), deux mutations d'intron (rs3124740 et rs11196445) et une variante dans la région 3' non traduite (UTR rs10787498) étaient associées au risque de cancer de l'endomètre. Parmi ces polymorphismes mononucléotidiques, quatre sont très proches et en déséquilibre de liaison élevé. Le polymorphisme d'un seul nucléotide rs11593766, qui était lié à une diminution du risque de cancer de l'endomètre, est situé dans l'exon 2 et provoque un changement de Glu en Asp à l'extrémité N-terminale de la protéine. Cependant, la signification fonctionnelle de ce changement est inconnue. Les deux polymorphismes situés dans l'intron 2 sont dans des positions contig très proches. rs11196418 et rs10787498 sont situés dans le promoteur et 3' UTR du caspase-7 gène et peut donc être impliqué dans la régulation de l'expression des gènes. Des études sont nécessaires pour vérifier nos résultats et pour étudier la fonctionnalité de ces polymorphismes mononucléotidiques et d'autres polymorphismes mononucléotidiques dans la région.

Des études récentes ont montré l'utilité de l'analyse des haplotypes dans l'étude des associations gène-maladie (41). Dans notre étude, Hap6 dans le bloc 1 du caspase-7 gène, qui comprenait trois allèles uniques à faible risque [rs11593766 (g), rs3124740 (g) et rs11196445 (g), et un seul allèle à haut risque rs11196418 (g)], était fortement associée à une diminution du risque de cancer de l'endomètre par rapport à Hap1 dans le bloc 1, qui incluait un allèle à haut risque supplémentaire [rs11593766 (T)], confirmant les résultats de nos analyses de polymorphisme d'un seul nucléotide. Nous avons trouvé que Hap6 dans le bloc 2 du gène caspase-7, qui contenait un allèle à faible risque [rs10787498 (T)], était associée à une diminution du risque de cancer, en particulier chez les femmes préménopausées. Cependant, la seule différence d'allèles entre Hap6 et Hap1 dans le bloc 2 était à rs1127687, qui n'était pas une variante significativement liée au risque de cancer de l'endomètre. De plus, Hap4 dans le bloc 2, qui contenait le même allèle que Hap6, n'était pas lié au risque de cancer. Nous avons observé une situation similaire pour le risque accru associé à Hap2 par rapport à Hap1 dans le bloc 2. Ces résultats suggèrent que les polymorphismes peuvent exercer des effets indépendants ou interactifs sur le développement du cancer de l'endomètre.

On pense qu'un âge précoce à la ménarche, un âge avancé à la ménopause et une longue durée des menstruations au cours de la vie augmentent le risque de cancer de l'endomètre en raison d'une exposition prolongée aux œstrogènes (42). Il a également été rapporté que les œstrogènes affectent l'activité des caspases et l'apoptose des cellules.Par exemple, Thiantanawat et al. (43) ont découvert que le retrait des œstrogènes des cellules MCF-7Ca entraîne une activité de la caspase-7 plus élevée. Zhang et al. (44) ont également signalé que le 17-β-estradiol peut empêcher l'apoptose neuronale et que les extraits neuronaux traités au 17-β-estradiol inhibent directement l'activité recombinante de caspase-3, caspase-6, caspase-7, et caspase-8. Par conséquent, il est plausible que l'exposition aux œstrogènes puisse interagir avec caspase-7 polymorphismes mononucléotidiques dans l'étiologie du cancer de l'endomètre. Nos résultats suggèrent que les associations gène-maladie sont plus prononcées chez les femmes préménopausées, bien qu'aucune interaction significative n'ait été observée. Cependant, notre étude n'était pas suffisamment puissante pour détecter des interactions modérées. Fait intéressant, l'association du risque de cancer de l'endomètre avec Hap2 dans le bloc 2 de caspase-7 a été observé comme étant significativement modifié par le statut ménopausique, suggérant des interactions complexes gène-gène et gène-environnement.

Une étude précédente a rapporté que le C allèle de caspase-3 Ex8+567T>C (rs1049216) était associé à une diminution du risque de lymphome non hodgkinien (rapport de cotes, 0,4 IC à 95 %, 0,3-0,7) dans une population américaine (45). Allèles variants au -928A>G, 77G>A, et 17532A>C des postes dans le caspase-3 gène, ainsi que les haplotypes construits avec ces polymorphismes, étaient liés à une diminution du risque de cancer du poumon (27). Dans notre étude, nous avons trouvé qu'une variante de caspase-3, rs2705901, un polymorphisme mononucléotidique situé dans la région limite de la caspase-3 gène, était significativement associée au risque de cancer de l'endomètre.

Des études sur les associations entre les caspase-8 gène et risque de cancer ont généré des résultats contradictoires. Soleil et al. (46) ont rapporté que la variante d'insertion/suppression -652 6N dans caspase-8 a été associée à plusieurs types de tumeurs, y compris les cancers du poumon, de l'œsophage, de l'estomac, colorectal, du col de l'utérus et du sein dans une population chinoise. Une étude britannique (47) a observé un risque 1,37 fois plus élevé de gliome (IC à 95 %, 1,10-1,70 P = 0,004) chez les porteurs du caspase-8 Allèle variant D302H. Cependant, aucune de ces variantes n'était associée au risque de cancer colorectal dans une autre étude britannique (28). Une récente étude multiethnique n'a pas réussi à trouver d'association entre la caspase-8 -652 6N ins/del polymorphisme et cancers du sein, colorectum ou prostate (48). Le polymorphisme D302H n'est pas présent dans les populations asiatiques, et dans la présente étude, nous n'avons pas trouvé d'association significative de cancer de l'endomètre avec un marquage ou des polymorphismes mononucléotidiques non synonymes connus dans le caspase-8 gène, y compris rs6747918, le polymorphisme d'un seul nucléotide en déséquilibre de liaison étroit avec rs3834129 (le variant -652 6N ins/del).

Nos études ont de nombreuses forces. Tout d'abord, nous avons utilisé une combinaison d'approches fonctionnelles et de marquage de polymorphisme à nucléotide unique pour capturer les polymorphismes, ce qui constitue l'évaluation la plus complète des marqueurs génétiques dans les gènes inclus dans l'étude. Deuxièmement, cette étude a une grande taille d'échantillon d'une population avec une origine ethnique relativement homogène (>98% de Chinois Han). Enfin, le taux de participation relativement élevé (82,8 % pour les cas et 74,4 % pour les témoins), le taux élevé de dons d'échantillons d'ADN (86,5 % pour les cas et 84,2 % pour les témoins) et la faible fréquence d'hystérectomie (5,1 %) atténuent les inquiétudes concernant le biais de sélection. . Néanmoins, des découvertes fortuites ne peuvent être exclues. D'autres études sont nécessaires pour reproduire nos résultats et évaluer les mécanismes sous-jacents aux associations de gènes de caspase avec le risque de cancer de l'endomètre.

En résumé, sur les 35 polymorphismes mononucléotidiques non synonymes et de marquage dans le caspase-3, caspase-7, et caspase-8 gènes qui ont été étudiés dans cette étude, cinq variantes (rs11593766, rs3124740, rs11196445, rs1196418 et rs10787498) dans caspase-7 et un (rs2705901) dans caspase-3 étaient associés à un risque de cancer de l'endomètre. Ces résultats justifient la réplication dans d'autres populations étudiées.


Les grandes études des Ouïgours

Chun-mei Shen, Bo-feng Zhu, Ya-jun Deng, Shi-hui Ye, Jiang-wei Yan, Guang Yang, Hong-dan Wang, Hai-xia Qin, Qi-zhao Huang et Jing-Jing Zhang. « Polymorphisme des allèles et diversité des haplotypes des loci HLA-A, -B et -DRB1 dans le typage séquentiel pour le groupe ethnique ouïghour chinois. » PLoS UN 5(11) (4 novembre 2010) : e13458.
Tous les Ouïghours de cette étude vivaient au moment de leurs tests ADN dans la ville de Yining, dans la région autonome ouïghoure du Xinjiang en Chine. Extraits du résumé :

Wei-Hong Ren, Xiao-Hui Li, Hai-Gang Zhang, Feng-Mei Deng, Wen-Qiang Liao, Yan Pang, Yan-Hua Liu, Meng-Jie Qiu, Guo-Yuan Zhang et Yi-Guan Zhang. "Haplogroupes d'ADN mitochondrial dans une population ouïgoure chinoise et leur association potentielle avec la longévité." Pharmacologie et physiologie cliniques et expérimentales 35 :12 (décembre 2008) : pages 1477-1481. Première publication électronique le 26 août 2008. Résumé :

F. Qidi, L. Yan, Z. Ying, L. Dongsheng, Y. Yajun, G. Yaqun, L. Haiyi, Y. Kai, W. Yuchen, Y. Xiong, Z. Chao, S. Meng, T. Lei, W. Xiaoji, Z. Xi, L. Jing, K. Asifullah, T. Kun, W. Sijia et X. Shuhua. "Structure de la population et mélange des Ouïghours du Xinjiang." Une affiche présentée lors de la réunion annuelle de l'American Society of Human Genetics (ASHG) le 21 octobre 2016.
Cette évaluation de l'ADN autosomique de 951 Ouïghours de 13 régions de la province du Xinjiang en Chine a révélé que leurs composants ancestraux se situent entre 29 et 47 % d'Asie de l'Est, 15 à 17 % de Sibérie, 25 à 37 % d'Eurasie occidentale et 12 à 20 % d'Asie du Sud. "sans grande variation entre les individus", comme le dit le résumé. Les proportions d'ascendance est-asiatique et sibérienne sont plus élevées chez les Ouïghours du nord-est du Xinjiang, tandis que les ascendances eurasiennes occidentales et sud-asiatiques d'Asie centrale sont proportionnellement plus importantes dans le sud-ouest du Xinjiang. Les mélanges entre les éléments se sont produits en plusieurs étapes entre il y a environ 3 750 ans et il y a environ 750 ans. Extraits du résumé :

Hui Li, Kelly Cho, Judith R. Kidd et Kenneth K. Kidd. « Paysage génétique de l'Eurasie et « mélange » en Ouïghours. » Journal américain de génétique humaine 85:6 (11 décembre 2009): pages 934-937. Ceci est une lettre à l'éditeur. Extraits :

30% proportions occidentales, plus proche de notre estimation. [. ] En conclusion, nous soutenons que la structure génétique des Ouïghours est plus similaire à celle des Asiatiques de l'Est qu'à celle des Européens[. ] Lorsque nous aurons collecté plus de données sur ces 34 populations, nous devrions être en mesure d'affiner ces estimations."

Shuhua Xu, Huang Wei, Qian Ji et Jin Li. "Analyse du mélange génomique chez les Ouïghours et son implication dans la stratégie de cartographie." Le Journal américain de génétique humaine 82 (2008) : pages 883-894.
En tant qu'individus, la composante ancestrale «européenne» des Ouïgours de cette étude varie de 48,7% chez une personne à 62,2% chez une autre personne. Extraits du résumé :

Bayazit Yunusbayev, Mait Metspalu, Ene Metspalu, Albert Valeev, Sergueï Litvinov, Ruslan Valiev, Vita Akhmetova, Elena Balanovska, Oleg Balanovsky et Shahlo Turdikulova. "L'héritage génétique de l'expansion des nomades turcophones à travers l'Eurasie." Génétique PLoS 11:4 (21 avril 2015): e1005068.
L'ensemble de données de cette étude d'ADN autosomique comprend des échantillons de 11 Ouïgours. Les Ouïgours sont historiquement restés relativement proches de la région du sud de la Sibérie et de la Mongolie (SSM) d'où est originaire l'ascendance turque commune. En conséquence, leurs segments identiques par descendance (IBD) partagés avec les personnes de cette région ont tendance à être plus longs que ce n'est le cas pour les peuples turcophones qui se sont déplacés beaucoup plus loin. Selon la figure 5, ils ont obtenu un mélange de la région SSM aux XIIIe-XIVe siècles.

Ruixia Zhou, L. An, X. Wang, W. Shao, G. Lin, W. Yu, L. Yi, S. Xu, J. Xu et X. Xie. "Test de l'hypothèse d'une ancienne origine des soldats romains du peuple Liqian dans le nord-ouest de la Chine : une perspective du chromosome Y." Journal de génétique humaine 52 :7 (2007) : pages 584-591. Également publié électroniquement le 20 juin 2007.
Inclus dans cette étude étaient « 49 Ouïgours de la ville d'Urumqi » et leurs fréquences d'haplogroupes d'ADN-Y étaient les suivantes : 6,1 % avaient C
10,2 % avaient F(xJ, K)
18,4% avaient J
12,2 % avaient K(xN1c, O, P)
4,1% avaient N1c
12,2 % avaient de l'O3
8,2 % avaient P(xR1a1)
28,6% avaient R1a1 (l'haplogroupe le plus commun dans cet échantillon)

Ruixia Zhou, D. Yang, H. Zhang, W. Yu, L. An, X. Wang, H. Li, J. Xu et X. Xie. "Origine et évolution de deux sous-clans Yugur dans le nord-ouest de la Chine : une étude de cas dans le paysage génétique paternel." Annales de biologie humaine 35 :2 (mars-avril 2008) : pages 198-211.
Les mêmes "49 Ouïgours de la ville d'Urumqi" de leur étude de 2007 sur le peuple Liqian ont été inclus ici. Voici un extrait du résumé :

Yali Xue, Tatiana Zerjal, Weidong Bao, Suling Zhu, Qunfang Shu, Jiujin Xu, Ruofu Du, Songbin Fu, Pu Li, Matthew E. Hurles, Huanming Yang et Chris Tyler-Smith. "La démographie masculine en Asie de l'Est: un contraste nord-sud dans les temps d'expansion de la population humaine." La génétique 172:4 (avril 2006) : pages 2431-2439. Première publication électronique le 19 février 2006.
988 hommes de 27 populations de Chine, de Mongolie, de Corée et du Japon ont été testés génétiquement sur la base de leurs chromosomes Y. La figure 2 indique qu'ils ont testé des Ouïgours dans deux endroits du Xinjiang (ville d'Urumqi et région de Yili). Les autres populations testées comprenaient les Xibe du Xinjiang, les Han du Xinjiang et d'autres parties de la Chine, les Tibétains, les Mongols intérieurs, les Mongols extérieurs et d'autres. La figure 2 comprend également des cartes montrant les fréquences (par population) des haplogroupes d'ADN-Y C(xC3c), C3c, J, N, O, O1*, O2, O2b*, O2b1, O3d, P*(xR1a) et R1a.
Le tableau 1 à la page 2434, intitulé « Fréquences des haplogroupes dans les populations d'Asie de l'Est », présente les fréquences d'haplogroupes d'ADN-Y suivantes pour les Ouïgours vivant à Urumqi :
3,2 % avaient Y*(xA, C, DE, J, K)
3,2 % avaient C*(xC1, C3)
6,5% avaient E
25,8% avaient J (l'haplogroupe le plus fréquent dans ces échantillons, trouvé chez 8 des hommes)
3,2 % avaient N1*-LLY22g(xN1a, N1b, N1c)
6,5% avaient N1b
3,2% avaient O1a
3,2% avaient O3a3c*-M134(xO3a3c1-M117)
3,2% avaient O3a3c1-M117
19,4 % avaient P*(xR1a)
22,6% avaient R1a
Les Ouïgours de Yili ont les fréquences d'haplogroupes d'ADN-Y suivantes :
20,5 % avaient Y*(xA, C, DE, J, K)
2,6% avaient C*(xC1, C3)
7,7% avaient C3c
2,6 % avaient un DE(xE)
12,8% avaient K*(xNO, P)
2,6% avaient N1*-LLY22g(xN1a, N1b, N1c)
5,1% avaient N1c1
5,1 % avaient de l'O3*
5,1% avaient O3a3c*-M134(xO3a3c1-M117)
5,1% avaient O3a3c1-M117
15,4 % avaient P*(xR1a)
15,4% avaient R1a
L'haplogroupe J, si fréquent dans les échantillons d'Urumqi, était totalement absent de ces échantillons de Yili. Y*(xA, C, DE, J, K) est beaucoup plus fréquent chez les Ouïgours de Yili par rapport à ceux d'Urumqi.

Yong-Gang Yao, Qing-Peng Kong, Cheng-Ye Wang, Chun-Ling Zhu et Ya-Ping Zhang. "Différentes contributions matrilinéaires à la structure génétique des groupes ethniques dans la région de la route de la soie en Chine." Biologie moléculaire et évolution 21 :12 (décembre 2004) : pages 2265-2280. Publié pour la première fois en ligne le 18 août 2004.
Cette étude a examiné l'ADNmt des peuples vivant dans la province du Xinjiang. Ils ont recueilli un total de 252 échantillons. Un extrait du résumé :

Michael F. Hammer, Tatiana M. Karafet, Hwayong Park, Keiichi Omoto, Shinji Harihara, Mark Stoneking et Satoshi Horai. « Double origine des Japonais : terrain d'entente pour les chromosomes Y des chasseurs-cueilleurs et des agriculteurs. » Journal de génétique humaine 51(1) (2006) : pages 47-58. Publié pour la première fois en ligne le 18 novembre 2005.
La génétique de 67 hommes ouïgours est rapportée ici. Leurs haplogroupes d'ADN-Y ont été trouvés dans ces fréquences :
1,5% avaient C-RPS4Y(xC1-M8, C2-M38, C3-M217)
4,5% avaient C3-M217(xC3c-M86)
1,5% avaient C3c-M86
4,5% avaient D3a-P47
4,5% avaient G-M201
10,4% avaient J-12f2
4,5% avaient du L-M20
3,0% avaient N1*-LLY22g(xN1a-M128, N1b-P43, N1c1-M178)
3,0% avaient N1b-P43
1,5% avaient O3-M122 (xO3a3c-M134, O-LINE)
6,0% avaient O3a3c-M134
3,0% avaient O-LINE, anciennement considéré comme une sous-clade de O3-M122 mais apparemment pas une désignation SNP fiable
3,0% avaient O1a-M119(xO1a2-M110)
3,0% avaient Q1-P36
46,3% avaient R-M207 (l'haplogroupe le plus commun dans cet échantillon)

Tatiana Zerjal, R. Spencer Wells, Nadira Yuldasheva, Ruslan Ruzibakiev et Chris Tyler-Smith. "Un paysage génétique remodelé par les événements récents: aperçus du chromosome Y en Asie centrale." Journal américain de génétique humaine 71 : 3 (septembre 2002) : pages 466 à 482. Première publication électronique le 17 juillet 2002.
La taille totale de l'échantillon était de 408 hommes de 15 populations d'Asie centrale. 33 hommes ouïgours vivant à Almaty, au Kazakhstan, ont été inclus dans cette étude et leurs haplogroupes d'ADN-Y ont été trouvés dans ces fréquences :
15,2 % avaient C-RPS4Y(xC3c-M48)
3,0% avaient C3c-M48
9,1 % avaient Y*(xA, C, DE, H2-Apt, J, K)
27,3% avaient J (leur haplogroupe le plus courant, trouvé dans 9 d'entre eux)
15,2 % avaient K-M9 (xL, N, O1, O-LINE, P)
9,1% avaient P(xR1a)
21,2% avaient R1a1 (leur deuxième haplogroupe le plus courant)

R. Spencer Wells, Nadira Yuldasheva, Ruslan Ruzibakiev, Peter A. Underhill, Irina Evseeva, Jason Blue-Smith, Li Jin, Bing Su, Ramasamy Pitchappan, Sadagopal Shanmugalakshmi, Karuppiah Balakrishnan, Mark Read, Nathaniel M. Pearsonal, Tatiana Zerja Matthew T. Webster, Irakli Zholoshvili, Elena Jamarjashvili, Spartak Gambarov, Behrouz Nikbin, Ashur Dostiev, Ogonazar Aknazarov, Pierre Zalloua, Igor Tsoy, Mikhail Kitaev, Mirsaid Mirrakhimov, Ashir Chariev et Walter F. Bodmer. "Le Heartland eurasien: Une perspective continentale sur la diversité du chromosome Y." Actes de l'Académie nationale des sciences 98:18 (2001): pages 10244-10249.
Entre autres, 41 hommes ouïgours du Kazakhstan ont leurs résultats génétiques publiés ici. dans l'arbre de jonction des voisins de la figure 2, le groupe de population VIII comprend les Ouïgours ainsi que les Ouzbeks, les Karakalpaks et les Tatars. Les haplogroupes d'ADN-Y de ces Ouïgours ont été trouvés dans ces fréquences :
14,6% avaient C-M130 (xC3c-M48)
9,8% avaient F-M89 (xI-M170, J2-M172, H1-M52, K-M9)
2,4% avaient I-M170
19,5% avaient J2-M172
2,4% avaient H1-M52
4,9% avaient O-M175 (xO3-M122, O1a-M119, O2a-M95)
12,2 % avaient de l'O3-M122
2,4% avaient du L-M20
2,4% avaient N1c-M46
7,3% avaient P-M45(xQ1a1-M120, Q1a3a-M3, R1-M173, R2-M124)
22,0% avaient R1a1-M17

F. X. Xiao, J. F. Yang, J. J. Cassiman et R. Decorte. "La diversité à huit loci d'insertion Alu polymorphes dans les populations chinoises montre des preuves d'un mélange européen dans une population minoritaire ethnique du nord-ouest de la Chine." Biologie humaine 74(4) (2002) : pages 555-568.
Selon l'article "Genetic Landscape of Eurasia and 'Admixture' in Uyghurs", cet article estime qu'environ 30 pour cent des ancêtres ouïgours proviennent de sources occidentales. Extraits du résumé :

Yoshihiko Katsuyama, Hidetoshi Inoko, Tadashi Imanishi, Nobuhisa Mizuki, Takashi Gojobori et Masao Ota. « Relations génétiques entre les populations japonaises, han du nord, hui, ouïgoures, kazakhes, grecques, saoudiennes et italiennes basées sur les fréquences alléliques à quatre VNTR (D1S80, D4S43, COL2A1, D17S5) et un STR (ACTBP2) Loci. » Hérédité humaine 48 (1998) : pages 126-137.
Une partie de l'ADN génomique a été obtenue à partir d'échantillons de sang d'Uygurs.

R. Du. "Etudes de génétique des populations humaines en Chine." Bulletin de biologie 32 (1997) : pages 9-12.
Selon l'article "Genetic Landscape of Eurasia and 'Admixture' in Uyghurs", cet article estime qu'environ 30 pour cent des ancêtres ouïgours proviennent de sources occidentales.


Augmentation du niveau de cathélicidine (LL-37) dans le vitiligo : voie possible indépendante du polymorphisme du gène du récepteur de la vitamine D

Fahimeh Abdollahimajd, Centre de recherche sur la peau, Hôpital Shohada-e Tajrish, Université des sciences médicales Shahid Beheshti, Téhéran, Iran.

Jouni Uitto, Département de dermatologie et de biologie cutanée, Université Thomas Jefferson, Philadelphie, PA, États-Unis.

Département de dermatologie et de biologie cutanée, Sidney Kimmel Medical College, Thomas Jefferson University, Philadelphie, PA, États-Unis

Jefferson Institute of Molecular Medicine, Thomas Jefferson University, Philadelphie, PA, États-Unis

Fahimeh Abdollahimajd, Centre de recherche sur la peau, Hôpital Shohada-e Tajrish, Université des sciences médicales Shahid Beheshti, Téhéran, Iran.

Jouni Uitto, Département de dermatologie et de biologie cutanée, Université Thomas Jefferson, Philadelphie, PA, États-Unis.

Centre de recherche sur la peau, Université des sciences médicales Shahid Beheshti, Téhéran, Iran

Département de génétique médicale, Faculté de médecine, Université des sciences médicales Shahid Beheshti, Téhéran, Iran

Département de dermatologie et de biologie cutanée, Sidney Kimmel Medical College, Thomas Jefferson University, Philadelphie, PA, États-Unis

Jefferson Institute of Molecular Medicine, Thomas Jefferson University, Philadelphie, PA, États-Unis

Centre de recherche sur la peau, Université des sciences médicales Shahid Beheshti, Téhéran, Iran

Institut de recherche en dentisterie, Université des sciences médicales de Téhéran, Téhéran, Iran

Département de dermatologie et de biologie cutanée, Sidney Kimmel Medical College, Thomas Jefferson University, Philadelphie, PA, États-Unis

Jefferson Institute of Molecular Medicine, Thomas Jefferson University, Philadelphie, PA, États-Unis

Centre de recherche sur la peau, Université des sciences médicales Shahid Beheshti, Téhéran, Iran

Unité de développement de la recherche clinique, Hôpital Shohada-e Tajrish, Université des sciences médicales Shahid Beheshti, Téhéran, Iran

Fahimeh Abdollahimajd, Centre de recherche sur la peau, Hôpital Shohada-e Tajrish, Université des sciences médicales Shahid Beheshti, Téhéran, Iran.

Jouni Uitto, Département de dermatologie et de biologie cutanée, Université Thomas Jefferson, Philadelphie, PA, États-Unis.

Département de dermatologie et de biologie cutanée, Sidney Kimmel Medical College, Thomas Jefferson University, Philadelphie, PA, États-Unis

Jefferson Institute of Molecular Medicine, Thomas Jefferson University, Philadelphie, PA, États-Unis

Fahimeh Abdollahimajd, Centre de recherche sur la peau, Hôpital Shohada-e Tajrish, Université des sciences médicales Shahid Beheshti, Téhéran, Iran.

Jouni Uitto, Département de dermatologie et de biologie cutanée, Université Thomas Jefferson, Philadelphie, PA, États-Unis.

Résumé

Le vitiligo est une maladie de peau multifactorielle avec un rôle établi de la génétique et de l'auto-immunité dans sa pathogenèse. Il a été suggéré que les polymorphismes des récepteurs de la vitamine D (VDR) étaient en corrélation avec le risque de vitiligo dans certaines populations ethniques. D'autre part, la cathélicidine, l'un des composants du système immunitaire inné, joue un rôle dans le développement de certaines maladies chroniques de la peau et le VDR régule l'expression de la cathélicidine. Nous avons cherché à déterminer le niveau plasmatique de cathélicidine et son association avec les polymorphismes du gène VDR ainsi que le niveau plasmatique de vitamine D chez les patients atteints de vitiligo. Quatre-vingt-dix patients atteints de vitiligo et 90 témoins sans vitiligo ont participé à cette étude. Les taux sanguins de 25(OH) vitamine D et de cathélicidine ont été déterminés par ELISA. Génotypage pour les polymorphismes VDR (Apai, TaqI, FokI et BsmI) a été réalisée avec la méthode RFLP-PCR. Le taux sanguin moyen de cathélicidine était significativement plus élevé chez les patients atteints de vitiligo que chez les témoins (P < .0001). Le taux sanguin moyen de vitamine D était significativement plus faible chez les patients que chez les témoins (P = .01). Des différences statistiquement significatives n'ont pas été observées pour les fréquences de génotype et d'allèle de BsmI, Apai et TaqI polymorphismes. Il y avait une augmentation limite du risque de vitiligo dans le modèle sur-dominant de FokI polymorphisme avec OR = 1,8 et P = .051. Nos résultats suggèrent le rôle potentiel de la cathélicidine dans la pathogenèse du vitiligo, cependant, de futures évaluations sont nécessaires pour déterminer son mécanisme précis. L'étude génétique du polymorphisme du gène VDR a suggéré un risque accru de vitiligo en association avec un FokI polymorphisme dans la population iranienne.


Matériaux et méthodes

Stratégie de recherche et critères de sélection

Une recherche complète de bases de données telles que Pubmed, Embase, Medline, Cochrane, China National Knowledge Infrastructure (CNKI), VIP, Wanfang et China Biology Medicine Disc (CBMdisc) a été effectuée. Les recherches ont porté sur la littérature datant de l'origine de la base de données jusqu'en septembre 2014, et les mots clés suivants ont été utilisés : « IL-23 » OU « interleukine-23 », « Spondylarthrite ankylosante » OU « AS », et « polymorphisme » OU « polymorphismes ». Dans les bases de données CNKI, VIP, Wanfang et CBMdisc, nous avons recherché les mots correspondants en caractères chinois. La stratégie de recherche complète pour la base de données Embase est présentée dans le tableau 1. Aucune restriction de langue n'a été utilisée. Une recherche manuelle de références autres que celles des bases de données susmentionnées a également été mise en œuvre. Pour les études qui ne décrivaient pas en détail les données de distribution génétique, une correspondance par courrier électronique avec les principaux auteurs a été utilisée pour compléter les données. Les titres et les résumés ont été examinés indépendamment par deux auteurs afin d'identifier les études potentiellement liées. Les versions intégrales des études identifiées ont été examinées pour sélectionner celles qui répondaient aux critères d'éligibilité. Les études identifiées ont fait l'objet d'une confirmation finale avant inclusion dans la méta-analyse.

#1 « interleukine »/exp OU interleukine ET 23
#2 il ET 23
#3 #1 OU 2
#4 ET ankylosante (« spondylarthrite »/exp OU spondylarthrite)
#5 ET ankylopoïétique (« spondylarthrite »/exp OU spondylarthrite)
#6 AND ankylopoïétique (« spondylarthrite »/exp OR spondylarthrite)
#7 ET ankylosante (« colonne vertébrale »/exp OU colonne vertébrale)
#8 ankylosante ET spondylarthrite
#9 ET ankylosante (« spondylarthrite »/exp OU spondylarthrite)
#10 ET ankylosante (« spondylarthrose »/exp OU spondylarthrose)
#11 « ankylose »/exp OU ankylose ET (« spondylarthrite »/exp OU spondylarthrite)
#12 AND ankylotique (« spondylarthrite »/exp OR spondylarthrite)
#13 Bechterew AND (« maladie »/exp OR maladie)
#14 Bekhterev ET (« maladie »/exp OU maladie)
#15 Morbus ET bechterew
#16 ET de la colonne vertébrale (« ankylose »/exp OU ankylose)
#17 « colonne vertébrale »/exp OU colonne vertébrale ET (« ankylose / exp OU ankylose)
#18 « spondylarthrite »/exp OU spondylarthrite ET ankylopoïétique
#19 « spondylarthrite »/exp OU spondylarthrite ET ankylosanes
#20 « spondylarthrose »/exp OU spondylarthrose ET ankylopoïétique
#21 « spondylarthrite »/exp OU spondylarthrite ET ankylopoétique
#22 « spondylarthrite »/exp OU spondylarthrite ET ankylopoïétique
#23 Spondylarthrite ET ankylosante
#24 « spondylarthrite »/exp OU spondylarthrite ET ankylopoïétique
#25 Vertébral et (‘ankylose’/exp OU ankylose)
#26 #4 OU #5 OU #6 OU #7 OU #8 OU #9 OU #10 OU #11 OU #12 OU #13 OU #14 OU #15 OU #16 OU #17 OU #18 OU #19 OU #20 OU #21 OU #22 OU #23 OU #24 OU #25
#27 « polymorphisme nucléotidique unique »/exp
#28 Polymorphisme ET ET simple (‘nucléotide’/exp OU nucléotide)
#29 ET simple (‘nucléotide’/exp OU nucléotide) ET polymorphisme
#30 #27 OU #28 OU #29
#31 #3 ET #26 ET #30

Critère d'intégration

Les enquêtes qui répondaient aux critères d'éligibilité ont été incluses dans l'analyse, et tout désaccord a été résolu par une discussion entre les auteurs (Xu B et Ma JX). Dans les cas où un consensus n'a pas pu être atteint, un troisième auteur a été impliqué pour prendre une décision finale. Des études répondant aux critères suivants ont été incluses dans la méta-analyse : (1) enquête évaluant l'association entre les polymorphismes IL-23R rs7517847 ou rs2201841 et la susceptibilité à la SA (2) une étude cas-témoins ou GWAS (3) des données publiques suffisamment disponibles qui pourraient être extraites pour une analyse plus approfondie, telles que la distribution du génotype, le rapport des cotes (OR) et l'intervalle de confiance à 95 % (IC à 95 %) et (4) une distribution SNP selon l'équilibre de Hardy-Weinberg (HWE) a été incluse, ce qui signifie une qualité élevée dans conception et conduite d'études d'association génétique. Dans les cas où deux études ont examiné les mêmes populations ou des populations qui se chevauchent, l'étude avec un échantillon de plus grande taille a été incluse dans l'analyse.

Les études pour lesquelles aucun contact avec l'auteur principal n'a pu être contacté pour fournir des informations sur les données pertinentes ont été exclues.

Extraction des données et évaluation de la qualité

Les caractéristiques pertinentes des investigations incluses ont été identifiées et enregistrées par deux auteurs, y compris le premier auteur de l'étude, l'année de publication, le pays, l'origine ethnique des sujets, les SNP pertinents, les données démographiques des patients, la méthode de test utilisée pour le génotype, si la distribution du génotype était en conformément à Hardy-Weinberg Equilibrium (HWE) et source des échantillons testés. Pour obtenir des résultats précis pour l'étude actuelle, un contact par courrier électronique avec l'auteur principal de l'enquête a été effectué si l'étude incluse ne contenait pas de données publiques. L'évaluation de la qualité des études incluses dans la méta-analyse a été réalisée par deux auteurs à l'aide de l'échelle Newcastle-Ottawa (NOS) (Cota et al., 2013). Des notes ont été attribuées pour la sélection des sujets (c. analyse) ainsi que la mesure de l'exposition (c'est-à-dire la détermination de l'exposition, la même méthode de détermination pour les cas et les témoins et le taux de non-réponse). Les scores NOS allaient de 0 à 9. Les études avec un score NOS ≥ 6 ont été considérées comme de haute qualité. Higgins je 2 a été utilisé pour évaluer l'hétérogénéité des investigations. L'analyse des sous-groupes par ethnie a été effectuée si le nombre d'enquêtes dans chaque groupe ethnique était de deux ou plus. L'analyse des sous-groupes de genre n'a pas pu être effectuée car il n'y avait pas de données pertinentes. Une analyse de sensibilité a été réalisée en évaluant les résultats globaux de la méta-analyse lorsque chaque étude a été supprimée pour détecter la stabilité des essais inclus.

Analyses statistiques

La force de l'association entre les polymorphismes IL-23R rs7517847 et rs2201841 et la susceptibilité à l'AS a été évaluée à l'aide de l'Odds Ratio (OR). Dans le même temps, la précision a été mesurée par IC à 95 %. Un modèle à effets aléatoires a été utilisé dans la présente étude. En ce qui concerne rs7517847 et rs2201841, le modèle homozygote, le modèle hétérozygote, le modèle récessif, le modèle dominant et le modèle allélique ont été utilisés pour estimer la susceptibilité à la SA dans l'étude actuelle. L'analyse statistique des données extraites a été réalisée à l'aide de STATA 12.0.


Figure supplémentaire 1 PTP1B-knockdown (1B-KD) dans HER2 + les cellules cancéreuses du sein (BC) n'affectent pas la prolifération in vitro.

(une) Immunoblot montrant l'efficacité de PTP1B-KD et l'expression de WT mPTP1B WT et un mutant catalytiquement altéré (RM) dans HER2 + Cellules BC. (b) Courbes de croissance de Control et 1B-KD HER2 + Cellules BC en milieu normal (DMEM ou RMPI + 10%FBS, comme indiqué voir Méthodes). Les points de données représentent les valeurs moyennes de trois expériences indépendantes réalisées à des jours différents, voir le tableau supplémentaire 8 pour les données brutes. (c) Courbes de croissance des cellules indiquées maintenues dans des conditions de faible taux de sérum (1% FBS), de faible taux de glucose (0,5 g l -1 ) ou d'absence de glutamine. Les données de trois (faible sérum, faible teneur en glucose) ou deux (faible teneur en glutamine) expériences indépendantes sont présentées, voir le tableau supplémentaire 8 pour les données brutes. () Immunoblot montrant les événements de signalisation induits par l'EGF dans les cellules de contrôle et BT474 1B-KD. Un manque similaire d'effet de la déficience en PTP1B sur les composants de signalisation en aval a été observé en utilisant les autres lignées 1B-KD, ainsi qu'en réponse à plusieurs autres agonistes. (e) Images représentatives (grossissement 4×) et quantification des colonies de gélose molle formées par Control et 1B-KD HER2 + Cellules BC. Les données de deux expériences indépendantes sont présentées. (F) Images représentatives (grossissement 10x) des colonies formées par contrôle et 1B-KD HER2 + Cellules BC dans Matrigel. Les barres d'échelle représentent 250 M. Les résultats représentent la moyenne ± s.e.m. Notez que le déficit en PTP1B n'a pas d'effet constant sur HER2 + prolifération des cellules cancéreuses du sein en cultures 2D ou 3D.

Figure supplémentaire 2 Ptpn1 −/− MMTV-Neu NT les souris présentent davantage de lésions hyperplasiques hypoxiques et une tumorigenèse retardée.

(une) Courbes de Kaplan-Meier montrant le pourcentage de survie des Ptpn1 +/+ MMTV-Neu NT (30) et Ptpn1 −/− MMTV-Neu NT (20) souris en arrière-plan mixte (129/B6/FVB). b. Nombre de lésions hyperplasiques par glande mammaire en Ptpn1 +/+ MMTV-Neu NT (m = 8) et Ptpn1 −/− MMTV-Neu NT souris à 9 mois (m = 10). (c) Images représentatives des lésions hyperplasiques de Ptpn1 +/+ MMTV-Neu NT et Ptpn1 −/− MMTV-Neu NT souris, colorées pour H&E, BrdU (prolifération), EF5 (hypoxie) et CD31 (angiogenèse). Les barres d'échelle à des grossissements de 10x représentent 250 um. Les barres d'échelle à un grossissement de 20x représentent 25 um. Des exemples de coloration positive sont indiqués par des flèches rouges. () Pourcentage de cellules positives pour la coloration indiquée dans les lésions hyperplasiques de Ptpn1 +/+ MMTV-Neu NT (m = 30 lésions, obtenues à partir de 4 souris) et Ptpn1 −/− MMTV-Neu NT (m = 38 lésions, obtenues à partir de 5 souris). Chaque graphique affiche les points de données individuels de chaque souris (indiqués par le code de couleur), ainsi que la médiane, l'intervalle interquartile (IQR) et les barres de moustaches (1,5 × IQR). L'importance a été déterminée à l'aide d'une méthode à plusieurs niveaux t-test (alias, effet mixte/modèle hiérarchique) qui considère les mesures des lésions de chaque souris séparément avant de comparer les mesures agrégées au niveau de la souris ( ∗ P < 0,05, valeurs précises en chiffres). A noter que le déficit en PTP1B n'affecte pas le nombre de lésions hyperplasiques, mais est associé à une hypoxie accrue.

Figure supplémentaire 3 Caractérisation du contrôle et des xénogreffes de cancer du sein 1B-KD.

(une) Aucun effet apparent du déficit en PTP1B sur la signalisation du récepteur tyrosine kinase. L'immunoblot montre les niveaux de pAKT (T308 et S473), pMEK (S217/221), pERK (T202/Y204) et pS6 (S240/244 ou S235/236) dans les lysats de xénogreffe, les niveaux totaux d'ERK2 servent de témoins de charge. Chaque voie provient d'une tumeur distincte. (b) Images représentatives de la coloration BrdU, Ki67 et CD31 des xénogreffes BT474, BT474 1B-KD et BT474 1B-KD + m1B WT 11 semaines après l'injection. (c) Images représentatives de H&E, BrdU, CD31 et Ki67 de xénogreffes JIMT1 et JIMT1 1B-KD à 8 semaines après l'injection. Encarts et images principales dans b et c représentent respectivement des grossissements de 0,4× et 10×. Les barres d'échelle à partir de grossissements de 0,4 × représentent les barres d'échelle de 1 mm à partir de grossissements de 10 × représentent 250 um. () Quantification de la coloration BrdU, CD31 et Ki67 de BT474 (m = 6), BT474 1B-KD (m = 5), BT474 1B-KD + mPtpn1 WT (m = 6), JIMT1 (m = 6) et JIMT1 1B-KD (m = 6) tumeurs (de b et c). Les graphiques représentent la moyenne ± s.e.m., et ont été comparés par un étudiant bilatéral t-test (JIMT1) ou ANOVA unidirectionnel, suivi du test post-hoc de Bonferroni (BT474). (e,F) Nuage de points de la coloration EF5 en fonction de la taille de la tumeur de BT474, JIMT1, HCC1954 et BT474-inductible PTPN1-xénogreffes knockdown (à partir de la Fig. 1). Notez que 1B-KD HER2 + les tumeurs, bien que plus petites, présentent une coloration EF5 aussi importante ou augmentée que leurs homologues parentales plus grandes.

Figure supplémentaire 4 PTP1B-déficient HER2 + Les cellules BC subissent une mort cellulaire non apoptotique en hypoxie (0,1 % O2), mais activent normalement les voies de réponse à l'hypoxie connues.

(une) Parcelles représentatives de la cytométrie en flux du bleu Sytox (coloration d'ADN) et de la coloration à l'annexine V du contrôle et de 1B-KD HER2 + Cellules BC exposées à 0,1% O2 pour les heures indiquées. (b) Quantification des populations d'Annexine V et Sytox Blue de une (m = 4 échantillons biologiquement indépendants, voir également le tableau supplémentaire 8). Les graphiques indiquent le pourcentage moyen de cellules ± s.e.m. La signification statistique a été évaluée par ANOVA à deux facteurs, suivie d'un test post-hoc de Bonferroni. (c) Aucun effet constant sur la voie mTOR ou l'autophagie chez les déficients en PTP1B HER2 + Cellules BC. Les immunoblots montrent un flux autophagique (par coloration LC3) et une signalisation dépendante de mTOR (par pS6 S240/244) dans Control et 1B-KD HER2 + Cellules BC, après exposition à 0,1% O2 pour les heures indiquées. () HIF1 précoce?? stabilisation en PTP1B-déficient HER2 + Cellules BC. Les immunoblots montrent HIF1?? niveaux et phosphorylation de PDH en aval dans le contrôle et 1B-KD HER2 + Cellules BC après exposition à l'hypoxie (0,1 % O2), comme indiqué, ces résultats pourraient s'expliquer par l'augmentation de la consommation d'oxygène dans les cellules déficientes en PTP1B, entraînant une activation précoce du HIF. (e) Nuage de points montrant le niveau d'expression de 84 gènes d'hypoxie (évalués par puce qPCR) dans le contrôle indiqué et 1B-KD HER2 + Cellules BC exposées à 0,1% O2 pendant 8 h (SKBR3 et HCC1954) ou 24 h (BT474 et MDA-MB-361). La matrice a été évaluée une fois pour chaque ensemble de lignées cellulaires. F,Niveaux d'expression des gènes cibles HIF1α connus VEGFA, GLUT1, CA9, PDK1 et REDD1 normalisé à RPL13A de Contrôle et 1B-KD HER2 + Cellules BC exposées à 0,1% O2 comme indiqué. Pour BT474, chaque gène a été mesuré dans trois expériences de réplication biologiquement indépendantes. Pour les autres lignes, les données d'une seule expérience sont présentées. Pour les valeurs brutes, voir le tableau supplémentaire 8. (g) PTP1B-déficient HER2 + les cellules montrent une activation précoce de l'UPR. L'immunoblot montre l'activation de PERK, telle qu'évaluée par eIF2?? phosphorylation, dans les cellules Contrôle et 1B-KD BC en réponse à l'exposition à l'hypoxie (0,1 % O2), comme indiqué. ERK2 et eIF2α servent de commandes de chargement.

Figure supplémentaire 5 La masse mitochondriale et les niveaux d'enzymes du métabolisme du glutamate ne sont pas affectés par le déficit en PTP1B.

(une) Les immunoblots montrent les niveaux des protéines mitochondriales indiquées dans Control et 1B-KD HER2 + Cellules BC sous normoxie ou 0,1% O2, comme indiqué. SOD1 sert de contrôle de chargement. (b) Les mitochondries totales et actives dans les cellules témoins et 1B-KD BT474 ont été quantifiées par coloration avec Mitotracker green ou CMXROS, respectivement, et analyse par cytométrie en flux. Les graphiques représentent l'intensité de fluorescence moyenne géométrique ± s.e.m. Les points de données proviennent de quatre expériences biologiquement indépendantes. Voir Fig. 8 supplémentaire pour les données brutes. (c) Quantification de l'ADN mitochondrial (par qPCR) dans les cellules Contrôle et 1B-KD SKBR3 en normoxie ou dans 0,1% O2 hypoxie. Les données proviennent d'une expérience, les valeurs brutes se trouvent dans le tableau supplémentaire 8. (d) Les immunoempreintes montrent les niveaux d'enzymes du métabolisme du glutamate qui pourraient affecter les niveaux de α-KG dans le contrôle et 1B-KD HER2 + Les cellules BC ERK2 servent de contrôle de chargement.

Figure supplémentaire 6 La déficience en PTP1B modifie le profil des métabolites dans les cellules BT474 et SKBR3.

(une) Carte thermique et (c) analyse en composantes principales (ACP) montrant des niveaux de ∼ 139 métabolites (déterminés par LC-MS/MS voir Méthodes) dans les cellules de contrôle, 1B-KD et 1B-KD + m1B PTP1B WT BT474 après 24 h en normoxie (21 % O2) ou hypoxie (0,1 % O2). (b) Carte thermique et () PCA montrant des niveaux de 139 métabolites, dans les cellules de contrôle et 1B-KD SKBR3 en normoxie (21 % O2) ou hypoxie (0,1 % O2) pendant 18h. Notez la diminution PTP1B-dépendante de α-KG dans les deux lignées cellulaires (astérisque rouge). (e) Schéma montrant des différences d'un facteur ≥ 2 dans les métabolites glycolytiques et TCA dans les cellules de contrôle et 1B-KD BT474 et SKBR3 exposées à 0,1 % d'O2 les données d'hypoxie dans la normoxie sont présentées sur la figure 4a. (F) L'activité IDH a été mesurée dans des lysats de cellules Contrôle et 1B-KD BT474 et HCC1954 transfectées avec Contrôle ou IDH1 siARN. Les données ont été dérivées d'une seule expérience avec trois mesures répétées à chaque instant. Les données brutes des répétitions indépendantes se trouvent dans le tableau supplémentaire 8. Activité vue après IDH1 knockdown représente l'activité IDH2 la différence d'activité entre le total et IDH1 les cellules knockdown représentent l'activité IDH1. L'immunotransfert ERK2 sert de contrôle de charge.

Figure supplémentaire 7 RNF213 est un substrat putatif de PTP1B et régule la survie à l'hypoxie et l'ubiquitylation globale.

(une) Le mutant piégeant le substrat PTP1B (CS/DA) identifie un substrat PTP1B connu, EGFR, dans les cellules BT474. Les lignées cellulaires ont été privées de nourriture pendant 16 heures, puis restimulées avec de l'EGF (50 ng ml-1), comme indiqué. Les cellules exprimant Flag-mPTP1B WT et CS/DA ont été lysées et soumises à des immunoprécipitations anti-Flag. Les complexes immuns et les lysats cellulaires totaux ont été immunoblottés avec des anticorps anti-EGFR ou anti-Flag. (b) Nombre de peptides (déterminés par LC-MS/MS) à partir de protéines liées à WT Flag-mPTP1B ou Flag-mPTP1B CS/DA, exprimés dans des cellules BT474 1B-KD BC en normoxie (21 % O2) ou hypoxie (0,1 % O2). c,Immunotransfert ARHGAP12 de co-immunoprécipités anti-Flag de cellules exprimant BT474 1B-KD, 1B-KD + Flag-mPTP1B WT ou CS/DA. () Effet de ARHGAP12 knockdown sur la survie des cellules de contrôle et 1B-KD HCC1954 après 24 h d'exposition à la normoxie ou 0,1% O2. Notez l'épuisement de ARHGAP12 à 72 heures post-transfection avec ARHGAP12 siARN. e,F, Immunoblots montrant l'hydroxylation de HIF1α P564 dans le contrôle et 1B-KD BT474 (m = 3 échantillons biologiquement indépendants) et HCC1954 (m = 6 échantillons biologiquement indépendants) cellules, avec ou sans RNF213-KD, en normoxie ou 0,1% O2. Les graphiques (moyenne ± s.e.m.) ont été comparés à l'ANOVA bidirectionnelle, suivie du test post-hoc de Bonferroni (voir le tableau supplémentaire 8). (g) Immunoblot de RNF213 à partir de cellules Contrôle ou 1B-KD HCC1954 exprimant RNF213 ou contrôler les shRNA. (h) Immunoblot montrant RNF213 dans des xénogreffes HCC1954 (à partir de la figure 6g). (je) Diagramme de dispersion de la coloration EF5 en fonction de la taille de la tumeur à partir de xénogreffes HCC1954 (de la Fig. 6g–i). Immunoblot de HA-ubiquitine (HA-Ub) de cellules BT474 traitées avec ou sans inhibiteur de PTP1B pendant 24 h (j) ou Contrôle et cellules 1B-KD BT474 transfectées avec siControl ou siRNF213 et vecteur vide ou HA-Ub, exposé à 0,1% O2 pendant 24h (k), et traité avec ou sans inhibiteurs du protéasome (MG132) et du lysosomal (chloroquine) pendant 3 h (d'après les Fig. 7c, d). (je) Immunoblots HA-Ub de cellules témoins et déficientes en PTP1B BT474 traitées avec IOXI pendant 24 h. ERK2 et eIF2α comme contrôles de chargement. (m) Diagramme de Venn montrant le nombre de protéines avec une ubiquitylation ≥1,5 fois PTPN1-KD seul, ubiquitylation ≤0.67 fois diminuée sur RNF213-KD seules ou qui sont affectées réciproquement par PTPN1- et RNF213-KD, comme révélé par l'enrichissement HA-Ub IP-MS ou DiGly, voir le tableau supplémentaire 3.

Figure supplémentaire 8 Blots non traités des chiffres clés.

(une) Immunoblots de la figure 6a montrant que RNF213 interagit avec le mutant piégeant le substrat PTP1B (CS/DA). (b) Immunoblots de la figure 6b montrant la co-immunoprécipitation de RNF213 avec Flag-mPtp1B WT ou différents mutants piégeant le substrat en l'absence et en présence de vanadate, un inhibiteur compétitif général des protéines-tyrosine phosphatases. (c) Immunoblots de la figure 6c montrant les niveaux de phospho-tyrosine des immunoprécipités RNF213 des cellules témoins et 1B-KD BT474, HCC1954 et MDA-MB-361. () Immunoblots montrant les niveaux de RNF213 dans Control et 1B-KD HER2 + Cellules BC transfectées avec siControl ou siRNF213 (à partir de la figure 6d). e, Immunoblot montrant l'activité d'autoubiquitylation de RNF213 des immunoprécipités Flag-RNF213 provenant de cellules témoins et 1B-KD BT474 (de la figure 7g). Les cases rouges indiquent les portions recadrées qui apparaissent dans les figures principales.


Voir la vidéo: Karyogramm: Was ist das und wozu braucht man es? Biologie. Duden Learnattack (Mai 2022).