Informations

Pourquoi les gènes sont-ils supposés suivre la normale multivariée ?

Pourquoi les gènes sont-ils supposés suivre la normale multivariée ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je me demande pourquoi les données d'expression génique sont très fréquemment modélisées par des distributions normales multivariées. Quelle est la raison de ces fortes hypothèses selon lesquelles les gènes suivent une gaussienne multivariée ? Y a-t-il des raisons spécifiques à la génétique autres que les raisons des hypothèses gaussiennes générales (la facilité de calcul, etc.) ?


Habituellement, si quelque chose ne doit pas se comporter selon un certain schéma, les valeurs mesurées pour un tel paramètre sont supposées être normales. Ce n'est pas seulement avec l'expression des gènes mais avec tous les types de mesures comme les dimensions d'un objet, la luminosité d'une ampoule électrique, la portée d'une balle, etc. Dans toute mesure, l'erreur aléatoire est modélisée en utilisant une distribution normale. Je n'ai pas d'explication très intuitive pour expliquer pourquoi les erreurs aléatoires suivent une distribution normale, mais mathématiquement, cela vient du théorème central limite.

Maintenant, chaque gène est une variable et la mesure de chaque gène souffre d'une erreur aléatoire ; donc une distribution normale multivariée est utilisée.

Lorsque nous rejetons une hypothèse nulle dans un test t ou un test z, nous rejetons en réalité notre notion parcimonieuse selon laquelle un échantillon est tiré d'une distribution normale donnée. Cela signifie deux choses :

  1. L'échantillon appartient à une autre distribution normale (différente $mu$ et $sigma$)
  2. L'échantillon suit une autre distribution

Mais un test t ne pourra jamais en indiquer la raison exacte. Tout ce qu'il vous dit, c'est que l'échantillon est ne pas à partir d'une distribution normale donnée.


Les gènes situés sur le même chromosome sont appelés gènes liés. Les allèles de ces gènes ont tendance à se séparer pendant la méiose, à moins qu'ils ne soient séparés par croisement.Traverser se produit lorsque deux chromosomes homologues échangent du matériel génétique au cours de la méiose I. Plus deux gènes sont proches l'un de l'autre sur un chromosome, moins leurs allèles seront probablement séparés par croisement. Au lien suivant, vous pouvez regarder une animation montrant comment les gènes d'un même chromosome peuvent être séparés par croisement : www.biostudio.com/d_%20Meioti. ed%20Genes.htm.

La liaison explique pourquoi certaines caractéristiques sont fréquemment héritées ensemble. Par exemple, les gènes de la couleur des cheveux et de la couleur des yeux sont liés, de sorte que certaines couleurs de cheveux et d'yeux ont tendance à être héritées ensemble, comme les cheveux blonds aux yeux bleus et les cheveux bruns aux yeux marrons. Quels autres traits humains semblent se produire ensemble? Pensez-vous qu'ils pourraient être contrôlés par des gènes liés?

Gènes liés au sexe

Les gènes situés sur les chromosomes sexuels sont appelés gènes liés au sexe. La plupart des gènes liés au sexe se trouvent sur le chromosome X, car le chromosome Y a relativement peu de gènes. À proprement parler, les gènes du chromosome X sont Gènes liés à l'X, mais le terme lié au sexe est souvent utilisé pour les désigner.

Lien de mappage

La liaison peut être évaluée en déterminant la fréquence à laquelle le croisement se produit entre deux gènes sur le même chromosome. Les gènes sur des chromosomes différents (non homologues) ne sont pas liés. Ils s'assortissent indépendamment pendant la méiose, ils ont donc 50% de chances de se retrouver dans différents gamètes. Si des gènes apparaissent dans différents gamètes moins de 50 % du temps (c'est-à-dire qu'ils ont tendance à être hérités ensemble), ils sont supposés être sur le même chromosome (homologue). Ils peuvent être séparés par croisement, mais cela est susceptible de se produire moins de 50 pour cent du temps. Plus la fréquence de croisement est faible, plus les gènes sont présumés être rapprochés sur le même chromosome. Les fréquences de croisement peuvent être utilisées pour construire une carte de liaison comme celle de Chiffre au dessous de. UNE lien carte montre l'emplacement des gènes sur un chromosome.

Carte de liaison pour le chromosome X humain. Cette carte de liaison montre les emplacements de plusieurs gènes sur le chromosome X. Certains des gènes codent pour des protéines normales. D'autres codent pour des protéines anormales qui conduisent à des troubles génétiques. À quelle paire de gènes vous attendriez-vous pour avoir une fréquence de croisement plus faible : les gènes qui codent pour l'hémophilie A et le déficit en G6PD, ou les gènes qui codent pour le protan et le Xm ?


Contenu

Génération et paramètres Modifier

est appelée la distribution log-normale avec les paramètres μ et σ . Il s'agit de la valeur attendue (ou moyenne) et de l'écart type du logarithme népérien de la variable, et non de l'espérance et de l'écart type de X lui-même.

Fonction de densité de probabilité Modifier

Une variable aléatoire positive X est log-normalement distribué (c'est-à-dire, X ∼ Lognormal ⁡ ( μ x , σ x 2 ) (mu _,sigma _^<2>)> [1] ), si le logarithme népérien de X est normalement distribué avec une moyenne μ et une variance σ 2 > :

Fonction de distribution cumulative Modifier

Cela peut également être exprimé comme suit : [2]

Log-normal multivarié Modifier

Comme la distribution log-normale multivariée n'est pas largement utilisée, le reste de cette entrée ne traite que de la distribution univariée.

Fonction caractéristique et fonction génératrice de moment Modifier

Tous les moments de la distribution log-normale existent et

Cependant, un certain nombre de représentations alternatives de séries divergentes ont été obtenues. [10] [11] [12] [13]

où W est la fonction Lambert W. Cette approximation est dérivée via une méthode asymptotique, mais elle reste nette sur tout le domaine de convergence de φ .

Probabilité dans différents domaines Modifier

Le contenu de probabilité d'une distribution log-normale dans n'importe quel domaine arbitraire peut être calculé avec la précision souhaitée en transformant d'abord la variable en normale, puis en l'intégrant numériquement à l'aide de la méthode du lancer de rayons. [15] (code Matlab)

Probabilités des fonctions d'une variable log-normale Modifier

Étant donné que la probabilité d'une log-normale peut être calculée dans n'importe quel domaine, cela signifie que le cdf (et par conséquent pdf et cdf inverse) de n'importe quelle fonction d'une variable log-normale peut également être calculé. [15] (code Matlab)

Moments géométriques ou multiplicatifs Modifier

Notez que la moyenne géométrique est plus petite que la moyenne arithmétique. Ceci est dû à l'inégalité AM-GM et est une conséquence du fait que le logarithme est une fonction concave. En réalité,

Moments arithmétiques Modifier

Pour tout nombre réel ou complexe m , les m -ième moment d'une variable log-normalement distribuée X est donné par [4]

Plus précisément, la moyenne arithmétique, le carré attendu, la variance arithmétique et l'écart type arithmétique d'une variable à distribution log-normale X sont respectivement donnés par : [2]

Cette estimation est parfois appelée « CV géométrique » (GCV), [19] [20] en raison de son utilisation de la variance géométrique. Contrairement à l'écart type arithmétique, le coefficient de variation arithmétique est indépendant de la moyenne arithmétique.

Les paramètres ?? et ?? peut être obtenu, si la moyenne arithmétique et la variance arithmétique sont connues :

Une distribution de probabilité n'est pas uniquement déterminée par les moments E[X m ] = e non + 1 / 2 m 2 ?? 2 pour m 1 . C'est-à-dire qu'il existe d'autres distributions avec le même ensemble de moments. [4] En fait, il existe toute une famille de distributions avec les mêmes moments que la distribution log-normale. [ citation requise ]

Mode, médiane, quantiles Modifier

Le mode est le point de maximum global de la fonction de densité de probabilité. En particulier, en résolvant l'équation ( ln ⁡ f ) ′ = 0 , on obtient que :

Plus précisément, la médiane d'une distribution log-normale est égale à sa moyenne multiplicative, [21]

Attente partielle Modifier

où Φ est la fonction de distribution cumulative normale. La dérivation de la formule est fournie dans la discussion de cette entrée Wikipedia. [ où? ] La formule d'espérance partielle a des applications en assurance et en économie, elle est utilisée pour résoudre l'équation aux dérivées partielles menant à la formule de Black-Scholes.

Attente conditionnelle Modifier

Paramétrages alternatifs Modifier

  • LogNormal1(μ,σ) avec moyenne, μ, et écart type, σ, tous deux sur l'échelle logarithmique [24] P ( x μ , σ ) = 1 x σ 2 π exp ⁡ [ − ( ln ⁡ x − μ ) 2 2 σ 2 ] >,<oldsymbol >)=>>>exp left[-><2sigma ^<2>>> ight]>
  • LogNormal2(μ,υ) avec moyenne, μ, et variance, υ, tous deux sur l'échelle logarithmique P ( x μ , v ) = 1 xv 2 π exp ⁡ [ − ( ln ⁡ x − μ ) 2 2 v ] < displaystyle P(x<oldsymbol >,<oldsymbol >)=>>>>exp left[-><2v>> ight]>
  • LogNormal3(m,σ) avec la médiane, m, sur l'échelle naturelle et l'écart type, , sur l'échelle logarithmique [24] P ( xm , σ ) = 1 x σ 2 π exp ⁡ [ − ln 2 ⁡ ( x / m ) 2 2 ] >,<oldsymbol >)=>>>exp left[-(x/m)><2sigma ^<2>>> ight]>
  • LogNormal4(m,cv) avec médiane, m, et coefficient de variation, cv, tous deux sur l'échelle naturelle P ( xm , cv ) = 1 x ln ( cv 2 + 1 ) 2 π exp ⁡ [ − ln 2 ⁡ ( x / m ) 2 ln ⁡ ( cv 2 + 1 ) ] >,<oldsymbol >)=+1)>>>>>exp left[-(x/m)><2ln(cv^<2>+1 )>>droit]>
  • LogNormal5(μ,τ) avec moyenne, , et précision, , les deux sur l'échelle logarithmique [25] P ( x μ , τ ) = τ 2 π 1 x exp ⁡ [ − τ 2 ( ln ⁡ x − μ ) 2 ] >,<oldsymbol < au >>)=<2pi >>>>exp left[-<2>>(ln x-mu )^<2> ight]>
  • LogNormal6(m,σg) avec la médiane, m et l'écart type géométrique, σg, tous deux à l'échelle naturelle [26] P ( xm , g ) = 1 x ln ⁡ ( σ g ) 2 π exp ⁡ [ − ln 2 ⁡ ( x / m ) 2 ln 2 ⁡ ( σ g ) ] < displaystyle P(x<oldsymbol >,<oldsymbol >>)=)>>>exp left[-(x/m)><2ln ^<2>(sigma _)>>droit]>
  • LogNormal7(μNN) avec moyenne,N, et l'écart type,N, tous deux à l'échelle naturelle [27] P ( x μ N , σ N ) = 1 x 2 π ln ⁡ ( 1 + σ N 2 / μ N 2 ) exp ⁡ ( − [ ln ⁡ x − ln ⁡ μ N 1 + σ N 2 / μ N 2 ] 2 2 ln ⁡ ( 1 + σ N 2 / μ N 2 ) ) >>,<oldsymbol >>)=^<2>/mu _^<2> ight)>>>>exp left(-ln x-ln >^<2>/mu _^<2>>>>^<2>><2ln(1+sigma _^<2>/mu _^<2>)>>droit)>

Exemples de reparamétrage Modifier

Considérons la situation où l'on souhaite exécuter un modèle en utilisant deux outils de conception optimale différents, par exemple PFIM [28] et PopED. [29] Le premier prend en charge le paramétrage LN2, le dernier LN7, respectivement. Par conséquent, le reparamétrage est nécessaire, sinon les deux outils produiraient des résultats différents.

Toutes les formules de reparamétrage restantes peuvent être trouvées dans le document de spécification sur le site Web du projet. [30]

Multiple, Réciproque, Puissance Modifier

Multiplication et division de variables aléatoires indépendantes, log-normales Modifier

Théorème de la limite centrale multiplicative Modifier

En fait, les variables aléatoires n'ont pas à être distribuées de manière identique. Il suffit pour les distributions de ln ⁡ ( X i ) )> à tous ont une variance finie et satisfont aux autres conditions de l'une des nombreuses variantes du théorème central limite.

C'est ce qu'on appelle communément la loi de Gibrat.

Autre Modifier

Un ensemble de données qui découle de la distribution log-normale a une courbe de Lorenz symétrique (voir aussi coefficient d'asymétrie de Lorenz). [31]

Les distributions log-normales sont divisibles à l'infini, [33] mais ce ne sont pas des distributions stables, dont on peut facilement tirer parti. [34]

  • Si X ∼ N ( , σ 2 ) >(mu ,sigma ^<2>)> est une loi normale, alors exp ⁡ ( X ) ∼ Lognormale ⁡ ( μ , σ 2 ) . (mu ,sigma ^<2>).>
  • Si X ∼ Lognormal ⁡ ( , σ 2 ) (mu ,sigma ^<2>)> est distribué log-normalement, alors ln ⁡ ( X ) ∼ N ( μ , σ 2 ) >(mu ,sigma ^<2>)> est une variable aléatoire normale. [1]
  • Soit X j ∼ Lognormale ⁡ ( μ j , σ j 2 ) sim om_opérateur (mu _,sigma _^<2>) > être des variables indépendantes à distribution log-normale avec des paramètres σ et μ éventuellement variables, et Y = ∑ j = 1 n X j ^X_> . La distribution de Y n'a pas d'expression fermée, mais peut être raisonnablement approchée par une autre distribution log-normale Z à la queue droite. [35] Sa fonction de densité de probabilité au voisinage de 0 a été caractérisée [34] et elle ne ressemble à aucune distribution log-normale. Une approximation couramment utilisée due à L.F. Fenton (mais précédemment déclarée par R.I. Wilkinson et mathématiquement justifiée par Marlow [36] ) est obtenue en faisant correspondre la moyenne et la variance d'une autre distribution log-normale :

Pour une approximation plus précise, on peut utiliser la méthode de Monte Carlo pour estimer la fonction de distribution cumulée, la pdf et la queue de droite. [37] [38]

La somme des variables aléatoires corrélées à distribution log-normale peut également être approximée par une distribution log-normale [ citation requise ]

  • Si X ∼ Lognormal ⁡ ( , σ 2 ) (mu ,sigma ^<2>)> alors X + c est dit avoir un Log-normale à trois paramètres distribution avec support x ∈ ( c , + ∞ ) . [39] E [ X + c ] = E ⁡ [ X ] + c [X+c]= om de l'opérateur [X]+c> , Var ⁡ [ X + c ] = Var ⁡ [ X ] [X+c]= om de l'opérateur [X]> .
  • La distribution log-normale est un cas particulier de la distribution SU semi-bornée de Johnson. [40]
  • Si X ∣ Y ∼ Rayleigh ⁡ ( Y ) (Y),> avec Y ∼ Lognormal ⁡ ( μ , σ 2 ) (mu ,sigma ^<2>)> , puis X ∼ Suzuki ⁡ ( μ , σ ) (mu ,sigma )> (distribution Suzuki).
  • Un substitut à la log-normale dont l'intégrale peut être exprimée en termes de fonctions plus élémentaires [41] peut être obtenu sur la base de la distribution logistique pour obtenir une approximation de la CDF

Estimation des paramètres Modifier

Pour déterminer les estimateurs du maximum de vraisemblance des paramètres de distribution log-normale ?? et ??, on peut utiliser la même procédure que pour la distribution normale. Noter que

Statistiques Modifier

Le moyen le plus efficace d'analyser des données log-normalement distribuées consiste à appliquer les méthodes bien connues basées sur la distribution normale aux données transformées de manière logarithmique, puis à retransformer les résultats si nécessaire.

Intervalles de dispersion Modifier

de la probabilité. En utilisant des paramètres estimés, alors approximativement les mêmes pourcentages de données devraient être contenus dans ces intervalles.

Intervalle de confiance pour μ ∗ > Modifier

Principe extrême d'entropie pour fixer le paramètre libre σ Modifier

La distribution log-normale est importante dans la description des phénomènes naturels. De nombreux processus de croissance naturelle sont entraînés par l'accumulation de nombreux petits changements en pourcentage qui deviennent additifs sur une échelle logarithmique. Dans des conditions de régularité appropriées, la distribution des changements accumulés résultants sera de mieux en mieux approchée par une log-normale, comme indiqué dans la section ci-dessus sur le "théorème limite central multiplicatif". C'est ce qu'on appelle aussi la loi de Gibrat, d'après Robert Gibrat (1904-1980) qui l'a formulée pour les entreprises. [46] Si le taux d'accumulation de ces petits changements ne varie pas dans le temps, la croissance devient indépendante de la taille. Même si ce n'est pas vrai, les distributions de taille à tout âge des choses qui se développent au fil du temps ont tendance à être log-normales.

Une seconde justification repose sur l'observation que les lois naturelles fondamentales impliquent des multiplications et des divisions de variables positives. Des exemples sont la simple loi de gravitation reliant les masses et la distance à la force résultante, ou la formule pour les concentrations d'équilibre de produits chimiques dans une solution qui relie les concentrations d'éduits et de produits. L'hypothèse de distributions log-normales des variables impliquées conduit à des modèles cohérents dans ces cas.

Même si aucune de ces justifications ne s'applique, la distribution log-normale est souvent un modèle plausible et empiriquement adéquat. Les exemples incluent les suivants :

Comportements humains Modifier

  • La longueur des commentaires publiés dans les forums de discussion Internet suit une distribution log-normale. [47]
  • Le temps de passage des utilisateurs sur les articles en ligne (blagues, actualités, etc.) suit une distribution log-normale. [48]
  • La durée des parties d'échecs a tendance à suivre une distribution log-normale. [49]
  • Les durées d'apparition des stimuli de comparaison acoustique qui correspondent à un stimulus standard suivent une distribution log-normale. [18] résout, à la fois général ou par personne, semblent suivre une distribution log-normale. [citation requise]

En biologie et médecine Modifier

  • Mesures de la taille des tissus vivants (longueur, surface cutanée, poids). [50]
  • Pour les épidémies hautement transmissibles, telles que le SRAS en 2003, si des politiques publiques de contrôle de l'intervention sont impliquées, le nombre de cas hospitalisés est montré pour satisfaire la distribution log-normale sans paramètres libres si une entropie est supposée et l'écart type est déterminé par le principe du taux maximum de production d'entropie. [51]
  • La longueur des appendices inertes (cheveux, griffes, ongles, dents) des spécimens biologiques, dans le sens de la croissance. [citation requise]
  • Le décompte RNA-Seq normalisé pour n'importe quelle région génomique peut être bien approximé par une distribution log-normale.
  • La longueur de lecture du séquençage PacBio suit une distribution log-normale. [52]
  • Certaines mesures physiologiques, telles que la pression artérielle chez l'homme adulte (après séparation sur sous-populations hommes/femmes). [53]
  • En neurosciences, la distribution des taux de décharge à travers une population de neurones est souvent approximativement log-normale. Cela a d'abord été observé dans le cortex et le striatum [54] et plus tard dans l'hippocampe et le cortex entorhinal, [55] et ailleurs dans le cerveau. [56][57] En outre, les distributions de gain intrinsèque et les distributions de poids synaptique semblent également être log-normales [58].

En chimie colloïdale et en chimie des polymères Modifier

Par conséquent, les plages de référence pour les mesures chez les individus en bonne santé sont estimées avec plus de précision en supposant une distribution log-normale qu'en supposant une distribution symétrique autour de la moyenne.


9.2 Mise à l'échelle et ordination multidimensionnelles

Parfois, les données sont ne pas représentés sous forme de points dans un espace de fonction. Cela peut se produire lorsque nous disposons de matrices de (dis)similarité entre des objets tels que des médicaments, des images, des arbres ou d'autres objets complexes, qui n'ont pas de coordonnées évidentes dans (^n) .

Au chapitre 5, nous avons vu comment produire groupes de loin. Ici, notre objectif est de visualiser les données sur des cartes dans des espaces de faible dimension (par exemple, des plans) qui rappellent ceux que nous créons à partir des premiers axes principaux de l'ACP.

Nous commençons par un exemple montrant ce que nous pouvons faire avec des données géographiques simples. La figure 9.1 présente une carte thermique et un regroupement des distances routières approximatives entre certaines des villes européennes.

Figure 9.1 : Une carte thermique des distances entre certaines villes. La fonction a réorganisé l'ordre des villes en regroupant les plus proches.

Compte tenu de ces distances entre les villes, la mise à l'échelle multidimensionnelle (MDS) fournit une « carte » de leurs emplacements relatifs. Bien sûr, dans ce cas, les distances étaient à l'origine mesurées en tant que distances routières (sauf pour les ferries), nous nous attendons donc en fait à trouver une carte en deux dimensions qui représenterait bien les données. Avec des données biologiques, nos cartes sont susceptibles d'être moins nettes. On appelle la fonction avec :

Nous créons une fonction que nous pouvons réutiliser pour créer le screeplot MDS à partir du résultat d'un appel à la fonction cmdscale :

Figure 9.2 : Scénario des 5 premières valeurs propres. La chute après les deux premières valeurs propres est très visible.

Faire un barplot de tous les valeurs propres sorties par la fonction cmdscale : que remarquez-vous ?

vous remarquerez que contrairement au PCA, il y a sommes certaines valeurs propres négatives, celles-ci sont dues au fait que les données ne proviennent pas d'un espace euclidien.

Pour positionner les points sur la carte, nous les avons projetés sur les nouvelles coordonnées créées à partir des distances (nous discuterons du fonctionnement de l'algorithme dans la section suivante). Notez que si les positions relatives sur la figure 9.3 sont correctes, l'orientation de la carte n'est pas conventionnelle : par exemple, Istanbul, qui se trouve au sud-est de l'Europe, est en haut à gauche.

Figure 9.3 : Carte MDS des villes européennes en fonction de leurs distances.

On inverse les signes des coordonnées principales et on redessine la carte. Nous lisons également les véritables longitudes et latitudes des villes et les traçons à côté pour comparaison (Figure 9.4).

Figure 9.4 : Gauche : identique à la Figure 9.3, mais avec les axes inversés. À droite : latitudes et longitudes vraies.

Quelles villes semblent avoir la pire représentation sur la carte PCoA dans le panneau de gauche de la figure 9.4 ?

Il semble que les villes de l'extrême ouest : Dublin, Madrid et Barcelone aient des projections pires que les villes centrales. Cela est probablement dû au fait que les données sont plus rares dans ces zones et qu'il est plus difficile pour la méthode de « trianguler » les villes périphériques.

Nous avons dessiné les longitudes et latitudes dans le panneau de droite de la figure 9.4 sans trop prêter attention au rapport hauteur/largeur. Quel est le bon rapport hauteur/largeur pour cette intrigue ?

Il n'y a pas de relation simple entre les distances qui correspondent à un changement de 1 degré de longitude et à un changement de 1 degré de latitude, le choix est donc difficile à faire. Même dans l'hypothèse simpliste que notre Terre est sphérique et a un rayon de 6371 km, c'est compliqué : un degré de latitude correspond toujours à une distance de 111 km ( (6371 imes2pi/360) ), comme le fait un degré de longitude sur l'équateur. Cependant, à la latitude de Barcelone (41,4 degrés), cela devient 83 km, à celle de Saint-Pétersbourg (60 degrés), 56 km. De manière pragmatique, nous pourrions choisir une valeur pour le rapport hauteur/largeur qui se situe quelque part entre les deux, disons, le cosinus pour 50 degrés. Consultez Internet pour plus d'informations sur la formule Haversine.

Noter: MDS crée une sortie similaire à PCA, mais il n'y a qu'une seule « dimension » pour les données (les points d'échantillonnage). Il n'y a pas de dimension « double » et les tracés bidimensionnels ne sont pas disponibles. C'est un inconvénient pour l'interprétation des cartes. L'interprétation peut être facilitée en examinant attentivement les points extrêmes et leurs différences.

9.2.1 Comment fonctionne la méthode ?

Regardons ce qui se passerait si nous commencions vraiment avec des points dont les coordonnées étaient connues 125 125 Ici, nous commettons un léger « abus » en utilisant la longitude et la longitude de nos villes comme coordonnées cartésiennes et en ignorant la courbure de la surface de la terre. . Nous mettons ces coordonnées dans les deux colonnes d'une matrice de 24 lignes. Maintenant, nous calculons les distances entre les points en fonction de ces coordonnées. Pour passer des coordonnées (X) aux distances, on écrit [d^2_ = (x_i^1 - x_j^1)^2 + dots + (x_i^p - x_j^p)^2.] On appellera la matrice des distances au carré DdotD dans R et (Dullet D) dans le texte ⊕ (D^2) signifierait D multiplié par lui-même, ce qui est différent de celui-ci. . On veut trouver des points tels que le carré de leurs distances soit le plus proche possible du (Dullet D) observé.

Les distances relatives ne dépendent pas du point d'origine des données. On centre les données en utilisant une matrice (H) : la matrice de centrage définie comme (H=I-frac<1>>^t) . Vérifions le centrage propriété de (H) en utilisant :

Appelons B0 la matrice obtenue en appliquant la matrice de centrage à la fois à droite et à gauche de DdotD Considérons les points centrés à l'origine donnée par la matrice (HX) et calculons son produit vectoriel, nous l'appellerons B2 . Que faut-il faire à B0 pour qu'il soit égal à B2 ?

Par conséquent, étant donné les distances au carré entre les lignes ( (Dullet D) ) et le produit vectoriel de la matrice centrée (B=(HX)(HX)^t) , nous avons montré :

C'est toujours vrai, et nous l'utilisons pour désosser un (X) qui satisfait l'équation (9.1) quand on nous donne (Dullet D) pour commencer.

De (Dullet D) à (X) en utilisant des vecteurs singuliers.

On peut revenir d'une matrice (Dullet D) à (X) en prenant la décomposition propre de (B) telle que définie dans l'équation (9.1). Cela nous permet également de choisir le nombre de coordonnées, ou de colonnes, que nous voulons pour la matrice (X). Ceci est très similaire à la façon dont PCA fournit la meilleure approximation de rang (r).
Noter: Comme en PCA, on peut écrire ceci en utilisant la décomposition en valeurs singulières de (HX) (ou la décomposition propre de (HX(HX)^t) ) :

[S^ <(r) >= egin s_1 &0 & 0 &0 &. 0&s_2&0 & 0 &. 0& 0& . &. &. 0 & 0 & . & s_r &. . &. &. & 0 & 0 fin] Ceci fournit la meilleure représentation approximative dans un espace euclidien de dimension (r) . ⊕ La méthode est souvent appelée Analyse des coordonnées principales, ou PCoA qui met l'accent sur la connexion à l'ACP. L'algorithme nous donne les coordonnées des points qui ont approximativement les mêmes distances que celles fournies par la matrice (D).

Algorithme MDS classique.

En résumé, étant donné une matrice (n imes n) de distances interpoints au carré (Dullet D) , on peut trouver des points et leurs coordonnées ( ilde) par les opérations suivantes :

Double centrez la distance interpoint au carré et multipliez-la par (-frac<1><2>) :
(B = -frac<1><2>H Dpuce D H) .

Diagonaliser (B) : (quad B = U Lambda U^t) .

Extraire ( ilde) : (quad ilde = U Lambda^<1/2>) .

Trouver la bonne dimensionnalité sous-jacente.

A titre d'exemple, prenons des objets pour lesquels nous avons des similitudes (substituts aux distances) mais pour lesquels il n'y a pas d'espace euclidien naturel sous-jacent. Dans une expérience de psychologie des années 1950, Ekman (1954) a demandé à 31 sujets de classer les similitudes de 14 couleurs différentes. Son objectif était de comprendre la dimensionnalité sous-jacente de la perception des couleurs. La matrice de similitude ou de confusion a été mise à l'échelle pour avoir des valeurs comprises entre 0 et 1. Les couleurs qui étaient souvent confondues avaient des similitudes proches de 1. Nous transformons les données en dissemblance en soustrayant les valeurs de 1 :

Nous calculons les coordonnées MDS et les valeurs propres. Nous combinons les valeurs propres dans le screeplot illustré à la figure 9.5 :

Figure 9.5 : Le screeplot nous montre que le phénomène est bidimensionnel, donnant une réponse claire à la question d'Ekman.

Nous traçons les différentes couleurs en utilisant les deux premières coordonnées principales comme suit :

Figure 9.6 : La disposition des points de dispersion dans les deux premières dimensions a une forme de fer à cheval. Les étiquettes et les couleurs montrent que l'arc correspond aux longueurs d'onde.

La figure 9.6 montre les données Ekman dans les nouvelles coordonnées. Il y a un schéma frappant qui appelle une explication. Cette structure en fer à cheval ou en arc dans les points est souvent un indicateur d'un ordre ou d'un gradient latent séquentiel dans les données (Diaconis, Goel et Holmes 2007) . Nous y reviendrons dans la section 9.5.

9.2.2 Versions robustes de MDS

Robustesse : Une méthode est robuste si elle n'est pas trop influencée par quelques valeurs aberrantes. Par exemple, la médiane d'un ensemble de nombres (n) ne change pas beaucoup, même si nous modifions les nombres de manière arbitrairement importante pour déplacer radicalement la médiane, nous devons modifier plus de la moitié des nombres. En revanche, nous pouvons modifier considérablement la moyenne en manipulant simplement l'un des nombres. Nous disons que le point de panne de la médiane est 1/2, tandis que celle de la moyenne est seulement (1/n) . La moyenne et la médiane sont des estimateurs de la emplacement d'une distribution (c'est-à-dire quelle est la valeur « typique » des nombres), mais la médiane est plus robuste. La médiane est basée sur les rangs plus généralement, les méthodes basées sur les rangs sont souvent plus robustes que celles basées sur les valeurs réelles. De nombreux tests non paramétriques sont basés sur des réductions de données à leurs rangs. La mise à l'échelle multidimensionnelle vise à minimiser la différence entre les distances au carré telles que données par (Dullet D) et les distances au carré entre les points avec leurs nouvelles coordonnées. Malheureusement, cet objectif a tendance à être sensible aux valeurs aberrantes : un seul point de données avec de grandes distances par rapport à tout le monde peut dominer, et donc fausser, l'ensemble de l'analyse. Souvent, nous aimons utiliser quelque chose de plus robuste, et une façon d'y parvenir est de ne pas tenir compte des valeurs réelles des distances et de demander seulement que les classements relatifs de l'original et des nouvelles distances soient aussi similaires que possible. Une telle approche basée sur les rangs est robuste : sa sensibilité aux valeurs aberrantes est réduite.

Nous utiliserons les données d'Ekman pour montrer à quel point les méthodes robustes sont utiles lorsque nous ne sommes pas tout à fait sûrs de «l'échelle» de nos mesures. L'ordination robuste, appelée mise à l'échelle multidimensionnelle non métrique (NMDS en abrégé) tente uniquement d'intégrer les points dans un nouvel espace de telle sorte que le ordre des distances reconstruites dans la nouvelle carte est le même que l'ordre de la matrice de distance d'origine.

Le MDS non métrique recherche une transformation (f) des dissemblances données dans la matrice (d) et un ensemble de coordonnées dans un espace de faible dimension ( la carte ) tel que la distance dans cette nouvelle carte soit ( ilde) et (f(d) hickapprox ilde) . La qualité de l'approximation peut être mesurée par la fonction de somme des carrés résiduelle standardisée ( contrainte ) :

Le NMDS n'est pas séquentiel dans le sens où nous devons spécifier la dimensionnalité sous-jacente au départ et l'optimisation est exécutée pour maximiser la reconstruction des distances en fonction de ce nombre. Il n'y a pas de notion de pourcentage de variation expliquée par des axes individuels comme prévu dans l'ACP. Cependant, nous pouvons faire un simili-screeplot en exécutant le programme pour toutes les valeurs successives de (k) ( (k=1, 2, 3, . ) ) et en regardant à quel point la contrainte diminue. Voici un exemple d'observation de ces approximations successives et de leur qualité d'ajustement. Comme dans le cas des diagnostics pour le clustering, on prendra le nombre d'axes après le stress a une forte baisse.

Parce que chaque calcul d'un résultat NMDS nécessite une nouvelle optimisation qui est à la fois aléatoire et dépendante de la valeur (k), nous utilisons une procédure similaire à ce que nous avons fait pour le clustering au chapitre 4. Nous exécutons la fonction metaMDS, disons, 100 fois pour chacune des quatre valeurs possibles de (k) et notez les valeurs de contrainte.

Regardons les boxplots des résultats. Cela peut être un graphique de diagnostic utile pour choisir (k) (Figure 9.7).

Figure 9.7 : Plusieurs répétitions à chaque dimension ont été exécutées pour évaluer la stabilité de la contrainte . Nous voyons que la contrainte chute considérablement avec deux dimensions ou plus, indiquant ainsi qu'une solution à deux dimensions est appropriée ici.

On peut aussi comparer les distances et leurs approximations à l'aide de ce que l'on appelle un graphique de Shepard pour (k=2) par exemple, calculé avec :

Figure 9.8 : Le graphique de Shepard compare les distances ou dissemblances d'origine (le long de l'axe horizontal) aux distances reconstruites, dans ce cas pour (k=2) (axe vertical).

Le tracé de Shepard de la figure 9.8 et le screeplot de la figure 9.7 indiquent une solution bidimensionnelle pour l'étude de confusion des couleurs d'Ekman.

Comparons les résultats des deux programmes MDS différents, l'approximation classique des moindres carrés métriques et la méthode d'approximation des rangs non métriques. Le panneau de droite de la figure 9.9 montre le résultat de l'approximation de rang non métrique, le panneau de gauche est le même que celui de la figure 9.6. Les projections sont presque identiques dans les deux cas. For these data, it makes little difference whether we use a Euclidean or nonmetric multidimensional scaling method.

Figure 9.9: Comparison of the output from the classical multidimensional scaling on the left (same as Figure 9.6) and the nonmetric version on the right.


Discussion

In this article, we propose scDesign2, a transparent simulator for single-cell gene expression count data. Our development of scDesign2 is motivated by the pressing challenge to generate realistic synthetic data for various scRNA-seq protocols and other single-cell gene expression count-based technologies. Unlike existing simulators including our previous simulator scDesign, scDesign2 achieves six properties: protocol adaptiveness, gene preservation, gene correlation capture, flexible cell number and sequencing depth choices, transparency, and computational and sample efficiency. This achievement of scDesign2 is enabled by its unique use of the copula statistical framework, which combines marginal distributions of individual genes and the global correlation structure among genes. As a result, scDesign2 has the following methodological advantages that contribute to its high degree of transparency. First, it selects a marginal distribution from four options (Poisson, ZIP, NB, and ZINB) for each gene in a data-driven manner to best capture and summarize the expression characteristics of that gene. Second, it uses a Gaussian copula to estimate gene correlations, which will be used to generate synthetic single-cell gene expression counts that preserve the correlation structures. Third, it can generate gene expression counts according to user-specified sequencing depth and cell number.

We have performed a comprehensive set of benchmarking and real data studies to evaluate scDesign2 in terms of its accuracy in generating synthetic data and its efficacy in guiding experimental design and benchmarking computational methods. Based on four scRNA-seq protocols and 12 cell types, our benchmarking results demonstrate that scDesign2 better captures gene expression characteristics in real data than eight existing scRNA-seq simulators do. In particular, among the four simulators that aim to preserve gene correlations, scDesign2 achieves the best accuracy. Moreover, we demonstrate the capacity of scDesign2 in generating synthetic data of other single-cell count-based technologies including MERFISH and pciSeq, two single-cell spatial transcriptomics technologies. After validating the realistic nature of synthetic data generated by scDesign2, we use real data applications to demonstrate how scDesign2 can guide the selection of cell number and sequencing depth in experimental design, as well as how scDesign2 can benchmark computational methods for cell clustering and rare cell type identification.

In the last stage of manuscript finalization, we found another scRNA-seq simulator SPsimSeq [79] (published in Bioinformatics as a 2.3-page software article), which can capture gene correlations. However, unlike scDesign2, SPsimSeq cannot generate scRNA-seq data with varying sequencing depths. To compare scDesign2 with SPsimSeq, we have benchmarked their synthetic data against the corresponding real data in two sets of analyses: (1) gene correlation matrices of the previously used 12 cell type–protocol combinations (3 cell types × 4 scRNA-seq protocols) and (2) 2D visualization plots of the 4 multi-cell type scRNA-seq datasets and one MERFISH dataset. The results are summarized in Additional file 2. We find that in most cases (10 out 12 cases in the first set of analysis 5 out 5 cases in the second set of analysis), the synthetic data of scDesign2 better resemble the real data than the synthetic data of SPsimSeq do.

Since scRNA-seq data typically contain tens of thousands of genes, the estimation of the copula gene correlation matrix is a high dimensional problem. This problem can be partially avoided by only estimating the copula correlation matrix of thousands of moderately to highly expressed genes. We use a simulation study to demonstrate why this approach is reasonable (Additional file 1: Figures S42 and S43), and a more detailed discussion is in the “Methods” section. To summarize, the simulation results suggest that, to reach an average estimation accuracy of ±0.3 of true correlation values among the top 1000 highly expressed genes, at least 20 cells are needed. To reach an accuracy level of ±0.2 for the top 1500 highly expressed genes, at least 50 cells are needed. With 100 cells, an accuracy level of ±0.1 can be reached for the top 200 highly expressed genes, and a slightly worse accuracy level can be reached for the top 2000 genes.

In the implementation of the scDesign2 R package, we control the number of genes for which copula correlations need to be estimated by filtering out the genes whose zero proportions exceed a user-specified cutoff. For all the results in this paper, the cutoff is set as 0.8. In Additional file 1: Table S1, we summarize the number of cells (m), i.e., the sample size, and the number of genes included for copula correlation estimation (p) in each of the 12 datasets used for benchmarking simulators. Based on Additional file 1: Figures S42 and S43, we see that p appears to be too large for the CEL-Seq2, Fluidigm C1, and Smart-Seq2 datasets. This suggests that the results in this paper may be further improved by setting a more stringent cutoff for gene selection.

For future methodological improvement, there are other ways to address this high-dimensional estimation problem. For example, we can consider implementing sparse estimation (e.g., [97]) for the copula correlation matrix. Moreover, we can build a hierarchical model to borrow information across cell types/clusters. This will be useful for improving the model fitting for small cell types/clusters that may share similar gene correlation structures.

The current implementation of scDesign2 is restricted to single-cell datasets composed of discrete cell types, because the generative model of scDesign2 assumes that cells of the same type follow the same distribution of gene expression. However, many single-cell datasets exhibit continuous cell trajectories instead of discrete cell types. A nice property of the probabilistic model used in scDesign2 is that it is generalizable to account for continuous cell trajectories. First, we can use the generalized additive model (GAM) [52, 98, 99] to model each gene’s marginal distribution of expression as a function of cell pseudotime, which can be computationally inferred from real data [53, 54, 56]. Second, the copula framework can be used to incorporate gene correlation structures along the cell pseudotime. Combining these two steps into a generative model, this extension of scDesign2 has the potential to overcome the current challenge in preserving gene correlations encountered by existing simulators for single-cell trajectory data, such as Splatter Path [69], dyngen [77], and PROSSTT [68]. Another note is that scDesign2 does not generate synthetic cells based on outlier cells that do not cluster well with any cells in well-formed clusters. This is not necessarily a disadvantage, neither is it a unique feature to scDesign2. In fact, all model-based simulators that learn a generative model from real data must ignore certain outlier cells that do not fit well to their model. Some outlier cells could either represent an extremely rare cell type or are just “doublets” [100–103], artifacts resulted from single-cell sequencing experiments. Hence, our stance is that ignorance of outlier cells is a sacrifice that every simulator has to make the open question is the degree to which outlier cells should be ignored, and proper answers to this question must resort to statistical model selection principles.

Regarding the use of scDesign2 to guide the design of scRNA-seq experiments, although scDesign2 can model and simulate data from various scRNA-seq protocols and other single-cell expression count-based technologies, the current scDesign2 implementation is not yet applicable to cross-protocol data generation (i.e., training scDesign2 on real data of one protocol and generating synthetic data for another protocol) because of complicated differences in data characteristics among protocols. To demonstrate this issue, we use a multi-protocol dataset of peripheral blood mononuclear cells (PBMCs) generated for benchmarking purposes [20]. We select data of five cell types measured by three protocols, 10x Genomics, Drop-Seq, and Smart-Seq2, and we train scDesign2 on the 10x Genomics data. Then, we adjust the fitted scDesign2 model for the Drop-Seq and Smart-Seq2 protocols by rescaling the mean parameters in the fitted model to account for the total sequencing depth and cell number, which are protocol-specific (see the “Methods” for details). After the adjustment, we use the model for each protocol to generate synthetic data. Additional file 1: Figure S44 illustrates the comparison of real data and synthetic data for each protocol. From the comparison, we observe that the synthetic cells do not mix well with the real cells for the two cross-protocol scenarios only for 10x Genomics, the same-protocol scenario, do the synthetic cells mix well with the real cells.

To further illustrate the different data characteristics of different protocols, we compare individual genes’ mean expression levels in the aforementioned three protocols. We refer to Drop-Seq and Smart-Seq2 as the target protocols, and 10x Genomics as the reference protocol. First, we randomly partition the two target-protocol datasets and the reference-protocol dataset into two halves each we repeat the partitions for 100 times and collect 100 sets of partial datasets, with each set containing two target-protocol partial datasets (one Drop-Seq and one Smart-Seq2) and two reference-protocol partial datasets (split from the 10x Genomics dataset)—one of the latter is randomly picked and referred to as the “reference data.” Second, For every gene in each cell type, we take each set of partial datasets and compute two cross-protocol ratios, defined as the gene’s mean expression levels in the target-protocol partial datasets divided by its mean expression level in the reference data, and a within-protocol ratio, defined as the ratio of the gene’s mean expression level in the other reference-protocol partial dataset divided by that in the reference data together, with the 100 sets of partial dataset, every gene in each cell type has 100 ratios for each of the two cross-protocol comparisons and 100 ratios for the within-protocol comparison. We apply this procedure to the top 50 and 2000 highly expressed genes in five cell types. Additional file 1: Figures S45 and S46 show that, with the within-protocol ratios as a baseline control for each cell type and each target protocol, the cross-protocol ratios exhibit a strongly gene-specific pattern moreover, there is no monotone relationship between the cross-protocol ratios and the mean expression levels of genes. This result confirms that there does not exist a single scaling factor to convert all genes’ expression levels from one protocol to another. However, an interesting phenomenon is that, for each target protocol, the cross-protocol ratios have similar patterns across cell types. This phenomenon sheds light on a future research direction of cross-protocol simulation for the cell types that exist in only one protocol, if the two protocols have shared cell types. In this scenario, we may train a model for each cell type in each protocol, learn a gene-specific but cell type-invariant scaling factor from the shared cell types, and simulate data for the cell types missing in one protocol.

We note that the above analysis is only conducted for the genes’ mean expression levels. The difficulty of cross-protocol simulation is in fact even larger because realistic simulation requires the rescaling of the other distributional parameter(s) in a two-parameter distribution such as NB and ZIP or a three-parameter distribution such as ZINB. Existing work has provided extensive empirical evidence on the vast differences between protocols in terms of data characteristics [42, 86].

In applications 2 and 3, we have demonstrated how to use scDesign2 to guide experimental design and benchmark computational methods for the tasks of cell clustering and rare cell type detection. Note that in these analyses, the optimized sequencing depths and cell numbers are only applicable to the same experimental protocols and biological samples. Yet, this limitation does not disqualify scDesign2 as a useful tool to guide experimental design. For example, researchers usually perform a coarse-grained, low-budget experiment to obtain a preliminary dataset, and then they may use scDesign2 to guide the optimal design of the later, more refined experiment. As another example, if scRNA-seq data need to be collected from many individuals, researchers usually first perform a pilot study on a small number of individuals. Then, they may train scDesign2 using the pilot data to guide the design of the subsequent, large-scale experiments. In addition to guiding the experimental design, scDesign2 is useful as a general benchmarking tool for various experimental protocols and computational methods. For example, the analyses we performed in applications 2 and 3 are easily generalizable to other computational methods for a more comprehensive benchmarking.

Although we only use cell clustering and rare cell type detection to demonstrate scDesign2’s use in guiding experimental design and benchmarking computational methods, we want to emphasize that scDesign2 has broad applications beyond these two tasks. Inheriting the flexible and transparent modeling nature of our previous simulator scDesign, scDesign2 can also benchmark other computational analyses we have demonstrated in our scDesign paper [35], including differential gene expression analysis and cell dimensionality reduction. Moreover, beyond its role as a simulator, scDesign2 may benefit single-cell gene expression data analysis by providing its estimated parameters about gene expression and gene correlations. Here, we discuss three potential directions. First, scDesign2 can assist differential gene expression analysis. Its estimated marginal distributions of individual genes in different cell types can be used to investigate more general patterns of differential expression (such as different variances and different zero proportions), in addition to comparing gene expression means between two groups of cells [104]. Second, its estimated gene correlation structures can be used to construct cell type-specific gene networks [105] and incorporated into gene set enrichment analysis to enhance statistical power [106, 107]. Third, scDesign2 has the potential to improve the alignment of cells from multiple single-cell datasets [108]. Its estimated gene expression parameters can guide the calculation of cell type or cluster similarities between batches, and its estimated gene correlation structures can be used to align cell types or clusters across batches based on the similarity in gene correlation structures. [109].


LIKELIHOOD FUNCTION

Consider system (23) in conjunction with the normality assumptions (25) and (26), and regard the vector Λyje as “data.” The model for the entire data vector can be written as 35 where vous comprises additive genetic effects for all individuals and all traits (vous may include additive genetic effects of individuals without records), and Z is an incidence matrix of appropriate order. If all individuals have records for all traits, Z is an identity matrix of order NK × NK otherwise, columns of 0's for effects of individuals without phenotypic measurements would be included in Z. In view of the normality assumptions (25) and (26), one can write and where UNE is a matrix of additive genetic relationships (or of twice the coefficients of coancestry) between individuals in a genealogy, and indicates Kronecker product. Noter que I ⊗ R0 reflects the assumption that all individuals with records possess phenotypic values for each of the K traits. This is not a requirement, but it simplifies somewhat the treatment that follows.

Étant donné vous, the vectors Λyje are mutually independent (since all eje vectors are independent of each other), so the joint density of all Λyje is 36 where Zje is an incidence matrix that “picks up” the K breeding values of individual je (vousje) and relates these to its phenotypic records ouije. Making a change of variables from Λyje à ouije (je = 1, 2, … , N), the determinant of the Jacobian of the transformation is |??|. Hence, the density of is 37 This is the density of the product of the N normal distributions highlighting that the data generation process can be represented in terms of the reduced model (24), with the only novelty here being the presence of the incidence matrix Zje, with the latter being a K × K identity matrix in (24). Hence, the entire data vector can be modeled as 38 where X?? is an matrix (again, assuming that each of the N individuals has measurements for the K traits), and Z?? has order NK × (N + P)K, où P is the number of individuals in the genealogy lacking phenotypic records (the corresponding columns of Z?? being null). Observe that (38) is in the form of a standard multiple-trait mixed-effects linear model, save for the fact that the incidence matrices depend on the unknown structural coefficients contained in ??. Hence 39 where is a block-diagonal matrix consisting of N blocks of order K × K, and all such blocks are equal to ?? −1 R0??′ −1 . It follows that oui|??, ??, vous, R0N(X???? + Z??vous, R??). Hence, if simultaneity or recursiveness holds, the estimator of the residual variance-covariance matrix from a reduced model analysis is actually estimating ?? −1 R0??′ −1 this has a bearing on the interpretation of the parameter estimates.

Since it is assumed that vous|g0N(0, A ⊗ G0), the likelihood function is given by 40 This likelihood has the same form as that for a standard multivariate mixed-effects model, except that, here, additional parameters (the nonnull elements of ??) appear in both the location and dispersion structures of the reduced model (38). A pertinent issue, then, is whether or not all parameters in the model, that is, ??, ??, R0, et g0, can be identified (c'est à dire., estimated uniquely) from the likelihood. This is discussed in the following section.


  • Incomplete Dominance: The hybrid phenotype is a mixture of the expression of both alleles, resulting in a third intermediate phenotype. Example: Red flower (RR) X White flower (rr) = Pink flower (Rr)
  • Co-dominance: The hybrid phenotype is a combination of the expressed alleles, resulting in a third phenotype that includes both phenotypes. (Example: Red flower (RR) X White flower (rr) = Red and white flower (Rr)
  • Incomplete Dominance: The phenotype may be expressed to varying degrees in the hybrid. (Example: A pink flower may have lighter or darker coloration depending on the quantitative expression of one allele versus the other.)
  • Co-dominance: Both phenotypes are fully expressed in the hybrid genotype.

Yeah, it is

The whole thing got started in about 2009, when Pozhitkov was a postdoctoral researcher at the Max Planck Institute for Evolutionary Biology in Germany. It was there that he got a chance to pursue a project he’d been thinking about for more than a decade.

Pozhitkov acquired about 30 zebrafish from the institute’s colony. (These tropical fish are commonly used in research because, among other things, they have transparent embryos, ideal for observing development.) He killed the animals by shocking them with a quick immersion in a cooler of ice water, then put them back in their regular 82-degree Fahrenheit tank.

Over the course of the next four days, he periodically scooped a few fish out of the tank, froze them in liquid nitrogen, and then analyzed their messenger RNA. These are threadlike molecules that do the work of translating DNA into proteins each strand of messenger RNA is a transcript of some section of DNA. Later Pozhitkov and his colleagues repeated the same process with mice, although their death was meted out by broken neck rather than cold shock.

When Pozhitkov’s colleague Peter Noble, then a biochemist at the University of Washington, dug into the data on how active the messenger RNA was on each day after death, something amazed him. In both the fish and the mice, the translation of genes into proteins generally declined after death, as would be expected. But the count of messenger RNA indicated that about 1 percent of genes actually augmenté in transcription after death. Some were chugging along four days after life ceased.

It wasn’t that the researchers had expected a total cessation of activity the moment the zebrafish and mice shuffled off this mortal coil. But to detect increases in transcription rather than just the blinking off of the lights one by one? That was “the most bizarre thing I’ve ever seen,” Noble says.

Not everyone was impressed. Noble and Pozhitkov heard a lot of criticism after the story made the rounds, first on the preprint site bioRxiv in 2016 and then in a paper in Biologie ouverte in 2017. The main critique was that they might have misinterpreted a statistical blip. Because cells die off at different rates, perhaps the transcripts recorded in still-living cells merely made up a greater proportion of all the total transcripts, says Peter Ellis, a lecturer in molecular biology at the University of Kent. Think of the transcripts as socks in a drawer, he says. If you lost some of the red ones, the remaining white socks would make up a larger percentage of your total sock collection, but you wouldn’t have acquired more of them.

“The most bizarre thing I’ve ever seen.”

Since that original publication, though, there are hints that something more is going on in the cells that are still churning after the organism dies. In a study published in February in Communication Nature, other researchers examined human tissue samples and found hundreds of genes that alter their expression after death. Some genes declined in activity, but others increased. A gene that promotes growth, EGR3, began ramping up its expression four hours after death. Some fluctuated back and forth, like the gene CXCL2, which codes for a signaling protein that calls white blood cells to the site of inflammation or infection.

These changes weren’t merely the passive result of transcripts degrading at different rates like red socks being sporadically lost, says the University of Porto’s Pedro Ferreira, who led the study. Something, he says, was going on that actively regulated gene expression “even after the death of the organism.”


Surprising behavior of transcription factors challenges theories of gene regulation

Transforming progenitor cells into committed T-cell precursors in real time. Inset: Live imaging of a clone of future T cells, from progenitor stage (left) to commitment (right) in 3 days (courtesy, Mary A. Yui). Background: field of cells corresponding to a mixture of these stages, all processed to show individual molecules of RNA encoding key regulatory proteins. Runx1 (cyan dots) is expressed at similar levels in cells at early, middle, and late stages alike (courtesy, Wen Zhou). Credit: B. Shin

How cells develop and the diseases that arise when development goes wrong have been a decades-long research focus in the laboratory of Distinguished Professor of Biology Ellen Rothenberg. In particular, the lab studies the development of immune cells known as T cells, which act as "intelligence agents"—they circulate throughout the body, detect threats, and determine what kind of response the immune system should make. However, when the many stages of T cell development do not occur perfectly, leukemia occurs.

"Many of the genes that we study in normal developing T cells are the same genes that, when regulated incorrectly, lead to the cells becoming T-cell leukemia," says Rothenberg. "Understanding the precision of this process is really important. There's also an interesting aspect of irreversibility: Some of the genes we study only have activity at a specific time period in development, and then they turn off forever. But in leukemia, we see that these genes 'leak' back on again at a later stage when they are supposed to be off. We want to know the details of the process for turning genes on and keeping genes off, which will help us understand what goes wrong in leukemia."

Now, a new study from the Rothenberg lab examines certain proteins that supervise gene regulation in developing T cells and finds that these proteins behave in a manner quite different from that assumed in previous theory. The work suggests that theories of gene regulation may need to be reevaluated.

A paper describing the research appears in the journal Actes de l'Académie nationale des sciences on January 21, 2021. The study's first authors are Caltech postdoctoral scholar Boyoung Shin and former Caltech postdoctoral scholar Hiroyuki Hosokawa, now a faculty member at Tokai University in Japan.

Nearly every cell in the human body contains the same copy of the genome, but differences in the expression of particular genes give rise to different cell types, like muscles, neurons, and immune system cells. Gene expression can be thought of like a light bulb with a dimmer switch. Similar to how a light bulb on a dimmer switch can be turned on brightly, or dimly, or not at all, a gene can be expressed strongly, weakly, or be silenced. The "hands" that adjust these genomic dimmer switches are proteins called transcription factors, which bind to the genome to dial expression up or down.

There are many different kinds of transcription factors, with each acting upon defined sets of genes, sometimes with multiple transcription factors working together to regulate gene expression. The Rothenberg laboratory focused on two very similar transcription factors, Runx1 and Runx3, to find if they play a role during the cascade of sharp changes in gene expression that cause stem cell–like progenitors to become transformed into future T cells.

"The Runx transcription factors have traditionally been underappreciated in these early T cells—they are present in the cell at constant, steady levels throughout development, so scientists have reasoned that they must be unimportant in regulating genes that need to change in expression dramatically over time," says Rothenberg.

In previous studies, other researchers experimentally knocked out one of the Runx factors and subsequently found that little changed in the cell, leading to the conclusion that Runx was not very important. But in this new study, Rothenberg's team found that the two Runx transcription factors cover for each other, so that effects only show up when they are both removed—and those results now show that these transcription factors behave in very unexpected ways.

The conventional genetics theory is that when a factor regulates a target gene, the activity of the factor is correlated with the level of the target gene. But Rothenberg's study found that this was not the case for Runx factors. Although the Runx factors themselves stay active at steady levels through key developmental events, the great majority of genes that respond to the Runx factors change dramatically in expression during this period. In fact, the Runx factors act upon "incredibly important" genes for T cell development, according to Rothenberg, and regulate them strongly.

The findings open up new questions, such as how can the Runx factors cause these dramatic changes in gene expression when levels of Runx themselves do not change?

The team also found that the positions where the Runx factors bind to the genome change markedly over time, bringing Runx to different target DNA sites. At any one time, the study found, the factors are only acting on a fraction of the genes they could regulate they shift their "attention" from one set to another over time. Interestingly, in many of these shifts, large groups of Runx proteins leave their initial sites and travel to occupy clusters of new sites grouped across large distances of the genome, as they act on different genes at different times.

"There's no good explanation yet for this group behavior, and we find that Runx are interacting with the physical genomic architecture in a complex way, as they're regulating genes that have totally different expression patterns than the transcription factors themselves," says Shin. "What is controlling the deployment of the transcription factors? We still don't know, and it's far more interesting than what we thought."

"This work has big implications for researchers trying to model gene networks and shows that transcription factors are more versatile in their actions than people have assumed," Rothenberg says.

The paper is titled "Runx1 and Runx3 drive progenitor to T-lineage transcriptome conversion in mouse T cell commitment via dynamic genomic site switching."

More information: Boyoung Shin et al. Runx1 and Runx3 drive progenitor to T-lineage transcriptome conversion in mouse T cell commitment via dynamic genomic site switching, Actes de l'Académie nationale des sciences (2021). DOI: 10.1073/pnas.2019655118


Renseignements à l'appui

Graphique S1.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of skin pigmentation [67] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between skin pigmentation and the selected trait with the effect of selection held constant at (B).

Graphique S2.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of BMI [74] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between BMI and the selected trait with the effect of selection held constant at (B).

Graphique S3.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of T2D [75] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between height and the selected trait with the effect of selection held constant at (B).

Graphique S4.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of CD [26] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between CD and the selected trait with the effect of selection held constant at (B).

Graphique S5.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of UC [26] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between UC and the selected trait with the effect of selection held constant at (B).

Graphique S6.

The two components of for the skin pigmentation dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Graphique S7.

The two components of for the BMI dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S8.

The two components of for the T2D dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S9.

The two components of for the CD dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S10.

The two components of for the UC dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S11.

The genetic values for height in each HGDP population plotted against the measured sex averaged height taken from [127]. Only the subset of populations with an appropriately close match in the named population in [127]'s Appendix I are shown, values used are given in Supplementary table S1.

Figure S12.

The genetic skin pigmentation score for a each HGDP population plotted against the HGDP populations values on the skin pigmentation index map of Biasutti 1959. Data obtained from Supplementary table of [69]. Note that Biasutti map is interpolated, and so values are known to be imperfect. Values used are given in Supplementary table S2.

Figure S13.

The genetic skin pigmentation score for a each HGDP population plotted against the HGDP populations values from the [68] mean skin reflectance (685nm) data (their Table 6). Only the subset of populations with an appropriately close match were used as in the Supplementary table of [69]. Values and populations used are given in Table S2.

Figure S14.

The distribution of genetic height score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic height score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Graphique S15.

The distribution of genetic skin pigmentation score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic skin pigmentation score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S16.

The distribution of genetic BMI score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic BMI score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S17.

The distribution of genetic T2D risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic T2D risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S18.

The distribution of genetic CD risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic CD risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S19.

The distribution of genetic UC risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic UC risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Tableau S1.

Genetic height scores as compared to true heights for populations with a suitably close match in the dataset of [127]. See Figure S11 for a plot of genetic height score against sex averaged height.

Tableau S2.

Genetic skin pigmentation score as compared to values from Biasutti [69], [128] and [68]. We also calculate a genetic skin pigmentation score including previously reported associations at KITLG and OCA2 for comparisson. See also Figures S12 and S13.

Table S3.

Conditional analysis at the regional level for the height dataset.

Table S4.

Conditional analysis at the individual population level for the height dataset.

Table S5.

Conditional analysis at the regional level for the skin pigmentation dataset.

Table S6.

Conditional analysis at the individual population level for the skin pigmentation dataset.

Tableau S7.

Condtional analysis at the regional level for the BMI dataset.

Tableau S8.

Conditional analysis at the individual population level for the BMI dataset.

Tableau S9.

Conditional analysis at the regional level for the T2D dataset.

Tableau S10.

Conditional analysis at the individual population level for the T2D dataset.

Table S11.

Conditional analysis at the regional level for the CD dataset.

Table S12.

Conditional analysis at the individual population level for the CD dataset.

Table S13.

Conditional analysis at the regional level for the UC dataset.

Table S14.

Conditional analysis at the individual population level for the UC dataset.

Table S15.

Corresponding statistics for all analyses presented in Table 2.

Table S16.

Corresponding statistics for all analyses presented in Table 2.


Voir la vidéo: Stérilet: avantages et inconvénients - Gynécologie (Juillet 2022).


Commentaires:

  1. Aler

    Non, avant.

  2. Rikkard

    Merci beaucoup pour l'explication, maintenant je sais.

  3. Yozshubei

    Je te suis très reconnaissant.



Écrire un message