Informations

Arbre de parcimonie maximum - Ai-je raison, ou le modèle de correction est-il correct ?

Arbre de parcimonie maximum - Ai-je raison, ou le modèle de correction est-il correct ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bien. Lundi, nous avons un test, et maintenant je faisais un test d'entraînement.

Nous devons faire un arbre de parcimonie maximum. Nous devons le refaire lundi, alors je veux savoir si je pense mal ou si le modèle de réponse est incorrect.

Les séquences sont :

Séq 1 2 3 4 5 6 7 1 A T A A G C C 2 T C A C C T G 3 A T C C G A C 4 T G C A C T G

Cela se traduit par :

1 2 3 4 ---------------------------- 1 | 2 | 6 3 | 3 6 4 | 6 3 6

Et finalement, cela se traduit par :

1,3 2,4 ----------------------------- 1,3 | 2,4 | 6

Voici l'arbre du modèle de correction :

Mon arbre en a deux1,5'sau lieu des deux3à la racine de l'arbre. Parce que6est la dernière distance.6/2 = 3, donc les deux branches devraient avoir une distance de 3. Mais, selon certains exemples que j'ai vus sur Internet, c'est une distance de 3 jusqu'à la fin de l'arbre alors, et non de 3 jusqu'au nœud suivant. Et il y a déjà une distance de1,5dans d'autres bancs des deux côtés, donc seulement1,5reste (parce que3 - 1.5 = 1.5).

Alors, est-ce que je me trompe, ou le modèle de correction est-il faux ? Alors je sais comment je dois le faire au vrai test.

Désolé si mon anglais est mauvais, et c'est un peu difficile à expliquer parce que l'anglais n'est pas ma langue maternelle, mais si J'ai raison, vous devriez savoir ce que je veux dire.


Morphologie discrète - Caractères multi-états

Les données morphologiques sont couramment utilisées pour estimer les arbres phylogénétiques à partir de fossiles. Ce tutoriel se concentrera sur l'estimation des arbres phylogénétiques à partir de discret caractères, ces caractères qui peuvent être divisés en états de caractères qui ne se chevauchent pas. Ce type de données est utilisé pour l'estimation des arbres phylogénétiques depuis de nombreuses années. Au cours des vingt dernières années, les méthodes bayésiennes d'estimation de la phylogénie à partir de ce type de données sont devenues de plus en plus courantes.

Ce tutoriel donnera un aperçu des modèles et hypothèses courants lors de l'estimation d'un arbre à partir de données morphologiques discrètes. Nous utiliserons un jeu de données de (Zamora et al. 2013). Cet ensemble de données contient 27 taxons d'échinodermes éteints et 60 caractères binaires et multi-états.

Présentation des modèles de morphologie discrète

À mesure que des technologies permettant d'obtenir des données de séquences nucléotidiques à faible coût et à haut débit sont devenues disponibles, de nombreux scientifiques sont devenus dépendants des données moléculaires pour la phylogénétique. Cependant, les données morphologiques restent les seules observations directes que nous ayons de la plupart des organismes éteints et constituent une source de données indépendante pour comprendre la phylogénie. La plupart des méthodes phylogénétiques dont nous discuterons dans ce didacticiel ont été inventées pour être utilisées avec des données de séquence. Cependant, ces méthodes restent très utiles pour des données morphologiques discrètes. Nous examinerons certaines hypothèses courantes pour la modélisation des données dans un contexte phylogénétique, puis passerons à l'assouplissement de ces hypothèses.

La modélisation de données morphologiques discrètes nécessite une compréhension des propriétés sous-jacentes des données. Lorsque nous travaillons avec des données moléculaires, nous savons a priori que certains types de changements sont plus probables que d'autres. Par exemple, les changements au sein d'un type de base (purine et pyrimidine) sont beaucoup plus probables que les changements entre les types de bases. Ces informations peuvent être utilisées pour ajouter des paramètres au modèle phylogénétique. Il n'y a pas de vérités équivalentes et généralisables à travers les caractères dans une matrice de données morphologiques. Par exemple, alors que 0 et 1 sont généralement codés en « présence » et « absence », ce n'est pas toujours le cas, et tous les caractères ne sont pas atomisés à la même amplitude. Par exemple, pour un personnage, le changement d'état du personnage peut ne pas refléter une grande quantité de changements génétiques. La forme de la thèque (caractère 2 dans le jeu de données de Zamora et al. 2013), par exemple, apparaît assez labile. Dans un autre, les changements dans l'état du caractère peuvent refléter un réarrangement d'éléments génétiques, ou peuvent avoir des ramifications plus importantes pour la vie et le comportement de l'organisme. Le caractère 38, la plaque centrale du linteau, peut être l'un de ces caractères, car il change rarement.

Lorsque nous travaillons avec des données morphologiques dans un contexte bayésien, nous réalisons ces analyses après une longue histoire de travailleurs réalisant des analyses phylogénétiques dans un cadre de parcimonie maximale. Sous un maximum de parcimonie, des arbres sont proposés. Le nombre de changements dans les données impliqués par l'arbre est alors compté. L'arbre impliquant le moins de changements est considéré comme le meilleur. Il peut y avoir plusieurs arbres les plus parcimonieux dans un jeu de données. La parcimonie a été la méthode dominante pour estimer les arbres phylogénétiques à partir de données morphologiques discrètes. Les caractères qui ne peuvent pas être utilisés pour discriminer entre les topologies arborescentes ne sont généralement pas collectés par les travailleurs utilisant la parcimonie. Par exemple, les caractères qui ne varient pas ne sont pas collectés, car ils ont tous la même longueur (0 pas) sur un arbre. De même, les autopomorphies ne sont généralement pas collectées. Comme nous le verrons plus tard, cela a des ramifications sur la façon dont nous modélisons les données.

Modèle graphique montrant le modèle Mk (panneau de gauche) et le code Rev correspondant (panneau de droite).

Pendant de nombreuses années, la parcimonie a été le seul moyen d'estimer un arbre phylogénétique à partir de données morphologiques. En 2001, Paul Lewis a publié le modèle Mk d'évolution morphologique. Le modèle Mk (Lewis 2001) est une généralisation du modèle Jukes-Cantor (Jukes et Cantor 1969) de l'évolution des séquences nucléotidiques. Ce modèle, bien que simple, a permis aux chercheurs d'accéder à la boîte à outils de méthodes phylogénétiques disponibles pour les chercheurs travaillant avec d'autres données à valeur discrète, telles que les nucléotides ou les acides aminés.

Le modèle MK

Comme mentionné ci-dessus, le modèle Mk est une généralisation du modèle JC. Ce modèle suppose que toutes les transitions entre les états des caractères sont égales et que tous les caractères de la matrice ont la même matrice de transition. La matrice de transition pour un trait binaire ressemble à ceci :

Dans cette matrice, $mu$ représente la probabilité de transition entre les deux états qui la suivent. Une matrice de transition pour les données multi-états se développe simplement.

Cependant, le modèle Mk définit les transitions comme étant égales de n'importe quel état à n'importe quel autre état. En ce sens, notre matrice multi-états ressemble vraiment à ceci :

Vous remarquerez peut-être que ces taux de transition ne sont pas différents de ce que nous pourrions attendre d'une matrice de parcimonie à poids égal. En pratique, le modèle Mk fait très peu d'hypothèses en raison de la complexité et de la non généralisation des données morphologiques.

Ce modèle peut sembler trop simpliste à certains lecteurs pour être adéquat pour les données morphologiques. Cependant, les méthodes bayésiennes sont moins susceptibles d'être induites en erreur par l'homoplasie que la parcimonie (Felsenstein 1983). Des travaux plus récents ont démontré que le modèle surpasse la parcimonie dans de nombreuses situations, en particulier celles où l'homoplasie est élevée (Wright et Hillis 2014), avec des travaux empiriques démontrant qu'il s'adapte assez bien à de nombreux ensembles de données (Wright et al. 2016).

Dans la première partie de ce tutoriel, nous allons estimer un arbre sous le modèle Mk tel que proposé par Lewis (2001). Nous relâcherons ensuite les paramètres de base du modèle.

Biais de constatation

Un autre élément du modèle dont nous n'avons pas encore parlé est le biais de constatation. Parce que les travailleurs utilisant la parcimonie ne collectent pas de caractères invariants et collectent rarement des autapomorphies, nos données sont biaisé. Imaginez un instant que vous deviez mesurer la hauteur moyenne dans une pièce. Mais d'abord, vous avez demandé aux 10 personnes les plus petites de partir. Votre estimation de la taille moyenne serait trop élevée ! En effet, cela se produit également dans les données morphologiques. Parce que les caractères avec le moins de changements ne sont pas collectés, nous surestimons la quantité de changement évolutif sur l'arbre. Au moment de la publication, Lewis (2001) a également inclus un facteur de correction pour ce biais.

Ces corrections originales impliquaient de simuler des caractères non informatifs de parcimonie le long de chaque arbre proposé. Ceux-ci seraient utilisés pour normaliser la valeur de vraisemblance. Bien que cette procédure soit statistiquement valide, elle est un peu lente. Il existe plusieurs façons d'effectuer cette correction (Allman et Rhodes 2008). RevBayes utilise une approche de vraisemblance dynamique pour éviter les simulations répétées.


Fond

L'inférence du dernier ancêtre commun universel (LUCA) de tous les organismes cellulaires modernes peut être approchée de deux manières. L'approche « avancer dans le temps » utilise la connaissance des conditions sur la Terre prébiotique, essaie de comprendre quels types de systèmes de réplication pourraient émerger dans ces conditions et propose les mécanismes permettant à ces systèmes génétiques d'évoluer en LUCA. L'approche « en arrière dans le temps » utilise les informations sur les organismes actuellement vivants - en particulier, sur les génomes complètement séquencés de bactéries, archées, eukarya et même virus - pour reconstruire les traits de LUCA. Cette dernière classe de méthodes nous amène directement au dernier ancêtre commun des formes de vie actuellement vivantes, plutôt qu'à un ancêtre d'un tel ancêtre [1], et l'approche adoptée ici est de ce genre.

Le problème de inférence du contenu génétique ancestral a été énoncé comme suit : pour chaque gène dans chaque génome séquencé, déterminez son état comme étant soit ancestral, c'est-à-dire présent dans LUCA, soit non ancestral, c'est-à-dire absent de LUCA [1–4]. Étant donné que la tâche est d'une difficulté prohibitive pour un gène qui se trouve dans un seul génome, une modification pratique du problème consiste à étiqueter chaque ensemble de gènes orthologues, partagé par plusieurs génomes, comme ancestraux ou non ancestraux (voir [5] pour la définition de l'orthologie et la discussion des problèmes de détection pratique des orthologues). Dans cette étude, nous proposons une approche statistique pour résoudre ce problème. Nous utilisons deux types de données : (a) l'histoire évolutive d'un ensemble d'espèces, modélisé comme un arbre phylogénétique d'espèces, dont la racine est supposée être le LUCA et (b) l'enregistrement de la présence et de l'absence de gènes orthologues dans le même ensemble d'espèces, résumées en vecteurs phylétiques, dans lesquelles chaque coordonnée représente l'état d'un gène dans une espèce. Comme nous le soutenons dans la dernière section de cet article, un tel cadre est une condition préalable nécessaire à des modèles d'évolution plus complexes et réalistes, en particulier ceux qui rendraient compte explicitement du transfert horizontal de gènes entre espèces.

Dans le contexte de notre problème d'inférence actuel, il existe deux classes d'événements évolutifs qui se produisent le long des branches d'un arbre : le gain de gène, dans lequel l'état du gène passe de l'absence à la présence (dans le codage binaire le plus simple des présences et des absences, le gain de gènes est représenté par un changement d'état 0 → 1 , et la perte de gènes par 1 → 0 ). Toute inférence de l'état ancestral d'un gène repose sur un modèle quantitatif de ces changements.

Différentes méthodes de reconstruction d'états ancestraux, y compris la parcimonie maximale (MP) [2, 6, 7] et des approches basées sur une modélisation plus étendue, telles que le maximum de vraisemblance (ML) et l'inférence bayésienne, ont été introduites (e.g., [8]). L'approche MP infère les états ancestraux en commençant par les états actuels de chaque gène aux extrémités de l'arbre et en remontant dans le temps, jusqu'à la racine, en minimisant le nombre total d'événements (gains et pertes) au cours de l'histoire évolutive d'un ensemble d'espèces. Comme toujours avec les approches de parcimonie, il est possible que deux ou plusieurs scénarios soient constitués d'événements différents mais en aient le même nombre (minimum), ce qui nécessite des critères supplémentaires pour rompre les liens. Plus important encore, il n'est pas clair qu'une parcimonie non pondérée, qui postule en fait qu'un gain et une perte d'un gène sont également probables, est la mieux compatible avec les données. Mirkin et al.[2] ont proposé l'approche de parcimonie pondérée, qui prend en compte la différence possible entre le taux de gain de gènes et le taux de perte de gènes. Cela a été fait en utilisant un paramètre appelé pénalité génétique, défini comme le rapport entre le taux de gain de gènes et le taux de perte de gènes. Il a été observé, cependant, que les ensembles de gènes ancestraux construits avec la pénalité de gain g=1 avait tendance à avoir le plus petit nombre de gènes dont les fonctions prédites étaient suffisamment cohérentes sur le plan biochimique pour maintenir la vie, ce qui suggère que le nombre de gains et de pertes de gènes rencontrés par un système peut être à l'équilibre approximatif.

Les méthodes basées sur le maximum de vraisemblance sont intéressantes car elles peuvent prendre en compte plus d'informations sur le processus de gains et de pertes de gènes, et parce qu'elles peuvent refléter les incertitudes dans la décision de l'état du gène à chaque nœud ancestral de l'arbre en attribuant des probabilités. de présence et d'absence de chaque gène à ce nœud. Le cadre de vraisemblance peut également incorporer la connaissance de la longueur des branches dans l'arbre des espèces et les différences spécifiques à la lignée entre les fréquences de diverses classes d'événements à travers différents gènes.

Une reconstruction basée sur la probabilité de traits moléculaires ancestraux a été tentée ces dernières années (voir [9–13]), en se concentrant principalement sur l'inférence des séquences nucléotidiques ou protéiques ancestrales sur la base de séquences d'espèces actuelles. Ces approches modélisent l'histoire évolutive d'un nucléotide orthologue ou d'un site d'acides aminés comme un processus de Markov en temps continu, dans lequel les taux de substitution sont associés au temps (longueur des branches de l'arbre) et sont estimés en maximisant la probabilité de l'arbre phylogénétique donné et de la séquences d'un gène d'intérêt spécifique. L'état ancestral le plus probable de chaque site est ensuite choisi en évaluant la probabilité marginale pour chaque état. Beaucoup de ces modèles peuvent être modifiés pour traiter le problème du contenu génétique ancestral.

Cohen et al.[8] ont utilisé un cadre de vraisemblance pour analyser les vecteurs binaires de présence-absence de gènes pour plusieurs gènes orthologues dans un ensemble d'espèces existantes avec des génomes complètement séquencés. Leur analyse a permis que les taux de gain et de perte de gènes soient inégaux, et les résultats ont indiqué que les taux de gain et de perte qui varient entre les différentes familles de gènes expliquent mieux les données observées que les taux de gain et de perte constants. Dans une autre étude, les présences et les absences ont été remplacées par des états multiples pour la taille de la famille de gènes, pour décrire l'histoire d'un gène en relation avec les duplications et les pertes de gènes dans le cadre MP, sans reconstruire explicitement le contenu génique dans LUCA [7].

Ici, nous étendons cette classe de modèles pour examiner les changements entre les états d'absence de gène, d'une présence de gène à copie unique et la présence d'un groupe d'in-paralogues, dans le cadre du maximum de vraisemblance. Le calcul de la probabilité de présence ancestrale (« ascendance ») de chaque gène utilise l'information sur les changements du nombre d'in-paralogues d'un gène en évolution. Nous explorons plusieurs modèles de vraisemblance de complexité croissante. Nos résultats indiquent que, lorsque plus de deux états de gènes sont autorisés, les taux de perte de gènes estimés ont tendance à être plus élevés que les taux de gain de gènes estimés, avec des ratios de taux de perte à gain d'environ 6 pour la majorité des COG. Tous les modèles donnent des estimations relativement proches du nombre de gènes dans LUCA, environ 500 gènes, mais les identités des gènes qui sont placés en toute confiance dans LUCA sont différentes selon les modèles. Une approche probabiliste de ce type est une étape nécessaire vers des reconstructions quantitatives plus détaillées du contenu génétique et des réseaux métaboliques dans LUCA.


Arbre de parcimonie maximum - Ai-je raison, ou le modèle de correction est-il correct ? - La biologie

L'objectif de ce projet est de mettre en place une bibliothèque logicielle polyvalente et performante pour l'analyse phylogénétique. La bibliothèque doit servir d'interface de niveau inférieur de PLL (Flouri et al. 2015) et doit avoir les propriétés suivantes :

  • code open source avec une licence open source appropriée.
  • Conception multithread 64 bits qui gère de très grands ensembles de données.
  • facile à utiliser et bien documenté.
  • Implémentations SIMD de pièces chronophages.
  • des calculs de vraisemblance aussi rapides ou plus rapides que RAxML (Stamatakis 2014).
  • mise en œuvre rapide de l'algorithme de répétition du site (Kobert 2017).
  • fonctions pour la visualisation de l'arborescence.
  • liaisons pour Python.
  • design générique et épuré.
  • Compatibilité Linux, Mac et Microsoft Windows.

Actuellement, libpll requiert que GNU Bison et Flex soient installés sur le système cible. Sur un système Linux basé sur Debian, les deux packages peuvent être installés à l'aide de la commande

apt-get install flex bison

La bibliothèque nécessite également qu'un système GNU soit disponible car il utilise plusieurs fonctions (par exemple asprintf ) qui ne sont pas présentes dans le standard POSIX. Cependant, cela changera à l'avenir afin d'avoir une bibliothèque plus portable et multiplateforme.

La bibliothèque peut être compilée en utilisant l'une des deux manières suivantes.

Clonage du dépôt Clonez le référentiel et créez l'exécutable et la documentation à l'aide des commandes suivantes.

Lorsque vous utilisez la version du référentiel cloné, vous aurez également besoin d'autoconf, automake et libtool installés. Sur un système Linux basé sur Debian, les packages peuvent être installés à l'aide de la commande

La bibliothèque sera installée sur les chemins standard du système d'exploitation. Pour certaines distributions GNU/Linux, il peut être nécessaire d'ajouter ce chemin standard (généralement /usr/local/lib ) à /etc/ld.so.conf et de lancer ldconfig .

La compatibilité avec Microsoft Windows a été testée avec un compilateur croisé et semble fonctionner immédiatement avec MingW.

libpll implémente actuellement le modèle General Time Reversible (GTR) (Tavare 1986) qui peut être utilisé pour les données de nucléotides et d'acides aminés. Il supporte des modèles de taux variables entre sites, les Inv+Γ (Gu et al. 1995) et possède des fonctions de calcul des catégories de taux discrétisées pour le modèle gamma (Yang 1994). De plus, il prend en charge plusieurs méthodes de correction du biais de détermination (Kuhner et al. 2000, McGill et al. 2013, Lewis 2011, Leaché et al. 2015). Des fonctionnalités supplémentaires incluent la visualisation d'arbres, des fonctions de calcul de parcimonie (coût de mutation minimum) et la reconstruction d'états ancestraux à l'aide de la méthode de Sankoff (Sankoff 1975, Sankof et Rousseau 1975). Les fonctions de calcul des partiels, d'évaluation de la log-vraisemblance et de mise à jour des matrices de probabilité de transition sont vectorisées à l'aide des jeux d'instructions SSE3, AVX et AVX2.

Veuillez vous référer à la page wiki et/ou au répertoire des exemples.

licence libpll et licences tierces

Le code libpll est actuellement sous licence GNU Affero General Public License version 3. Veuillez consulter LICENSE.txt pour plus de détails.

libpll inclut le code de plusieurs autres projets. Nous tenons à remercier les auteurs pour la mise à disposition de leur code source.

libpll inclut le code de GNU Compiler Collection distribué sous la licence publique générale GNU.

Le code est écrit en C avec certaines parties écrites à l'aide d'un assembleur en ligne et de fonctions intrinsèques.

Déposer La description
compresser.c Fonctions de compression de l'alignement dans les modèles de site.
core_derivatives_avx2.c AVX2 fonctions de base vectorisées pour le calcul des dérivées de la fonction de vraisemblance.
core_derivatives_avx.c Fonctions de base vectorisées AVX pour le calcul des dérivées de la fonction de vraisemblance.
core_derivatives.c Fonctions de base pour le calcul des dérivées de la fonction de vraisemblance.
core_derivatives_sse.c Fonctions de base vectorisées SSE pour le calcul des dérivées de la fonction de vraisemblance.
core_likelihood_avx2.c AVX2 vectorisé les fonctions de base pour le calcul de la log-vraisemblance.
core_likelihood_avx.c AVX vectorisé les fonctions de base pour le calcul de la log-vraisemblance.
core_vraisemblance.c Fonctions de base pour le calcul de la probabilité de log, qui ne nécessitent pas d'instances de partition.
core_likelihood_sse.c Fonctions de base vectorisées SSE pour le calcul de la log-vraisemblance.
core_partials_avx2.c Fonctions de base vectorisées AVX2 pour la mise à jour des vecteurs de probabilités conditionnelles (partiels).
core_partials_avx.c Fonctions de base vectorisées AVX pour la mise à jour des vecteurs de probabilités conditionnelles (partiels).
core_partials.c Fonctions de base pour la mise à jour des vecteurs de probabilités conditionnelles (partiels).
core_partials_sse.c Fonctions de base vectorisées SSE pour la mise à jour des vecteurs de probabilités conditionnelles (partiels).
core_pmatrix_avx2.c AVX2 fonctions de base vectorisées pour la mise à jour des matrices de probabilité de transition.
core_pmatrix_avx.c Fonctions de base vectorisées AVX pour la mise à jour des matrices de probabilité de transition.
core_pmatrix.c Fonctions de base pour la mise à jour des matrices de probabilité de transition.
core_pmatrix_sse.c Fonctions de base vectorisées SSE pour la mise à jour des matrices de probabilité de transition.
dérivés.c Fonctions de calcul des dérivées de la fonction de vraisemblance.
fasta.c Fonctions d'analyse des fichiers FASTA.
fast_parsimony_avx2.c Fonctions de parcimonie non pondérées rapides AVX2.
fast_parsimony_avx.c Fonctions de parcimonie non pondérées rapides AVX.
fast_parsimony.c Fonctions de parcimonie rapides non pondérées non vectorisées.
fast_parsimony_sse.c Fonctions de parcimonie non pondérées rapides SSE.
gamma.c Fonctions liées à la fonction et à la distribution Gamma (Γ).
matériel.c Fonctions de détection de matériel.
lex_rtree.l Analyseur lexical pour l'analyse des arbres à racines newick.
lex_utree.l Analyseur lexical pour l'analyse d'arbres newick non racinés.
probabilité.c Fonctions de calcul de la log-vraisemblance d'un arbre à partir d'une instance de partition.
liste.c (Doublement) Implémentations de listes chaînées.
cartes.c Tableaux de mappage de caractères pour convertir les séquences en représentation interne.
modèles.c Fonctions liées aux paramètres du modèle.
sortie.c Fonctions de sortie dans le terminal (c'est-à-dire tableaux de probabilité conditionnelle, matrices de probabilité).
parse_rtree.y Fonctions d'analyse des arbres enracinés au format newick.
parse_utree.y Fonctions d'analyse des arbres non racinés au format newick.
parcimonie.c Fonctions de parcimonie.
partiels.c Fonctions de mise à jour des vecteurs de probabilités conditionnelles (partiels).
phylip.c Fonctions d'analyse des fichiers phylip.
pll.c Fonctions de paramétrage des partitions PLL (instances).
aléatoire.c Générateur de nombres pseudo-aléatoires multi-plateformes réentrants.
rtree.c Fonctions de manipulation d'arbre enraciné.
utree.c Fonctions de manipulation d'arbre sans racine.
utree_moves.c Fonctions pour les réarrangements topologiques sur les arbres non racinés.
utree_svg.c Fonctions pour la visualisation SVG des arbres non racinés.

Le code source de la branche master est minutieusement testé avant les commits. Cependant, des erreurs peuvent arriver. Tous les rapports de bogues sont très appréciés. Vous pouvez soumettre un rapport de bogue ici sur GitHub en tant que problème, ou vous pouvez envoyer un e-mail à [email protected]

  • Tomáš Flouri
  • Diego Darriba
  • Kassian Kobert
  • Mark T. Titulaire
  • Alexeï Kozlov
  • Alexandros Stamatakis

Remerciements particuliers aux personnes suivantes pour les correctifs et suggestions :

Veuillez lire la section Contribuer à libpll du wiki.

Flouri T., Izquierdo-Carrasco F., Darriba D., Aberer AJ, Nguyen LT, Minh BQ, von Haeseler A., ​​Stamatakis A. (2015) La bibliothèque de vraisemblance phylogénétique. Biologie systématique, 64(2) : 356-362. doi: 10.1093/sysbio/syu084

Gu X., Fu YX, Li WH. (1995) Estimation de la vraisemblance maximale de l'hétérogénéité du taux de substitution parmi les sites nucléotidiques. Biologie moléculaire et évolution, 12(4): 546-557.

Kobert K., Stamatakis A., Flouri T. (2017) Détection efficace des sites répétitifs pour accélérer les calculs de vraisemblance phylogénétique. Biologie systématique, 66(2) : 205-217. doi: 10.1093/sysbio/syw075

Leaché AL, Banbury LB, Felsenstein J., de Oca ANM, Stamatakis A. (2015) Arbre court, arbre long, arbre droit, arbre incorrect : nouvelles corrections de biais d'acquisition pour déduire la phylogénie des SNP. Biologie systématique, 64(6) : 1032-1047. doi: 10.1093/sysbio/syv053

Lewis LO. (2001) Une approche de vraisemblance pour estimer la phylogénie à partir de données de caractères morphologiques discrets. Biologie systématique, 50(6) : 913-925. doi: 10.1080/106351501753462876

Sankoff D. (1975) Arbres de Mutation Minimale de Séquences. Revue SIAM de Mathématiques Appliquées, 28(1) : 35-42. doi:10.1137/0128004

Sankoff D, Rousseau P. (1975) Localisation des sommets d'un arbre de Steiner dans un espace métrique arbitraire. Programmation mathématique, 9 : 240-246. doi:10.1007/BF01681346

Stamatakis A. (2014) RAxML version 8 : un outil d'analyse phylogénétique et de post-analyse de grandes phylogénies. Bioinformatique, 30(9) : 1312-1313. doi: 10.1093/bioinformatique/btu033

Tavaré S. (1986) Quelques problèmes probabilistes et statistiques dans l'analyse des séquences d'ADN. American Mathematical Sciety : Conférences sur les mathématiques dans les sciences de la vie, 17: 57-86.

Yang Z. (2014) Estimation phylogénétique du maximum de vraisemblance à partir de séquences d'adn avec des taux variables sur les sites : méthodes approximatives. Journal de l'évolution moléculaire, 39(3) : 306-314. doi:10.1007/BF00160154


Résultats

En plus de l'analyse ci-dessous, nous fournissons les résultats de nos simulations dans leur intégralité (voir tableau S1).

Probabilités

La figure 1 affiche la probabilité de succès, visualisée séparément pour chacune des probabilités de mutation q = 0,08, 0,16, , 0,48. La même information est donnée numériquement dans le tableau 1, où des probabilités de réussite d'au moins 0,90 sont mises en évidence. Dans le cadre le plus propice (q = 0,08), avoir 64 caractères ne suffit pas pour obtenir une probabilité de réussite de 0,90 sauf dans le cas m = 5 pour 6 m ≤ 12, avoir 128 caractères est suffisant. Le cas extrême q = 0,48 est insoluble même pour cinq taxons et 256 caractères, la véritable phylogénie n'a pu être déduite que dans environ 70 % des expériences. La figure 1 montre clairement que si le nombre de caractères est maintenu fixe, la probabilité de succès diminue rapidement à mesure que le nombre de taxons augmente.


Lorsque des caractéristiques, y compris des caractères morphologiques et des loci de gènes, sont héritées d'un ancêtre commun, par exemple, un gène de deux espèces provenant d'un seul gène ancestral.

Séquences homologues qui ont divergé en raison d'événements de spéciation.

Modèles probabilistes de chaîne de Markov en temps continu qui décrivent les changements entre les nucléotides ou les acides aminés au cours du temps évolutif.

Un arbre phylogénétique pour un ensemble d'espèces qui sous-tend les arbres génétiques à des loci individuels.

Séquences homologues qui ont divergé en raison d'événements de duplication de sorte que les deux copies sont descendues côte à côte au cours de l'histoire d'un organisme.

Séquences homologues provenant d'un transfert horizontal de gènes (également appelé transfert latéral de gènes).

Insertion de lacunes dans les séquences homologues afin que les nucléotides ou les acides aminés d'une même colonne soient homologues.

L'arbre phylogénétique ou généalogique des séquences à un locus génique ou une région génomique.

Erreurs dues à des hypothèses de modèle incorrectes.

Tri de lignage incomplet

Discordance des arbres génétiques de l'arbre des espèces due au polymorphisme ancestral.

Le modèle de ramification d'un arbre phylogénétique indiquant les relations entre les taxons.

(LBA). Le phénomène d'inférer un arbre incorrect dans lequel les taxons avec de longues branches sont regroupés.

Un clade est un groupe de taxons sur un arbre qui comprend leur ancêtre commun le plus récent et tous ses descendants, également connu sous le nom de groupe monophylétique.

Erreurs dues à la longueur finie des séquences dans l'alignement.

Un modèle qui suppose le même taux ou processus de substitution à travers les sites d'alignement, les taxons et le temps.

Homogénéité des fréquences de nucléotides ou d'acides aminés à travers les lignées d'une phylogénie.

Des modèles qui supposent des taux ou des processus de substitution différents selon les sites de l'alignement.

Modèles qui supposent plusieurs ensembles de fréquences d'état pour les sites (par exemple, CAT, C10-C60).

Le processus de lignage se joignant lorsque l'on retrace l'histoire d'un échantillon de séquences en arrière dans le temps.

Le processus de changements aléatoires des fréquences alléliques au fil des générations en raison de la nature stochastique de la reproduction.


Les références

Burleigh, J. G. & Mathews, S. Signal phylogénétique dans les données nucléotidiques des plantes à graines: implications pour la résolution de l'arbre de vie des plantes à graines. Un m. J. Bot. 91, 1599–1613 (2004)

Soltis, P. S., Soltis, D. E. & Chase, M. W. La phylogénie des angiospermes déduite de plusieurs gènes en tant qu'outil de biologie comparative. La nature 402, 402–404 (1999)

Graham, S. W. & Olmstead, R. G. Utilité de 17 gènes chloroplastiques pour déduire la phylogénie des angiospermes basaux. Un m. J. Bot. 87, 1712–1730 (2000)

Mathews, S. & Donoghue, M. J. La phylogénie basale des angiospermes déduite des phytochromes A et C en double. Int. J. Plant Sci. 161, (6 suppl.)S41–S55 (2000)

Zanis, M. J., Soltis, D. E., Soltis, P. S., Mathews, S. & Donoghue, M. J. La racine des angiospermes revisitée. Proc. Natl Acad. Sci. Etats-Unis 99, 6848–6853 (2002)

Borsch, T. et al. Plastide non codant trnTtrnF Les séquences révèlent une phylogénie bien résolue des angiospermes basaux. J. Évol. Biol. 16, 558–576 (2003)

Qiu, Y.-L. et al. Analyses phylogénétiques des angiospermes basales basées sur neuf gènes plastes, mitochondriaux et nucléaires. Int. J. Plant Sci. 166, 815–842 (2005)

Leebens-Mack, J. et al. Identifier le nœud d'angiosperme basal dans les phylogénies du génome chloroplastique : échantillonnage pour sortir de la zone de Felsenstein. Mol. Biol. Évol. 22, 1948–1963 (2005)

Doyle, J. A. & Endress, P. K. Analyse phylogénétique morphologique des angiospermes basaux : comparaison et combinaison avec des données moléculaires. Int. J. Plant Sci. 161, (6 suppl.)S121–S153 (2000)

Groupe de phylogénie des angiospermes (APG II). Une mise à jour de la classification du groupe phylogénie des angiospermes pour les ordres et les familles de plantes à fleurs. Bot. J. Linn. Soc. 141, 399–436 (2003)

Williams, J. H. & Friedman, W. E. Le gamétophyte femelle à quatre cellules de Illicium (Illiciaceae Austrobaileyales): implications pour la compréhension de l'origine et de l'évolution précoce des monocotylédones, des eumagnoliidés et des eudicots. Un m. J. Bot. 91, 332–351 (2004)

Feild, T.S., Arens, N.C., Doyle, J.A., Dawson, T.E. & Donoghue, M.J. Sombre et perturbé : une nouvelle image de l'écologie des angiospermes précoces. Paléobiologie 30, 82–107 (2004)

Hamann, U. Hydatellaceae-une nouvelle famille de Monocotyledoneae. N. Zèle. J. Bot. 14, 193–196 (1976)

Bremer, K. Gondwanan évolution de l'alliance herbeuse des familles (Poales). Évolution 56, 1374–1387 (2002)

Dahlgren, R.M.T., Clifford, H.T. & Yeo, P.F. Les familles des monocotylédones : structure, évolution et taxonomie (Springer, Berlin, 1985)

Hamann, U. dans Les familles et les genres de plantes vasculaires IV. Plantes à fleurs. Monocotylédones. Alismatanae et Commelinanae (sauf Graminées) (éd. Kubitzki, K.) 231-234 (Springer, Berlin, 1998)

Stevenson, D.W. et al. dans Monocotylédones : Systématique et évolution (eds Wilson, K. L. & Morrison, D. A.) 17-24 (CSIRO, Collingwood, Australie, 2000)

Michelangeli, F. A., Davis, J. I. & Stevenson, D. W. Relations phylogénétiques entre les Poaceae et les familles apparentées déduites de la morphologie, des inversions dans le génome des plastes et des données de séquence des génomes mitochondriaux et plastes. Un m. J. Bot. 90, 93–106 (2003)

Graham, S. W., Olmstead, R. G. & Barrett, S. C. H. Enracinement d'arbres phylogénétiques avec des groupes externes distants : une étude de cas sur les monocotylédones commelinoïdes. Mol. Biol. Évol. 19, 1769–1781 (2002)

Doyle, J. A. Évolution précoce du pollen d'angiospermes déduite des analyses phylogénétiques moléculaires et morphologiques. Grana 44, 227–251 (2005)

Sun, G. et al. Archaefructaceae, une nouvelle famille d'angiospermes basales. Science 296, 899–904 (2002)

Graham, S.W. et al. dans Monocotylédones : biologie comparée et évolution (hors Poales) (eds Columbus, J. T., Friar, E. A., Porter, J. M., Prince, L. M. & Simpson, M. G.) 3-21 (Rancho Santa Ana Botanic Garden, Claremont, Californie, 2006)

Chase, M.W. et al. dans Monocotylédones : biologie comparée et évolution (hors Poales) (eds Columbus, J. T., Friar, E. A., Porter, J. M., Prince, L. M. & Simpson, M. G.) 63–75 (Rancho Santa Ana Botanic Garden, Claremont, Californie, 2006)

Swofford, D.L. Analyse phylogénétique par parcimonie* (PAUP*) (Sinauer Associates, Sunderland, Massachusetts, 2002)

Guindon, S. & Gascuel, O. Un algorithme simple, rapide et précis pour estimer de grandes phylogénies par maximum de vraisemblance. Syst. Biol. 52, 696–704 (2003)

Hamann, U. Neue Untersuchungen zur Embryologie und Systematik der Centrolepidaceae. Bot. Jahrb. Syst. 96, 154–191 (1975)

Cooke, D.A. dans Les familles et les genres de plantes vasculaires IV. Plantes à fleurs. Monocotylédones. Alismatanae et Commelinanae (sauf Graminées) (éd. Kubitzki, K.) 106-109 (Springer-Verlag, Berlin, 1998)

Appel, O. & Bayer, C. dans Les familles et les genres de plantes vasculaires IV. Plantes à fleurs. Monocotylédones. Alismatanae et Commelinanae (sauf Gramineae) (éd. Kubitzki, K.) 208-211 (Springer, Berlin, 1998)

Kim, S., Soltis, D. E., Soltis, P. S., Zanis, M. J. & Suh, Y. Les relations phylogénétiques entre les eudicots à divergence précoce sont basées sur quatre gènes : les eudicots étaient-ils ancestralement ligneux ? Mol. Phylog. Évol. 31, 16–30 (2004)

Maddison, D.R. & Maddison, W.P. MacClade 4: Analysis of Phylogeny and Character Evolution, Version 4.03 (Sinauer Associates, Sunderland, Massachusetts, 2001)

Harden, G. J. (ed.) Flora of New South Wales. Vol. 4 (Univ. of New South Wales, Kensington, New South Wales, Australia, 1993)


Investigation on the Conserved MicroRNA Genes in Higher Plants

Analysis of evolving microRNA repertoires within the plant domain can further corroborate our understanding of genome evolution and plasticity. An extensive collection of relatively unbiased miRBase-registered plant miRNAs and predicted unlisted MIRs from 23 plant ESTs were examined. As a result, 4324 pre-miRNAs were predicted and classified in 656 miRNA gene families with mostly being transposons (57.81%). From 216 newly identified pre-miRNAs, 103 distinct types belonged to reduced complexity/repeated regions. Collinearity between the numbers of miRNAs in each species with the relevant sizes of genomes was absent. Duplications of MIRs were evident, with higher MIR paralogs in Liliopsida compared with dicots. Due to the lack of an apparent pattern of phylogeny, Dollo maximum parsimony was used that established the acceleration of gains and potential losses of miRNA gene families within Mesangiospermae during the last 200 million years ago. Phylogenetic analysis of Liliopsida in contrast to Eudicotyledons agreed with the reconstructed tree based on the possible expansion of distinguished MIR families. In marked contrast to dicots, the degrees of resemblance in Liliopsida were higher than their direct predecessors. Analyses of recent monophyletic lineages were illustrative of miRNA horizontal genes transfer.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Ancestral Sequence Reconstruction and Infectious Disease

Ancestral sequence reconstruction can be used to understand viral evolution and towards therapeutic applications (Arenas 2020). An understanding of the evolutionary histories of these viruses can lead to applications in detecting targeted regions for future therapeutics, and to assist in predicting new viral resistance against current drugs.

Ancestral sequence reconstruction is also of emerging interest for vaccine technologies, especially for the development of vaccines to combat rapidly evolving viruses such as HIV and influenza strains (Gaschen et al. 2002 Ducatez et al. 2011). Using ancestrally derived sequences to create vaccine reagents takes advantage of the evolutionary history of the virus. This strategy contrasts with other methods which construct a consensus sequence from different viral strains, ignoring phylogenetic structure. A vaccine reagent can be based on the last common ancestral sequence of all the strains that are circulating, or from other points in the tree. For example, when the phylogenetic topology is skewed, the “center of tree” method may be implemented. The center of tree method considers the ancestral sequence that minimizes the evolutionary distance between different viral strains of interest (Nickle et al. 2003).

In the age of the SARS-CoV-2, ancestral sequence reconstruction has become of immediate interest to assist in vaccine development (Zhou et al. 2020). Like the rapidly evolving RNA virus influenza and retrovirus HIV, SARS-CoV-2 is also an RNA virus. However, a recent study used ancestral sequence reconstruction to demonstrate that unlike other RNA viruses, mutations in SARS-CoV-2 are rare, as the evolution rate is slower than the transmission rate. Because of the slow evolution of SARS-CoV-2, only one vaccine candidate may be necessary to match all currently circulating SARS-CoV-2 variants (Dearlove et al. 2020).

Aside from disease causing viruses, viruses are also developed to serve as a vehicle for gene therapy (Ivics et al. 1997). The Adeno-associated Virus (AAV) has been considered an efficient gene therapy for both inherited and infectious diseases. However, the complex structure and diversity associated with different target receptor binding for AAV make the virus difficult to properly structurally assemble when designed. Using ancestral sequence reconstruction, Zinn et al. (2015) were able to provide a virus with a structure that would remain evolutionarily resilient to future mutations and maintain broad clinical applicability.


Téléchargez et imprimez cet article pour votre usage personnel académique, de recherche et pédagogique.

Achetez un seul numéro de Science pour seulement 15 $ US.

Science

Vol 323, Issue 5911
09 January 2009

Outils d'articles

Veuillez vous connecter pour ajouter une alerte pour cet article.

By Iván F. Acosta , Hélène Laparra , Sandra P. Romero , Eric Schmelz , Mats Hamberg , John P. Mottinger , Maria A. Moreno , Stephen L. Dellaporta

Science 09 Jan 2009 : 262-265

A gene that controls male floral development in maize is involved in synthesis of a hormone that suppresses female organ development.


Voir la vidéo: Vlog Grafeenia shoteissa. Suomen suurin rikollisjärjestö? + muuta (Juillet 2022).


Commentaires:

  1. Kasho

    Je suis désolé, mais, à mon avis, ils avaient tort. Essayons de discuter de cela. Écrivez-moi dans PM, cela vous parle.

  2. Athmarr

    Merci beaucoup pour l'information. Maintenant je le saurai.

  3. Netilar

    Le message faisant autorité :), est tentant ...

  4. Adjatay

    À mon avis, vous vous trompez. Je peux le prouver. Écrivez-moi dans PM, nous communiquerons.

  5. Zuluzilkree

    Il est d'accord, le message est très bon

  6. Malyn

    Blagues de marche)))

  7. Treacy

    Je suis satisfait de toi



Écrire un message