Informations

D16. Complexité des espèces eucaryotes - Biologie

D16. Complexité des espèces eucaryotes - Biologie



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

On pensait que la complexité croissante des organismes eucaryotes provenait d'un nombre croissant de gènes. Il existe environ un facteur de transcription pour chaque gène chez la levure, mais un pour dix chez l'homme.

Chez les eucaryotes simples, les éléments régulateurs cis incluraient le promoteur (région de la boîte TATA) et les séquences régulatrices en amont (amplificateur) et les silencieux à environ 100-200 paires de bases du promoteur. Chez les espèces eucaryotes plus complexes comme les humains, le promoteur est plus complexe, contenant la boîte TATA, les séquences initiatrices (INR) et les éléments promoteurs en aval (DPE). Les éléments régulateurs cis en amont (jusqu'à 10 kb du promoteur) comprennent de multiples amplificateurs, silencieux et isolants. La plupart des promoteurs ont des boîtes TATA, où la protéine de liaison TATA (TBP) se lie. Les éléments en amont régulent à leur tour la liaison du TBP.

  • Promoteurs eucaryotes et régions régulatrices
  • Appareil de transcription générale multi-sous-unités eucaryotes
  • Régulation Biologique : BioBase - Régulation des Gènes (site public TRANS-FAC 6.0 gratuit avec inscription)

Évolution rapide d'énormes génomes multichromosomiques dans les mitochondries des plantes à fleurs avec des taux de mutation exceptionnellement élevés

La taille et la complexité du génome varient énormément entre les espèces eucaryotes et leurs organites. Des comparaisons entre des lignées eucaryotes profondément divergentes ont suggéré que la variation des taux de mutation peut expliquer cette diversité, avec des charges mutationnelles accrues favorisant une taille et une complexité réduites du génome. La découverte que les taux de mutation mitochondriale peuvent différer par ordre de grandeur parmi les espèces d'angiospermes étroitement apparentées présente une occasion unique de tester cette hypothèse. Nous avons séquencé les génomes mitochondriaux de deux espèces du genre d'angiospermes Silene avec des accélérations récentes et spectaculaires de leurs taux de mutation mitochondriale. Contrairement aux prédictions théoriques, ces génomes ont connu une prolifération massive de contenus non codants. Avec 6,7 et 11,3 Mb, ce sont de loin les plus grands génomes mitochondriaux connus, plus gros que la plupart des génomes bactériens et même certains génomes nucléaires. En revanche, deux génomes mitochondriaux de Silene à évolution lente sont plus petits que la moyenne pour les angiospermes. Par conséquent, ce genre capture environ 98 % de la variation connue de la taille du génome des organites. Les génomes étendus révèlent plusieurs changements architecturaux, y compris l'évolution de structures multichromosomiques complexes (avec 59 et 128 chromosomes à cartographie circulaire, dont la taille varie de 44 à 192 kb). Ils présentent également une réduction substantielle de l'activité de recombinaison et de conversion génique telle que mesurée par la fréquence relative des conformations génomiques alternatives et le niveau de divergence de séquence entre les copies répétées. L'évolution du taux de mutation, de la taille du génome et de la structure chromosomique peut donc être extrêmement rapide et interdépendante de manières non prévues par les théories évolutionnistes actuelles. Nos résultats soulèvent l'hypothèse que les changements dans les processus de recombinaison, y compris la conversion génique, peuvent être une force centrale entraînant l'évolution à la fois du taux de mutation et de la structure du génome.

Déclaration de conflit d'intérêts

Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.

Les figures

Figure 1. Divergence de séquence, taille du génome et…

Figure 1. Divergence de séquence, taille du génome et contenu génique dans les mitochondries des plantes à graines.

Figure 2. Niveaux de synonymes ( ré…

Figure 2. Niveaux de synonymes ( S ) et non synonyme ( N )…

Figure 3. Nombre d'indels dans les mitochondries…

Figure 3. Nombre d'indels dans les gènes et les introns des protéines mitochondriales qui sont uniques à…

Figure 4. Contenu des gènes en protéines et en ARN…

Figure 4. Teneur en protéines et en gènes d'ARN dans les génomes mitochondriaux séquencés des plantes à graines.

Figure 5. Distribution de la taille du contenu répétitif…

Figure 5. Distribution de la taille du contenu répétitif par le nombre de paires répétées (colonne de gauche)…

Figure 6. Activité de recombinaison à médiation répétée dans le…

Figure 6. Activité de recombinaison à médiation répétée dans le faible taux de mutation S. latifolia et S. vulgaris…

Figure 7. Distribution du pourcentage d'identité de séquence…

Figure 7. Distribution du pourcentage d'identité de séquence entre les paires de répétitions détectées par BLAST.

Figure 8. Silène taille relative du génome mitochondrial…

Figure 8. Silène tailles du génome mitochondrial par rapport à tous les génomes mitochondriaux et eubactériens séquencés de…


La complexité de l'ensemble de données a un impact à la fois sur la délimitation du MOTU et les estimations de la biodiversité dans les études de métabarcodage de l'ARNr 18S eucaryotes

Comment l'évolution des outils bioinformatiques impacte-t-elle l'interprétation biologique des ensembles de données de séquençage à haut débit ? Pour les études de codage à barres eucaryotes, en particulier, les chercheurs s'appuient souvent sur des outils développés à l'origine pour l'analyse des ensembles de données d'ARN ribosomique 16S (ARNr). De tels outils ne tiennent pas suffisamment compte de la complexité des génomes eucaryotes, de l'omniprésence de la variation intragénomique dans les loci de métabarcodage eucaryotes ou des taux d'évolution différentiels observés entre les gènes et les taxons eucaryotes. Récemment, les workflows de métabarcodage sont passés de l'utilisation d'unités taxonomiques opérationnelles (OTU) à la délimitation de variantes de séquence d'amplicons (ASV). Nous avons évalué l'impact du choix de l'algorithme bioinformatique sur les conclusions biologiques en aval tirées des études de codage à barres de l'ARNr 18S eucaryotes. Nous nous sommes concentrés sur quatre workflows, dont les algorithmes UCLUST et VSearch pour le clustering OTU, et les algorithmes DADA2 et Deblur pour la délimitation ASV. Nous avons utilisé deux ensembles de données d'ARNr 18S pour évaluer davantage si la complexité de l'ensemble de données avait un impact majeur sur les tendances statistiques et les métriques écologiques : LC) ensemble de données représentant des nématodes à code-barres individuellement. Nos résultats indiquent que les algorithmes ASV produisent des sorties de méta-codage à barres plus réalistes sur le plan biologique, DADA2 étant le pipeline le plus cohérent et le plus précis, quelle que soit la complexité de l'ensemble de données. En revanche, les algorithmes de clustering OTU gonflent les estimations de la biodiversité dérivées du méta-codage à barres, renvoyant systématiquement une proportion élevée d'unités taxonomiques opérationnelles moléculaires (MOTU) « rares » qui semblent représenter des artefacts de calcul et des erreurs de séquençage. Cependant, les MOTU spécifiques aux espèces avec une abondance relative élevée sont souvent récupérées quelle que soit l'approche bioinformatique. Nous avons également trouvé une concordance élevée entre les pipelines pour l'analyse écologique en aval basée sur des comparaisons de la diversité bêta et de la diversité alpha qui utilisent des informations d'affectation taxonomique. Les analyses des ensembles de données LC et des MOTU rares sont particulièrement sensibles au choix des algorithmes et de meilleurs outils logiciels peuvent être nécessaires pour faire face à ces scénarios.


Le rôle secret joué par les histones dans l'évolution cellulaire complexe

Pour réviser cet article, visitez Mon profil, puis Afficher les histoires enregistrées.

En gérant l'expression des gènes dans des cellules complexes, des octets de protéines histones ont contribué à permettre la diversité explosive de la vie eucaryote. Illustration : Jason Lyon/Quanta Magazine

Pour réviser cet article, visitez Mon profil, puis Afficher les histoires enregistrées.

La biologie moléculaire a quelque chose en commun avec les compétitions de cerf-volant. À ce dernier, tous les regards sont rivés sur les constructions colorées, élaborées et follement cinétiques qui s'élancent dans le ciel. Personne ne regarde les humbles bobines ou bobines sur lesquelles les cordes du cerf-volant sont enroulées, même si les performances aériennes dépendent de l'habileté avec laquelle ces bobines sont manipulées. Dans la biologie des cellules complexes, ou eucaryotes, le ballet des molécules qui transcrivent et traduisent l'ADN génomique en protéines occupe une place centrale, mais cette danse serait impossible sans le travail sous-estimé des protéines histones rassemblant l'ADN en faisceaux nets et en déballant juste assez de en cas de besoin.

Les histones, en tant que pivots de l'appareil de régulation des gènes, jouent un rôle dans presque toutes les fonctions des cellules eucaryotes. "Pour devenir complexe, vous devez avoir une complexité du génome et faire évoluer de nouvelles familles de gènes, et vous devez avoir un cycle cellulaire", a expliqué William Martin, biologiste évolutionniste et biochimiste à l'Université Heinrich Heine en Allemagne. « Et qu'est-ce qu'il y a au milieu de tout ça ? Gérer votre ADN.

Histoire originale réimprimée avec la permission de Magazine Quanta, une publication éditoriale indépendante de la Fondation Simons dont la mission est d'améliorer la compréhension du public de la science en couvrant les développements et les tendances de la recherche en mathématiques et en sciences physiques et de la vie.

De nouveaux travaux sur la structure et la fonction des histones dans des cellules anciennes et simples ont rendu encore plus claire l'importance centrale et de longue date de ces protéines dans la régulation des gènes. Il y a des milliards d'années, les cellules appelées archées utilisaient déjà des histones comme les nôtres pour gérer leur ADN, mais elles l'ont fait avec des règles plus souples et beaucoup plus variées. À partir de ces similitudes et de ces différences, les chercheurs tirent de nouvelles informations, non seulement sur la façon dont les histones ont contribué à façonner les origines de la vie complexe, mais également sur la façon dont les variantes des histones affectent notre propre santé aujourd'hui. Dans le même temps, cependant, de nouvelles études sur les histones dans un groupe inhabituel de virus compliquent les réponses sur l'origine réelle de nos histones.

Les eucaryotes sont apparus il y a environ 2 milliards d'années, lorsqu'une bactérie capable de métaboliser l'oxygène en énergie a élu domicile à l'intérieur d'une cellule archée. Ce partenariat symbiotique était révolutionnaire parce que la production d'énergie à partir de cette proto-mitochondrie a soudainement rendu l'expression des gènes beaucoup plus abordable sur le plan métabolique, soutient Martin. Les nouveaux eucaryotes ont soudain eu carte blanche pour étendre la taille et la diversité de leurs génomes et pour mener une myriade d'expériences évolutives, jetant les bases des innombrables innovations eucaryotes observées dans la vie aujourd'hui. "Les eucaryotes sont un appareil génétique archéen qui survit à l'aide du métabolisme énergétique bactérien", a déclaré Martin.

Mais les premiers eucaryotes ont connu de sérieuses difficultés de croissance au fur et à mesure que leurs génomes se développaient : le génome plus grand a apporté de nouveaux problèmes découlant de la nécessité de gérer une chaîne d'ADN de plus en plus lourde. Cet ADN devait être accessible à la machinerie de la cellule pour le transcrire et le répliquer sans s'emmêler dans une boule de spaghetti sans espoir.

L'ADN devait aussi parfois être compact, à la fois pour aider à réguler la transcription et la régulation, et pour séparer les copies identiques de l'ADN lors de la division cellulaire. Et l'un des dangers d'un compactage imprudent est que les brins d'ADN peuvent se lier de manière irréversible si l'épine dorsale de l'un interagit avec le sillon d'un autre, rendant l'ADN inutile.

Les bactéries ont une solution pour cela qui implique une variété de protéines "surenroulant" conjointement les bibliothèques d'ADN relativement limitées des cellules. Mais la solution de gestion de l'ADN des eucaryotes consiste à utiliser des protéines histones, qui ont une capacité unique à envelopper l'ADN autour d'elles plutôt que de simplement s'y coller. Les quatre histones primaires des eucaryotes - H2A, H2B, H3 et H4 - s'assemblent en octamères avec deux copies de chacun. Ces octamères, appelés nucléosomes, sont les unités de base de l'encapsidation de l'ADN eucaryote.

En courbant l'ADN autour du nucléosome, les histones l'empêchent de s'agglutiner et le maintiennent fonctionnel. C'est une solution ingénieuse, mais les eucaryotes ne l'ont pas inventée tout seuls.

Dans les années 1980, lorsque la biologiste cellulaire et moléculaire Kathleen Sandman était postdoctorante à l'Ohio State University, elle et son conseiller, John Reeve, ont identifié et séquencé les premières histones connues chez les archées. Ils ont montré comment les quatre principales histones eucaryotes étaient liées les unes aux autres et aux histones archées. Leurs travaux ont fourni la première preuve que dans l'événement endosymbiotique original qui a conduit aux eucaryotes, l'hôte était probablement une cellule archée.

Mais ce serait une erreur téléologique de penser que les histones archéennes n'attendaient que l'arrivée des eucaryotes et la possibilité d'agrandir leurs génomes. « Beaucoup de ces premières hypothèses portaient sur les histones en fonction de leur capacité à permettre à la cellule d'étendre son génome. Mais cela ne vous dit pas vraiment pourquoi ils étaient là en premier lieu », a déclaré Siavash Kurdistani, biochimiste à l'Université de Californie à Los Angeles.

Comme première étape vers ces réponses, Sandman s'est associé il y a plusieurs années à la biologiste structurale Karolin Luger, qui a résolu la structure du nucléosome eucaryote en 1997. Ensemble, ils ont élaboré la structure cristallisée du nucléosome archéen, qu'ils ont publiée avec des collègues. en 2017. Ils ont découvert que les nucléosomes archéens ont une structure «étrangement similaire» aux nucléosomes eucaryotes, a déclaré Luger, malgré les différences marquées dans leurs séquences peptidiques.

Les nucléosomes archéens avaient déjà « compris comment lier et plier l'ADN dans ce bel arc », a déclaré Luger, maintenant chercheur au Howard Hughes Medical Institute de l'Université du Colorado à Boulder. Mais la différence entre les nucléosomes eucaryotes et archéens est que la structure cristalline du nucléosome archéen semblait former des assemblages plus lâches, de type Slinky, de tailles variables.

Dans un journal en eLife publié en mars, Luger, son postdoctorant Samuel Bowerman et Jeff Wereszczynski de l'Illinois Institute of Technology ont suivi l'article de 2017. Ils ont utilisé la cryomicroscopie électronique pour résoudre la structure du nucléosome archéen dans un état plus représentatif d'une cellule vivante. Leurs observations ont confirmé que les structures des nucléosomes archéens sont moins fixes. Les nucléosomes eucaryotes sont toujours enveloppés de manière stable par environ 147 paires de bases d'ADN et se composent toujours de seulement huit histones. (Pour les nucléosomes eucaryotes, "le mâle s'arrête à huit", a déclaré Luger.) Leurs équivalents dans les archées se situent entre 60 et 600 paires de bases. Ces «archéasomes» contiennent parfois aussi peu que trois dimères d'histones, mais les plus grands contiennent jusqu'à 15 dimères.

Ils ont également découvert que contrairement aux nucléosomes eucaryotes serrés, les archaeasomes de type Slinky s'ouvrent de manière stochastique, comme des coquilles. Les chercheurs ont suggéré que cet arrangement simplifie l'expression des gènes pour les archées, car contrairement aux eucaryotes, ils n'ont pas besoin de protéines supplémentaires énergétiquement coûteuses pour aider à dérouler l'ADN des histones afin de les rendre disponibles pour la transcription.

C'est pourquoi Tobias Warnecke, qui étudie les histones archées à l'Imperial College de Londres, pense qu'« il y a quelque chose de spécial qui a dû se passer à l'aube des eucaryotes, où nous passons d'avoir de simples histones… à avoir des nucléosomes octamériques. Et ils semblent faire quelque chose de qualitativement différent.

Ce que c'est, cependant, reste un mystère. Chez les espèces archées, il y en a "beaucoup qui ont des histones, et il y a d'autres espèces qui n'ont pas d'histones. Et même ceux qui ont des histones varient beaucoup », a déclaré Warnecke. En décembre dernier, il a publié un article montrant qu'il existe diverses variantes de protéines histones avec différentes fonctions. Les complexes histone-ADN varient dans leur stabilité et leur affinité pour l'ADN. Mais ils ne sont pas organisés de manière aussi stable ou régulière que les nucléosomes eucaryotes.

Aussi déroutante que soit la diversité des histones archéennes, elle offre l'opportunité de comprendre les différentes manières possibles de construire des systèmes d'expression génique. C'est quelque chose que nous ne pouvons pas déduire de la relative « ennui » des eucaryotes, dit Warnecke : en comprenant la combinatoire des systèmes archéens, « nous pouvons également comprendre ce qui est spécial avec les systèmes eucaryotes ». La variété des différents types et configurations d'histones chez les archées peut également nous aider à déduire ce qu'elles auraient pu faire avant que leur rôle dans la régulation des gènes ne se solidifie.

Parce que les archées sont des procaryotes relativement simples avec de petits génomes, "Je ne pense pas que le rôle original des histones était de contrôler l'expression des gènes, ou du moins pas d'une manière à laquelle nous sommes habitués chez les eucaryotes", a déclaré Warnecke. Au lieu de cela, il émet l'hypothèse que les histones auraient pu protéger le génome des dommages.

Les archées vivent souvent dans des environnements extrêmes, comme des sources chaudes et des cheminées volcaniques sur le fond marin, caractérisés par des températures élevées, des pressions élevées, une salinité élevée, une acidité élevée ou d'autres menaces. Stabiliser leur ADN avec des histones peut rendre plus difficile la fusion des brins d'ADN dans ces conditions extrêmes. Les histones pourraient également protéger les archées contre les envahisseurs, tels que les phages ou les éléments transposables, qui auraient plus de mal à s'intégrer dans le génome lorsqu'il est enroulé autour des protéines.

Kurdistan est d'accord. "Si vous étudiiez les archées il y a 2 milliards d'années, le compactage du génome et la régulation des gènes ne sont pas les premières choses qui vous viendraient à l'esprit lorsque vous pensez aux histones", a-t-il déclaré. En fait, il a provisoirement spéculé sur un autre type de protection chimique que les histones auraient pu offrir aux archées.

En juillet dernier, l'équipe de Kurdistani a signalé que dans les nucléosomes de levure, il existe un site catalytique à l'interface de deux protéines histones H3 qui peuvent se lier et réduire électrochimiquement le cuivre. Pour en comprendre la signification évolutive, Kurdistani remonte à l'augmentation massive de l'oxygène sur Terre, le grand événement d'oxydation, qui s'est produit à l'époque où les eucaryotes ont évolué pour la première fois il y a plus de 2 milliards d'années. Des niveaux d'oxygène plus élevés ont dû provoquer une oxydation globale des métaux comme le cuivre et le fer, qui sont essentiels pour la biochimie (bien que toxiques en excès). Une fois oxydés, les métaux seraient devenus moins disponibles pour les cellules, de sorte que toutes les cellules qui maintenaient les métaux sous forme réduite auraient eu un avantage.

Pendant le Grand événement d'oxydation, la capacité de réduire le cuivre aurait été "une marchandise extrêmement précieuse", a déclaré Kurdistani. Cela aurait pu être particulièrement attrayant pour les bactéries qui étaient les précurseurs des mitochondries, car la cytochrome c oxydase, la dernière enzyme de la chaîne de réactions que les mitochondries utilisent pour produire de l'énergie, a besoin de cuivre pour fonctionner.

Parce que les archées vivent dans des environnements extrêmes, elles ont peut-être trouvé des moyens de générer et de gérer du cuivre réduit sans être tués par celui-ci bien avant le grand événement d'oxydation. Si tel est le cas, des proto-mitochondries pourraient avoir envahi les hôtes archées pour voler leur cuivre réduit, suggère Kurdistani.

L'hypothèse est intrigante car elle pourrait expliquer pourquoi les eucaryotes sont apparus lorsque les niveaux d'oxygène ont augmenté dans l'atmosphère. "Il y avait 1,5 milliard d'années de vie avant cela, et aucun signe d'eucaryotes", a déclaré Kurdistani. "Donc, l'idée que l'oxygène a conduit à la formation de la première cellule eucaryote, pour moi, devrait être au cœur de toutes les hypothèses qui tentent de comprendre pourquoi ces caractéristiques se sont développées."

La conjecture de Kurdistani suggère également une hypothèse alternative expliquant pourquoi les génomes eucaryotes sont devenus si gros. L'activité de réduction du cuivre des histones ne se produit qu'à l'interface des deux histones H3 à l'intérieur d'un nucléosome assemblé enveloppé d'ADN. "Je pense qu'il y a une possibilité distincte que la cellule veuille plus d'histones. Et la seule façon de le faire était d'élargir ce répertoire d'ADN », a déclaré Kurdistani. Avec plus d'ADN, les cellules pourraient envelopper plus de nucléosomes et permettre aux histones de réduire plus de cuivre, ce qui favoriserait une plus grande activité mitochondriale. "Ce n'était pas seulement que les histones permettaient plus d'ADN, mais plus d'ADN permettait plus d'histones", a-t-il déclaré.


Les séquences de faible complexité sont extrêmement abondantes dans les protéines eucaryotes pour des raisons qui restent obscures. Une hypothèse est qu'ils contribuent à la formation de nouvelles séquences codantes, facilitant la génération de nouvelles fonctions protéiques. Ici, nous testons cette hypothèse en examinant le contenu des séquences de faible complexité dans les protéines d'âge différent. Nous montrons que les protéines récemment apparues contiennent plus de séquences de faible complexité que les protéines plus anciennes et que ces séquences forment souvent des domaines fonctionnels. Ces données sont cohérentes avec l'idée que les séquences de faible complexité peuvent jouer un rôle clé dans l'émergence de nouveaux gènes.

Les régions de faible complexité (LCR) sont des séquences d'acides aminés qui contiennent des répétitions d'acides aminés simples ou de courts motifs d'acides aminés. Ils sont extrêmement abondants dans les protéines eucaryotes (Green et Wang 1994 Golding 1999 Marcotte et al. 1999). En fait, la majorité des protéines d'un large éventail d'espèces eucaryotes montrent une tendance significative à être plus répétitives que prévu compte tenu de leur composition en acides aminés (Alba, Tompa, et al. 2007). De nombreux LCR sont très instables en raison de l'action du glissement de réplication et de la recombinaison (Ellegren 2004), et l'expansion incontrôlée de motifs à séquence courte provoque plusieurs maladies humaines, dont la maladie de Huntington et d'autres troubles neurodégénératifs (Gatchel et Zoghbi 2005), ainsi qu'un nombre de maladies du développement ( Brown et Brown 2004). L'abondance des LCR semble paradoxale compte tenu de leur fort potentiel pathogène. Une hypothèse pour expliquer leur persistance est qu'ils augmentent la variation phénotypique au sein des populations, facilitant l'adaptation ( Kashi et King 2006). Alors que de nombreux LCR ont une fonction inconnue, il existe des exemples de LCR jouant divers rôles fonctionnels, notamment la modulation des interactions protéine-protéine ( Xiao et Jeang 1998), les interactions protéine-acide nucléique ( Shen et al. 2004) et la localisation subcellulaire des protéines. (Salichs et al. 2009). L'expansion ou la contraction des LCR peut donc potentiellement avoir un impact sur la fonction des protéines.

Une hypothèse alternative pour expliquer l'abondance des LCR est qu'elles facilitent la formation de nouvelles séquences codantes (Green et Wang 1994). L'analyse des génotypes de la famille humaine a montré que, lorsque les répétitions sont courtes, elles sont plus susceptibles de s'étendre que de se contracter ( Xu et al. 2000), ce qui favorise l'extension des répétitions "graines" initialement courtes en répétitions plus longues. L'accumulation de mutations ultérieures peut conduire à l'émergence de nouvelles fonctions protéiques utiles. Une idée plus radicale est que les séquences répétitives sont importantes pour la génération de séquences codantes complètement nouvelles. Au début des années 80, Ohno et Epplen ont proposé que les premières séquences codant pour les protéines étaient probablement très répétitives, car l'expansion de voies répétées était plus susceptible de produire de longues chaînes polypeptidiques sans codons d'interruption que lorsque les séquences avaient une composition aléatoire en acides aminés ( Ohno et Epplen 1983 Ohno 1984). Inspirés par cette idée, nous avons décidé de tester si les gènes récemment apparus contiennent plus de LCR que les gènes plus anciens. Bien qu'il y ait eu quelques observations allant dans ce sens ( Nishizawa et al. 1999 Alba et Castresana 2005), la question n'avait pas encore été examinée en détail. Pour en savoir plus sur la contribution des LCR à la fonction des protéines, nous avons également quantifié combien de LCR étaient situés dans des domaines protéiques déjà décrits et combien étaient situés dans des régions ne correspondant pas aux domaines.

Pour étudier la corrélation entre l'âge des gènes et le contenu LCR, nous avons obtenu trois groupes de protéines humaines apparues à différentes périodes « Mammifères » (∼ 300 à 100 Ma), « Vertébrés » (∼ 500 à 300 Ma) et « Vieux » (>500 Ma). Pour les protéines contenant des hits vers des domaines protéiques Pfam ( Finn et al. 2008), la classification était basée sur la distribution phylogénétique de ces domaines, telle que déterminée par des recherches de modèles de Markov cachés spécifiques au domaine dans différents protéomes eucaryotes (voir Matériels et méthodes). Pour les protéines ne contenant pas d'accès aux domaines protéiques Pfam, la classification était basée sur des recherches de similarité de séquences de bases de données à l'aide de BlastP ( Altschul et al. 1997). Nous avons recherché les LCR dans toutes les protéines classées à l'aide de l'algorithme SEG, qui identifie les régions de composition biaisée enrichies en un ou quelques acides aminés (Wootton et Federhen 1996). La majorité des protéines de chacune des classes d'âge contenait au moins un LCR (83,1 % de vieux, 83,7 % de vertébrés et 87 % de mammifères), confirmant la forte omniprésence de ces séquences. Cependant, dans les protéines plus jeunes, les LCR occupaient une fraction significativement plus grande de la séquence que dans les protéines plus anciennes ( fig. 1). En moyenne, la teneur en LCR des protéines de mammifères était le double de la teneur en LCR des protéines classées comme anciennes (les valeurs pour toutes les protéines peuvent être trouvées dans le fichier supplémentaire 1, Matériel supplémentaire en ligne). Cette relation a été maintenue dans les protéines contenant des domaines connus et dans les protéines qui en manquent (tableau supplémentaire 1, matériel supplémentaire en ligne), et des résultats cohérents ont été obtenus en utilisant un algorithme différent pour mesurer la répétitivité des séquences, SIMPLE ( Alba, Laskowski, et al. 2002) ( tableau supplémentaire 2 , Matériel supplémentaire en ligne).

Les protéines plus jeunes sont enrichies en séquences de faible complexité. Box-plot du pourcentage de la protéine composée de séquences de faible complexité, pour des protéines d'âge différent. La ligne horizontale représente la médiane. Nombre de protéines : 12 855 « Vieux », 1 324 « Vertébré » et 420 « Mammifères »


Les protistes

Les protistes sont des eucaryotes unicellulaires. Cependant, comme toute règle en biologie, des exceptions existent. Parfois, diverses algues sont regroupées avec les protistes, même si elles ont de nombreuses cellules. Les protistes comprennent un large éventail d'organismes. Certains ne sont pas particulièrement étroitement liés. En fait, la génétique révèle que les protistes sont constitués d'au moins dix groupes équivalents à des royaumes. Pour mettre cela en perspective, tous les animaux, des vers aux humains, appartiennent à un seul royaume. Des exemples de protistes comprennent les amibes, les paramécies et le varech. Toutes les algues, à l'exception des algues bleu-vert (maintenant connues sous le nom de cyanobactéries) sont des eucaryotes.


Les défis de la classification de la biologie

Il existe plusieurs façons de catégoriser presque tout en biologie. La valeur d'un schéma de catégorisation individuel dépend du point de vue de l'utilisateur. Comme Shirley Malcom (directrice, Programmes d'éducation et de ressources humaines, AAAS) l'a dit un jour : « Nous [les biologistes] sommes des diviseurs, pas des grumeaux. » Ce besoin de classification rend le consensus difficile, peut limiter notre façon de penser et peut rendre les découvertes scientifiques plus sensationnelles qu'elles ne le sont réellement. L'appréciation croissante de la multifonctionnalité des entités biologiques à toutes les échelles révèle à quel point il est difficile de classer la biologie dans des catégories exclusives et sans ambiguïté. De plus, alors que la multifonctionnalité devient la norme, nous devons nous rappeler que c'est l'humain dans le rôle de chercheur, de clinicien, d'auteur scientifique et de lecteur de la littérature scientifique qui a besoin d'une classification pour révéler les modèles et la signification de la complexité des organismes vivants. Nous ne devrions pas laisser les systèmes de classification actuels (ontologies) des gènes, des protéines, des organites, des voies, des systèmes physiologiques ou même des organismes limiter notre façon de penser et d'explorer la biologie.

La protéine bêta-caténine fonctionne dans des complexes d'adhésion cellulaire et dans des complexes qui régulent l'expression des gènes. ubus12 – Travail personnel, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=27094098

Quelques exemples à chaque échelle de biologie illustrent les défis créés par notre prédilection humaine pour la classification. Au vu du nom d'une protéine ou de l'abréviation du gène qui la code, les premières questions sont susceptibles d'être : Qu'est-ce que c'est ? A quoi sert cette protéine ? Si le nom inclut une fonction, alors il y a une chance raisonnable de supposer que la fonction impliquée par le nom est correcte et pertinente. Sinon, il est peu probable que l'abréviation du gène ou le nom de la protéine ait un sens, à moins qu'il ne soit très courant en médecine, comme l'insuline, ou à moins que vous n'ayez étudié ce gène ou cette protéine. De nombreuses protéines sont multifonctionnelles. La protéine β-caténine en est un bon exemple. Lorsqu'il est incorporé dans les complexes protéiques qui permettent aux cellules d'établir des contacts stables les uns avec les autres, il fait partie d'un complexe d'adhésion cellulaire et a donc pour fonction de médier l'adhésion cellule-cellule. En réponse à certains signaux externes, la -caténine peut se déplacer dans le noyau et réguler l'expression des gènes. C'est donc un régulateur transcriptionnel. Certes, la -caténine devrait être classée avec les deux fonctions. Et si chaque fonction était importante dans un contexte différent ? Les deux fonctions doivent être capturées, mais d'une manière ou d'une autre, les détails spécifiques au contexte doivent également être inclus.

L'organisation des protéines en voies régulatrices ou biochimiques distinctes est également une construction humaine. Les voies de régulation et de signalisation sont fortement interconnectées. En effet, cela doit être vrai. Les cellules ne peuvent pas bouger et se diviser en même temps, donc les voies contrôlant le mouvement et la division doivent être connectées. Les molécules précédemment considérées comme des intermédiaires biochimiques dans les voies métaboliques sont de plus en plus appréciées en tant que régulateurs des voies de signalisation et du comportement cellulaire. Comment cette complexité de la fonction moléculaire peut-elle être capturée de manière utile dans un schéma de classification ?

Micrographie électronique à transmission des mitochondries. Par Louisa Howard – http://remf.dartmouth.edu/imagesindex.html Domaine public via Wikipedia

Moving up in size, the organelles in a eukaryotic cell tend to be functionally defined according to the function first identified or most studied. For example, textbooks describe mitochondria as the cell’s powerhouse, because mitochondria generate ATP but the mitochondria are a source of reactive oxygen species and many kinds of intracellular signaling molecules and are a sink for calcium. So, what is the best way to classify mitochondrial function?

Moving even farther up in size, organs are classified into physiological systems—the cardiovascular system, the endocrine system, the musculoskeletal system and so on. An excellent example is bone. As the skeletal system, bones provide support, movement, and protection. However, bones are also part of the immune system: Bones are the site of blood cell production. Bones are part of the endocrine system: They release hormones that regulate appetite, fertility, and metabolism. Even the well-known and long-standing physiological categories fail to represent a true picture of the complex multifunctionality of the tissues and cells that comprise organ systems.

Hawaiian Bobtail squid. This squid has a symbiotic relationship with a bioluminescent bacteria. Photo by Margaret McFall-Ngai – Divining the Essence of Symbiosis: Insights from the Squid-Vibrio Model, CC BY 4.0, via Wikipedia

Going all the way to a person, plants, and marine organisms, these are defined by a single species name yet people have microbiomes in their gut, mouth, skin, ears, eyes, and genitals legumes have symbiotic fungi that are part of their root systems and many bioluminescent marine animals have bacteria that provide the light. So, how should we classify these? They, indeed even we humans, are all metaorganisms—multiple species living in harmony.

Why does it matter if it is hard to classify biological information? Classification enables systems-level analysis of large data sets. Classification enables automation. Classification increases the ability to retrieve information from large data sets and enables the interpretation, discovery of new patterns, and acquisition of knowledge from large data sets. However, information acquired through use of classification schemes is only as good as the classification scheme, the consistency with which it is applied, and knowledge about its limitations.

Ideally, all functionally important information should be included whenever possible in the scientific literature. Furthermore, the relevant context-specific function(s) should be indicated when known. This need for context-specific information to ensure accuracy means that using text-mining and then applying an ontology that includes all functional classifications is not going to provide the necessary context-specific information. Automated classification is challenging and curation is necessary to ensure context-dependent accuracy. Thus, effective scientific communication relies on the author to provide the contextual details to ensure that the literature is accurate and precise, which makes biological findings as reproducible as possible.


Voir la vidéo: Cest pas sorcier -NOUVELLES THERAPIES: Lespoir est dans la cellule (Août 2022).