Informations

6.4 : Génétique des populations - Biologie

6.4 : Génétique des populations - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Rappelez-vous qu'un gène pour un caractère particulier peut avoir plusieurs allèles, ou variantes, qui codent pour différents traits associés à ce caractère. Au début du vingtième siècle, les biologistes d'un domaine d'étude connu sous le nom de génétique des populations a commencé à étudier comment les forces sélectives modifient une population par des changements dans les fréquences alléliques et génotypiques.

Les fréquence allélique (ou fréquence des gènes) est la vitesse à laquelle un allèle spécifique apparaît au sein d'une population. Jusqu'à présent, nous avons discuté de l'évolution comme d'un changement dans les caractéristiques d'une population d'organismes, mais derrière ce changement phénotypique se cache un changement génétique. En génétique des populations, le terme évolution est défini comme un changement de la fréquence d'un allèle dans une population. En utilisant le système de groupe sanguin ABO comme exemple, la fréquence de l'un des allèles, jeUNE, est le nombre de copies de cet allèle divisé par toutes les copies du gène ABO dans la population. Par exemple, une étude en Jordanie[1] trouvé une fréquence de jeUNE être de 26,1 pour cent. Les jeBet je0 les allèles représentaient respectivement 13,4 pour cent et 60,5 pour cent des allèles, et toutes les fréquences totalisaient 100 pour cent. Un changement de cette fréquence dans le temps constituerait une évolution de la population.

La fréquence des allèles au sein d'une population donnée peut changer en fonction de facteurs environnementaux ; par conséquent, certains allèles deviennent plus répandus que d'autres au cours du processus de sélection naturelle. La sélection naturelle peut modifier la constitution génétique de la population ; par exemple, si un allèle donné confère un phénotype qui permet à un individu de mieux survivre ou d'avoir plus de progéniture. Parce que beaucoup de ces descendants porteront également l'allèle bénéfique, et souvent le phénotype correspondant, ils auront plus de descendants qui portent également l'allèle, perpétuant ainsi le cycle. Au fil du temps, l'allèle se répandra dans toute la population. Certains allèles se fixeront rapidement de cette manière, ce qui signifie que chaque individu de la population portera l'allèle, tandis que les mutations nuisibles peuvent être rapidement éliminées si elles dérivent d'un allèle dominant du pool génétique. Les pool génétique est la somme de tous les allèles d'une population.

Parfois, les fréquences alléliques au sein d'une population changent de manière aléatoire sans avantage pour la population par rapport aux fréquences alléliques existantes. Ce phénomène est appelé dérive génétique. La sélection naturelle et la dérive génétique se produisent généralement simultanément dans les populations et ne sont pas des événements isolés. Il est difficile de déterminer quel processus domine car il est souvent presque impossible de déterminer la cause du changement des fréquences alléliques à chaque occurrence. Un événement qui initie un changement de fréquence allélique dans une partie isolée de la population, qui n'est pas typique de la population d'origine, est appelé le effet fondateur. La sélection naturelle, la dérive aléatoire et les effets fondateurs peuvent entraîner des changements importants dans le génome d'une population.



19.2 Génétique des populations

À la fin de cette section, vous serez en mesure d'effectuer les opérations suivantes :

  • Décrire les différents types de variation dans une population
  • Expliquez pourquoi seule la sélection naturelle peut agir sur la variation héréditaire
  • Décrire la dérive génétique et l'effet de goulot d'étranglement
  • Expliquez comment chaque force évolutive peut influencer les fréquences alléliques d'une population

Les individus d'une population présentent souvent des phénotypes différents ou expriment différents allèles d'un gène particulier, que les scientifiques appellent des polymorphismes. Nous appelons polymorphes les populations avec deux ou plusieurs variations de caractéristiques particulières. Un certain nombre de facteurs, dont la structure génétique de la population et l'environnement (figure 19.3), influencent la variation de la population, la distribution des phénotypes parmi les individus. Comprendre les sources de variation phénotypique dans une population est important pour déterminer comment une population évoluera en réponse à différentes pressions évolutives.

Variance génétique

La sélection naturelle et certaines des autres forces évolutives ne peuvent agir que sur des traits héréditaires, à savoir le code génétique d'un organisme. Étant donné que les allèles sont transmis du parent à la progéniture, ceux qui confèrent des traits ou des comportements bénéfiques peuvent être sélectionnés, contrairement aux allèles délétères. Les traits acquis, pour la plupart, ne sont pas héréditaires. Par exemple, si un athlète s'entraîne tous les jours au gymnase pour développer sa force musculaire, la progéniture de l'athlète ne deviendra pas nécessairement un culturiste. S'il existe une base génétique pour la capacité de courir vite, d'un autre côté, un parent peut la transmettre à un enfant.

Lien vers l'apprentissage

Avant que l'évolution darwinienne ne devienne la théorie dominante du domaine, le naturaliste français Jean-Baptiste Lamarck a théorisé que les organismes pouvaient hériter de traits acquis. Alors que la majorité des scientifiques n'ont pas soutenu cette hypothèse, certains ont récemment commencé à se rendre compte que Lamarck n'avait pas complètement tort. Visitez ce site pour en savoir plus.

L'héritabilité est la fraction de variation phénotypique que nous pouvons attribuer aux différences génétiques, ou variance génétique, entre les individus d'une population. Plus l'héritabilité de la variation phénotypique d'une population est grande, plus elle est sensible aux forces évolutives qui agissent sur la variation héritable.

Nous appelons la diversité des allèles et des génotypes au sein d'une population variance génétique. Lorsque les scientifiques sont impliqués dans l'élevage d'une espèce, comme avec des animaux dans des zoos et des réserves naturelles, ils essaient d'augmenter la variance génétique d'une population pour préserver autant que possible la diversité phénotypique. Cela permet également de réduire les risques associés de consanguinité, l'accouplement d'individus étroitement apparentés, qui peut avoir pour effet indésirable de rassembler des mutations récessives délétères pouvant provoquer des anomalies et une susceptibilité à la maladie. Par exemple, une maladie causée par un allèle rare et récessif peut exister dans une population, mais elle ne se manifestera que lorsqu'un individu porte deux copies de l'allèle. Parce que l'allèle est rare dans une population normale et saine avec un habitat illimité, la probabilité que deux porteurs s'accouplent est faible, et même alors, seulement 25 pour cent de leur progéniture héritera de l'allèle de la maladie des deux parents. Bien que cela soit susceptible de se produire à un moment donné, cela ne se produira pas assez fréquemment pour que la sélection naturelle puisse éliminer rapidement l'allèle de la population et, par conséquent, l'allèle se maintient à de faibles niveaux dans le pool génétique. Cependant, si une famille de porteurs commence à se croiser, cela augmentera considérablement la probabilité que deux porteurs s'accouplent et finissent par produire une progéniture malade, un phénomène que les scientifiques appellent dépression de consanguinité.

Les changements de fréquences alléliques que nous identifions dans une population peuvent éclairer son évolution. En plus de la sélection naturelle, d'autres forces évolutives pourraient être en jeu : dérive génétique, flux de gènes, mutation, accouplement non aléatoire et variances environnementales.

Dérive génétique

La théorie de la sélection naturelle découle de l'observation que certains individus d'une population sont plus susceptibles de survivre plus longtemps et d'avoir plus de descendants que d'autres, ils transmettront donc plus de leurs gènes à la génération suivante. Un grand et puissant gorille mâle, par exemple, est beaucoup plus susceptible qu'un plus petit et plus faible de devenir le dos argenté de la population, le chef de la meute qui s'accouple beaucoup plus que les autres mâles du groupe. Le chef de meute engendrera plus de descendants, qui partagent la moitié de ses gènes, et sont susceptibles de devenir également plus gros et plus forts comme leur père. Au fil du temps, les gènes pour une plus grande taille augmenteront en fréquence dans la population, et la population augmentera, par conséquent, en moyenne. C'est-à-dire que cela se produirait si cette pression de sélection particulière, ou force sélective motrice, était la seule à agir sur la population. Dans d'autres exemples, un meilleur camouflage ou une résistance plus forte à la sécheresse pourraient exercer une pression de sélection.

La dérive génétique (figure 19.4), qui est simplement l'effet du hasard, est une autre façon dont les fréquences alléliques et génotypiques d'une population peuvent changer. Par chance, certains individus auront plus de descendants que d'autres, non pas en raison d'un avantage conféré par un trait génétiquement codé, mais simplement parce qu'un mâle se trouvait au bon endroit au bon moment (lorsque la femelle réceptive passa) ou parce que l'autre se trouvait au mauvais endroit au mauvais moment (quand un renard chassait).

Connexion visuelle

Pensez-vous que la dérive génétique se produirait plus rapidement sur une île ou sur le continent ?

Les petites populations sont plus sensibles aux forces de dérive génétique. Les grandes populations, alternativement, sont protégées contre les effets du hasard. Si un individu d'une population de 10 individus meurt à un jeune âge avant de laisser une progéniture à la génération suivante, tous ses gènes - 1/10 du pool génétique de la population - seront soudainement perdus. Dans une population de 100 personnes, cela ne représente que 1% du pool génétique global, donc cela a beaucoup moins d'impact sur la structure génétique de la population.

Lien vers l'apprentissage

Rendez-vous sur ce site pour regarder une animation d'échantillonnage aléatoire et de dérive génétique en action.

Des événements naturels, tels qu'un tremblement de terre qui tue - au hasard - une grande partie de la population, peuvent amplifier la dérive génétique. Connu sous le nom d'effet de goulot d'étranglement, il entraîne soudainement l'effacement d'une grande partie du génome (Figure 19.5). Du coup, la structure génétique des survivants devient la structure génétique de l'ensemble de la population, qui peut être très différente de la population d'avant la catastrophe.

Un autre scénario dans lequel les populations pourraient subir une forte influence de la dérive génétique est si une partie de la population part pour commencer une nouvelle population dans un nouvel emplacement ou si une barrière physique divise une population. Dans cette situation, ces individus sont une représentation improbable de l'ensemble de la population, ce qui entraîne l'effet fondateur. L'effet fondateur se produit lorsque la structure génétique change pour correspondre à celle des pères et mères fondateurs de la nouvelle population. Les chercheurs pensent que l'effet fondateur a été un facteur clé dans l'histoire génétique de la population afrikaner des colons néerlandais en Afrique du Sud, comme en témoignent les mutations qui sont courantes chez les Afrikaners mais rares dans la plupart des autres populations. C'est probablement parce qu'une proportion plus élevée que la normale des colons fondateurs portait ces mutations. En conséquence, la population exprime des incidences inhabituellement élevées de la maladie de Huntington (MH) et de l'anémie de Fanconi (AF), une maladie génétique connue pour provoquer des anomalies de la moelle sanguine et des anomalies congénitales, voire le cancer. 2

Lien vers l'apprentissage

Regardez cette courte vidéo pour en savoir plus sur le fondateur et les effets de goulot d'étranglement.

Connexion à la méthode scientifique

Tester l'effet de goulot d'étranglement

Question: Comment les catastrophes naturelles affectent-elles la structure génétique d'une population ?

Fond: Lorsqu'un tremblement de terre ou un ouragan anéantit soudainement une grande partie d'une population, les individus survivants sont généralement un échantillon aléatoire du groupe d'origine. En conséquence, la constitution génétique de la population peut changer radicalement. Nous appelons ce phénomène l'effet de goulot d'étranglement.

Hypothèse: Les catastrophes naturelles répétées produiront des structures génétiques de population différentes. Par conséquent, chaque fois que l'on exécute cette expérience, les résultats varieront.

Testez l'hypothèse : Comptez la population d'origine en utilisant des perles de couleurs différentes. Par exemple, les perles rouges, bleues et jaunes peuvent représenter des individus rouges, bleus et jaunes. Après avoir enregistré le nombre de chaque individu dans la population d'origine, placez-les tous dans une bouteille à col étroit qui ne laissera sortir que quelques billes à la fois. Ensuite, versez 1/3 du contenu de la bouteille dans un bol. Cela représente les individus survivants après qu'une catastrophe naturelle tue la majorité de la population. Comptez le nombre de perles de couleurs différentes dans le bol et notez-le. Ensuite, remettez toutes les billes dans la bouteille et répétez l'expérience quatre fois de plus.

Analysez les données : Comparez les cinq populations qui ont résulté de l'expérience. Les populations contiennent-elles toutes le même nombre de perles de couleurs différentes ou varient-elles ? N'oubliez pas que ces populations provenaient toutes de la même population parentale exacte.

Formez une conclusion : Très probablement, les cinq populations résultantes seront très différentes. En effet, les catastrophes naturelles ne sont pas sélectives : elles tuent et épargnent des individus au hasard. Pensez maintenant à la façon dont cela pourrait affecter une population réelle. Que se passe-t-il lorsqu'un ouragan frappe la côte du golfe du Mississippi ? Comment se portent les oiseaux marins qui vivent sur la plage ?

Flux de gènes

Une autre force évolutive importante est le flux de gènes : le flux d'allèles entrant et sortant d'une population dû à la migration d'individus ou de gamètes (Figure 19.6). Alors que certaines populations sont assez stables, d'autres connaissent plus de flux. De nombreuses plantes, par exemple, envoient leur pollen au loin, par le vent ou par les oiseaux, pour polliniser d'autres populations de la même espèce à une certaine distance. Même une population qui peut initialement sembler stable, telle qu'une troupe de lions, peut connaître sa juste part d'immigration et d'émigration alors que les mâles en développement quittent leur mère pour rechercher une nouvelle fierté avec des femelles génétiquement non apparentées. Ce flux variable d'individus à l'intérieur et à l'extérieur du groupe modifie non seulement la structure génétique de la population, mais il peut également introduire de nouvelles variations génétiques dans les populations dans différents emplacements géologiques et habitats.

Mutation

Les mutations sont des changements dans l'ADN d'un organisme et sont un moteur important de la diversité des populations. Les espèces évoluent à cause des mutations qui s'accumulent au fil du temps. L'apparition de nouvelles mutations est le moyen le plus courant d'introduire une nouvelle variance génotypique et phénotypique. Certaines mutations sont défavorables ou nuisibles et sont rapidement éliminées de la population par sélection naturelle. D'autres sont bénéfiques et se répandront dans la population. Le fait qu'une mutation soit bénéfique ou nuisible est déterminé par le fait qu'elle aide un organisme à survivre jusqu'à la maturité sexuelle et à se reproduire. Certaines mutations ne font rien et peuvent persister, non affectées par la sélection naturelle, dans le génome. Certains peuvent avoir un effet dramatique sur un gène et le phénotype qui en résulte.

Accouplement non aléatoire

Si des individus s'accouplent de manière non aléatoire avec leurs pairs, le résultat peut être une population changeante. Il existe de nombreuses raisons pour lesquelles l'accouplement non aléatoire se produit. Une des raisons est le simple choix du partenaire. Par exemple, les paonnes femelles peuvent préférer les paons avec des queues plus grosses et plus brillantes. La sélection naturelle sélectionne des traits qui conduisent à plus de sélections d'accouplement pour un individu. Une forme courante de choix de partenaire, appelée accouplement assortatif, est la préférence d'un individu pour s'accoupler avec des partenaires qui sont phénotypiquement similaires à eux-mêmes.

Une autre cause d'accouplement non aléatoire est l'emplacement physique. Cela est particulièrement vrai dans les grandes populations réparties sur de vastes distances géographiques où tous les individus n'auront pas un accès égal les uns aux autres. Certains peuvent être distants de plusieurs kilomètres à travers les bois ou sur un terrain accidenté, tandis que d'autres peuvent vivre à proximité immédiate.

Écart environnemental

Les gènes ne sont pas les seuls acteurs impliqués dans la détermination de la variation de la population. D'autres facteurs, tels que l'environnement (figure 19.7), influencent également les phénotypes. Un baigneur est susceptible d'avoir la peau plus foncée qu'un citadin, par exemple en raison d'une exposition régulière au soleil, un facteur environnemental. Pour certaines espèces, l'environnement détermine certaines caractéristiques majeures, comme le sexe. Par exemple, certaines tortues et autres reptiles ont une détermination du sexe dépendante de la température (TSD). TSD signifie que les individus se développent en mâles si leurs œufs sont incubés dans une certaine plage de température, ou en femelles dans une plage de température différente.

La séparation géographique entre les populations peut entraîner des différences dans la variation phénotypique entre ces populations. Nous voyons une telle variation géographique entre la plupart des populations et elle peut être importante. Nous pouvons observer un type de variation géographique, un cline , car les populations d'espèces données varient progressivement à travers un gradient écologique. Les espèces d'animaux à sang chaud, par exemple, ont tendance à avoir des corps plus gros dans les climats plus froids plus proches des pôles terrestres, ce qui leur permet de mieux conserver la chaleur. Il s'agit d'un cline latitudinal. Alternativement, les plantes à fleurs ont tendance à fleurir à des moments différents selon l'endroit où elles se trouvent le long d'une pente de montagne. Il s'agit d'une pente altitudinale.

S'il y a un flux de gènes entre les populations, les individus présenteront probablement des différences graduelles de phénotype le long du cline. Le flux de gènes restreint peut également entraîner des différences abruptes, voire une spéciation.


Quiz à choix multiples

Ces questionnaires à choix multiples auto-correctifs vous donnent un retour instantané pendant la révision.
Utilisez-les pour vérifier les compréhensions et pour pratiquer la technique de l'examen.

Disposés en sous-thèmes de biologie du DP, ils aident à diviser la révision en plus petits morceaux.
Des conseils d'examinateurs sont donnés avec les réponses correctes pour chaque question.

L'épreuve 1 des examens ne comporte que des questions à choix multiples

Chaque question a 4 choix de réponses : A, B, C ou D

Une réponse à chaque question est la bonne réponse, mais faites attention au "distracteur". C'est une réponse qui est en partie juste.

Une bonne technique pour les questions à choix multiples difficiles consiste à marquer les réponses manifestement fausses sur le questionnaire, puis à choisir la meilleure réponse parmi le choix restant.

Suggestions de révision

  • Relisez vos notes de cours avant de répondre aux questions.
  • Notez les bonnes réponses aux questions que vous vous êtes trompées.
  • Passez en revue ces sections de vos notes.
  • Vérifiez que vos notes sont correctes à l'aide d'un manuel.
  • Essayez les questions une deuxième fois.

Ensembles de questions sur les sous-thèmes de biologie pour tester vos connaissances et votre compréhension

Ces questions à choix multiples sont des questions d'auto-correction
Vous pouvez cliquer sur 'check' à tout moment pour voir si vous avez la bonne réponse.
'Check' affiche une note utile rédigée par un examinateur. Idéal pour la révision.


Biostatistique et génétique Modifier

La modélisation biostatistique constitue une partie importante de nombreuses théories biologiques modernes. Les études génétiques, depuis leurs débuts, ont utilisé des concepts statistiques pour comprendre les résultats expérimentaux observés. Certains généticiens ont même contribué aux avancées statistiques avec le développement de méthodes et d'outils. Gregor Mendel a commencé les études de génétique en étudiant les modèles de ségrégation génétique dans les familles de pois et a utilisé des statistiques pour expliquer les données recueillies. Au début des années 1900, après la redécouverte des travaux de Mendel sur l'héritage mendélien, il y avait des lacunes dans la compréhension entre la génétique et le darwinisme évolutionniste. Francis Galton a tenté d'étendre les découvertes de Mendel avec des données humaines et a proposé un modèle différent avec des fractions de l'hérédité provenant de chaque ancestral composant une série infinie. Il appela cela la théorie de la « loi de l'hérédité ancestrale ». Ses idées ont été fortement en désaccord par William Bateson, qui a suivi les conclusions de Mendel, que l'héritage génétique provenait exclusivement des parents, la moitié de chacun d'eux. Cela a conduit à un débat vigoureux entre les biométriciens, qui soutenaient les idées de Galton, comme Walter Weldon, Arthur Dukinfield Darbishire et Karl Pearson, et les Mendelians, qui soutenaient les idées de Bateson (et de Mendel), comme Charles Davenport et Wilhelm Johannsen. Plus tard, les biométriciens n'ont pas pu reproduire les conclusions de Galton dans différentes expériences, et les idées de Mendel ont prévalu. Dans les années 1930, les modèles construits sur le raisonnement statistique avaient aidé à résoudre ces différences et à produire la synthèse évolutive moderne néo-darwinienne.

La résolution de ces différences a également permis de définir le concept de génétique des populations et a rapproché génétique et évolution. Les trois figures de proue de l'établissement de la génétique des populations et de cette synthèse se sont toutes appuyées sur la statistique et ont développé son utilisation en biologie.

    a développé plusieurs méthodes statistiques de base à l'appui de son travail d'étude des expériences sur les cultures à Rothamsted Research, y compris dans ses livres Statistical Methods for Research Workers (1925) et The Genetical Theory of Natural Selection (1930). Il a apporté de nombreuses contributions à la génétique et aux statistiques. Certains d'entre eux incluent l'ANOVA, les concepts de valeur p, le test exact de Fisher et l'équation de Fisher pour la dynamique des populations. Il est crédité de la phrase "La sélection naturelle est un mécanisme permettant de générer un degré extrêmement élevé d'improbabilité". [1] ont développé des statistiques F et des méthodes pour les calculer et ont défini le coefficient de consanguinité. le livre de, Les causes de l'évolution, a rétabli la sélection naturelle comme le premier mécanisme de l'évolution en l'expliquant en termes de conséquences mathématiques de la génétique mendélienne. A également développé la théorie de la soupe primordiale.

Ces biostatisticiens, les biologistes mathématiques et les généticiens enclins à la statistique ont aidé à rassembler la biologie évolutive et la génétique en un tout cohérent et cohérent qui pourrait commencer à être modélisé quantitativement.

Parallèlement à cette évolution globale, les travaux pionniers de D'Arcy Thompson en Sur la croissance et la forme a également contribué à ajouter une discipline quantitative à l'étude biologique.

Malgré l'importance fondamentale et la nécessité fréquente du raisonnement statistique, il peut néanmoins y avoir eu une tendance parmi les biologistes à se méfier ou à déprécier des résultats qui ne sont pas qualitativement apparents. Une anecdote décrit Thomas Hunt Morgan interdisant la calculatrice Friden de son département à Caltech, en disant : « Eh bien, je suis comme un gars qui cherche de l'or le long des rives de la rivière Sacramento en 1849. Avec un peu d'intelligence, je peux tendre la main et ramasser de grosses pépites d'or. Et tant que je pourrai le faire, je ne laisserai personne dans mon département gaspiller des ressources rares dans l'exploitation des placers. " [2]

Toute recherche en sciences de la vie est proposée pour répondre à une question scientifique que l'on pourrait se poser. Pour répondre à cette question avec une grande certitude, nous avons besoin de résultats précis. La définition correcte de l'hypothèse principale et du plan de recherche réduira les erreurs lors de la prise de décision dans la compréhension d'un phénomène. Le plan de recherche peut inclure la question de recherche, l'hypothèse à tester, la conception expérimentale, les méthodes de collecte de données, les perspectives d'analyse des données et les coûts évolués. Il est essentiel de mener l'étude sur la base des trois principes de base de la statistique expérimentale : la randomisation, la réplication et le contrôle local.

Question de recherche Modifier

La question de recherche définira l'objectif d'une étude. La recherche sera dirigée par la question, elle doit donc être concise, tout en se concentrant sur des sujets intéressants et nouveaux qui peuvent améliorer la science et les connaissances et ce domaine. Pour définir la manière de poser la question scientifique, une revue exhaustive de la littérature pourrait être nécessaire. Ainsi, la recherche peut être utile pour ajouter de la valeur à la communauté scientifique. [3]

Définition de l'hypothèse Modifier

Une fois le but de l'étude défini, les réponses possibles à la question de recherche peuvent être proposées, transformant cette question en hypothèse. La proposition principale est appelée hypothèse nulle (H0) et repose généralement sur une connaissance permanente du sujet ou sur une occurrence évidente des phénomènes, soutenue par une revue approfondie de la littérature. On peut dire que c'est la réponse standard attendue pour les données dans la situation en test. En général, HO ne suppose aucune association entre traitements. D'autre part, l'hypothèse alternative est la négation de HO. Il suppose un certain degré d'association entre le traitement et le résultat. Cependant, l'hypothèse est soutenue par la recherche de questions et ses réponses attendues et inattendues. [3]

À titre d'exemple, considérons des groupes d'animaux similaires (des souris, par exemple) sous deux régimes alimentaires différents. La question de recherche serait : quelle est la meilleure alimentation ? Dans ce cas, H0 serait qu'il n'y a pas de différence entre les deux régimes dans le métabolisme des souris (H0:1 =2) et l'hypothèse alternative serait que les régimes ont des effets différents sur le métabolisme des animaux (H1:1 μ2).

L'hypothèse est définie par le chercheur, en fonction de ses intérêts à répondre à la question principale. En plus de cela, l'hypothèse alternative peut être plus d'une hypothèse. Il peut supposer non seulement des différences entre les paramètres observés, mais leur degré de différences (c'est à dire. plus haut ou plus court).

Échantillonnage Modifier

Habituellement, une étude vise à comprendre un effet d'un phénomène sur une population. En biologie, une population est définie comme l'ensemble des individus d'une espèce donnée, dans une zone spécifique à un moment donné. En biostatistique, ce concept est étendu à une variété de collections possibles d'étude. Bien que, en biostatistique, une population ne soit pas seulement les individus, mais le total d'un composant spécifique de leurs organismes, comme le génome entier, ou tous les spermatozoïdes, pour les animaux, ou la surface totale des feuilles, pour une plante, par exemple .

Il n'est pas possible de prendre les mesures à partir de tous les éléments d'une population. Pour cette raison, le processus d'échantillonnage est très important pour l'inférence statistique. L'échantillonnage est défini de manière à obtenir au hasard une partie représentative de l'ensemble de la population, afin de faire des inférences a posteriori sur la population. Ainsi, l'échantillon pourrait saisir la plus grande variabilité au sein d'une population. [4] La taille de l'échantillon est déterminée par plusieurs facteurs, depuis la portée de la recherche jusqu'aux ressources disponibles. En recherche clinique, le type d'essai, comme l'infériorité, l'équivalence et la supériorité, est essentiel pour déterminer la taille de l'échantillon. [3]

Conception expérimentale Modifier

Les conceptions expérimentales soutiennent ces principes de base des statistiques expérimentales. Il existe trois modèles expérimentaux de base pour allouer au hasard des traitements dans toutes les parcelles de l'expérience. Ce sont des plans complètement aléatoires, des plans en blocs randomisés et des plans factoriels. Les traitements peuvent être organisés de plusieurs manières à l'intérieur de l'expérience. En agriculture, la bonne conception expérimentale est la base d'une bonne étude et la disposition des traitements au sein de l'étude est essentielle car l'environnement affecte largement les parcelles (plantes, élevage, micro-organismes). Ces principaux agencements se retrouvent dans la littérature sous les noms de « treillis », « blocs incomplets », « split plot », « blocs augmentés », et bien d'autres. Tous les modèles peuvent inclure des parcelles de contrôle, déterminées par le chercheur, pour fournir une estimation d'erreur lors de l'inférence.

Dans les études cliniques, les échantillons sont généralement plus petits que dans d'autres études biologiques, et dans la plupart des cas, l'effet environnemental peut être contrôlé ou mesuré. Il est courant d'utiliser des essais cliniques contrôlés randomisés, où les résultats sont généralement comparés à des conceptions d'études observationnelles telles que cas-témoins ou cohorte. [5]

Collecte de données Modifier

Les méthodes de collecte de données doivent être prises en compte dans la planification de la recherche, car elles influencent fortement la taille de l'échantillon et la conception expérimentale.

La collecte des données varie selon le type de données. Pour les données qualitatives, la collecte peut être effectuée à l'aide de questionnaires structurés ou par observation, en tenant compte de la présence ou de l'intensité de la maladie, en utilisant un critère de score pour catégoriser les niveaux d'occurrence. [6] Pour les données quantitatives, la collecte se fait en mesurant des informations numériques à l'aide d'instruments.

Dans les études d'agriculture et de biologie, les données de rendement et ses composants peuvent être obtenus par des mesures métriques. Cependant, les dommages causés par les ravageurs et les maladies chez les plats sont obtenus par observation, en tenant compte des échelles de score pour les niveaux de dommages. En particulier, dans les études génétiques, les méthodes modernes de collecte de données sur le terrain et en laboratoire doivent être envisagées, en tant que plates-formes à haut débit pour le phénotypage et le génotypage. Ces outils permettent de plus grandes expériences, tout en évaluant de nombreuses parcelles en moins de temps qu'une méthode humaine uniquement pour la collecte de données. Enfin, toutes les données d'intérêt collectées doivent être stockées dans un cadre de données organisé pour une analyse plus approfondie.

Outils descriptifs Modifier

Les données peuvent être représentées par des tableaux ou des représentations graphiques, telles que des graphiques en courbes, des graphiques à barres, des histogrammes, des nuages ​​de points. De plus, les mesures de tendance centrale et de variabilité peuvent être très utiles pour décrire une vue d'ensemble des données. Suivez quelques exemples :

Un type de tableaux est le tableau de fréquence, qui se compose de données disposées en lignes et en colonnes, où la fréquence est le nombre d'occurrences ou de répétitions de données. La fréquence peut être : [7]

Absolu: représente le nombre de fois qu'une valeur déterminée apparaît

Relatif: obtenu par la division de la fréquence absolue par le nombre total

Dans l'exemple suivant, nous avons le nombre de gènes dans dix opérons du même organisme.

G e n e s = 2 , 3 , 3 , 4 , 5 , 3 , 3 , 3 , 3 , 4

Les graphiques linéaires représentent la variation d'une valeur par rapport à une autre métrique, telle que le temps. En général, les valeurs sont représentées sur l'axe vertical, tandis que la variation temporelle est représentée sur l'axe horizontal. [9]

Un graphique à barres est un graphique qui montre des données catégorielles sous forme de barres présentant des hauteurs (barre verticale) ou des largeurs (barre horizontale) proportionnelles pour représenter les valeurs. Les graphiques à barres fournissent une image qui peut également être représentée sous forme de tableau. [9]

Dans l'exemple du graphique à barres, nous avons le taux de natalité au Brésil pour les mois de décembre de 2010 à 2016. [8] La forte baisse en décembre 2016 reflète l'épidémie de virus Zika dans le taux de natalité au Brésil.

L'histogramme (ou distribution de fréquence) est une représentation graphique d'un ensemble de données tabulé et divisé en classes uniformes ou non uniformes. Il a été introduit pour la première fois par Karl Pearson. [dix]

Un nuage de points est un diagramme mathématique qui utilise des coordonnées cartésiennes pour afficher les valeurs d'un ensemble de données. Un nuage de points montre les données sous la forme d'un ensemble de points, chacun présentant la valeur d'une variable déterminant la position sur l'axe horizontal et une autre variable sur l'axe vertical. [11] Ils sont aussi appelés nuage de points, diagramme de dispersion, nuage de points, ou diagramme de dispersion. [12]

La médiane est la valeur au milieu d'un ensemble de données.

Le mode est la valeur d'un ensemble de données qui apparaît le plus souvent. [13]

La boîte à moustaches est une méthode permettant de représenter graphiquement des groupes de données numériques. Les valeurs maximales et minimales sont représentées par les lignes, et l'intervalle interquartile (IQR) représente 25 à 75 % des données. Les valeurs aberrantes peuvent être tracées sous forme de cercles.

Bien que les corrélations entre deux types de données différentes puissent être déduites par des graphiques, tels que le nuage de points, il est nécessaire de valider cela à l'aide d'informations numériques. Pour cette raison, des coefficients de corrélation sont nécessaires. Ils fournissent une valeur numérique qui reflète la force d'une association. [9]

Le coefficient de corrélation de Pearson est une mesure d'association entre deux variables, X et Y. Ce coefficient, généralement représenté par ?? (rho) pour la population et r pour l'échantillon, suppose des valeurs comprises entre -1 et 1, où ?? = 1 représente une corrélation positive parfaite, ?? = -1 représente une corrélation négative parfaite, et ?? = 0 n'est pas une corrélation linéaire. [9]

Statistiques inférentielles Modifier

Il est utilisé pour faire des inférences [14] sur une population inconnue, par estimation et/ou test d'hypothèse. En d'autres termes, il est souhaitable d'obtenir des paramètres pour décrire la population d'intérêt, mais comme les données sont limitées, il est nécessaire de se servir d'un échantillon représentatif pour les estimer. Avec cela, il est possible de tester des hypothèses préalablement définies et d'appliquer les conclusions à l'ensemble de la population. L'erreur standard de la moyenne est une mesure de la variabilité qui est cruciale pour faire des inférences. [4]

Les tests d'hypothèses sont essentiels pour faire des inférences sur les populations visant à répondre aux questions de recherche, telles que définies dans la section « Planification de la recherche ». Les auteurs ont défini quatre étapes à définir : [4]

  1. L'hypothèse à tester: comme indiqué précédemment, nous devons travailler avec la définition d'une hypothèse nulle (H0), qui va être testé, et une hypothèse alternative. Mais elles doivent être définies avant la mise en œuvre de l'expérimentation.
  2. Niveau de signification et règle de décision: Une règle de décision dépend du niveau de significativité, c'est-à-dire du taux d'erreur acceptable (α). Il est plus facile de penser que nous définissons un valeur critique qui détermine la signification statistique lorsqu'une statistique de test lui est comparée. Ainsi, α doit également être prédéfini avant l'expérience.
  3. Expérimentation et analyse statistique: C'est à ce moment-là que l'expérience est réellement mise en œuvre selon le plan expérimental approprié, que les données sont collectées et que les tests statistiques les plus appropriés sont évalués.
  4. Inférence: Est faite lorsque l'hypothèse nulle est rejetée ou non, sur la base de la preuve apportée par la comparaison des valeurs p et de . Il est souligné que l'échec de rejeter H0 signifie simplement qu'il n'y a pas suffisamment de preuves pour soutenir son rejet, mais pas que cette hypothèse est vraie.

A confidence interval is a range of values that can contain the true real parameter value in given a certain level of confidence. The first step is to estimate the best-unbiased estimate of the population parameter. The upper value of the interval is obtained by the sum of this estimate with the multiplication between the standard error of the mean and the confidence level. The calculation of lower value is similar, but instead of a sum, a subtraction must be applied. [4]

Power and statistical error Edit

When testing a hypothesis, there are two types of statistic errors possible: Type I error and Type II error. The type I error or false positive is the incorrect rejection of a true null hypothesis and the type II error or false negative is the failure to reject a false null hypothesis. The significance level denoted by α is the type I error rate and should be chosen before performing the test. The type II error rate is denoted by β and statistical power of the test is 1 − β.

P-value Edit

The p-value is the probability of obtaining results as extreme as or more extreme than those observed, assuming the null hypothesis (H0) is true. It is also called the calculated probability. It is common to confuse the p-value with the significance level (α), but, the α is a predefined threshold for calling significant results. If p is less than α, the null hypothesis (H0) is rejected. [15]

Multiple testing Edit

In multiple tests of the same hypothesis, the probability of the occurrence of falses positives (familywise error rate) increase and some strategy are used to control this occurrence. This is commonly achieved by using a more stringent threshold to reject null hypotheses. The Bonferroni correction defines an acceptable global significance level, denoted by α* and each test is individually compared with a value of α = α*/m. This ensures that the familywise error rate in all m tests, is less than or equal to α*. When m is large, the Bonferroni correction may be overly conservative. An alternative to the Bonferroni correction is to control the false discovery rate (FDR). The FDR controls the expected proportion of the rejected null hypotheses (the so-called discoveries) that are false (incorrect rejections). This procedure ensures that, for independent tests, the false discovery rate is at most q*. Thus, the FDR is less conservative than the Bonferroni correction and have more power, at the cost of more false positives. [16]

Mis-specification and robustness checks Edit

The main hypothesis being tested (e.g., no association between treatments and outcomes) is often accompanied by other technical assumptions (e.g., about the form of the probability distribution of the outcomes) that are also part of the null hypothesis. When the technical assumptions are violated in practice, then the null may be frequently rejected even if the main hypothesis is true. Such rejections are said to be due to model mis-specification. [17] Verifying whether the outcome of a statistical test does not change when the technical assumptions are slightly altered (so-called robustness checks) is the main way of combating mis-specification.

Model selection criteria Edit

Model criteria selection will select or model that more approximate true model. The Akaike's Information Criterion (AIC) and The Bayesian Information Criterion (BIC) are examples of asymptotically efficient criteria.

Recent developments have made a large impact on biostatistics. Two important changes have been the ability to collect data on a high-throughput scale, and the ability to perform much more complex analysis using computational techniques. This comes from the development in areas as sequencing technologies, Bioinformatics and Machine learning (Machine learning in bioinformatics).

Use in high-throughput data Edit

New biomedical technologies like microarrays, next-generation sequencers (for genomics) and mass spectrometry (for proteomics) generate enormous amounts of data, allowing many tests to be performed simultaneously. [18] Careful analysis with biostatistical methods is required to separate the signal from the noise. For example, a microarray could be used to measure many thousands of genes simultaneously, determining which of them have different expression in diseased cells compared to normal cells. However, only a fraction of genes will be differentially expressed. [19]

Multicollinearity often occurs in high-throughput biostatistical settings. Due to high intercorrelation between the predictors (such as gene expression levels), the information of one predictor might be contained in another one. It could be that only 5% of the predictors are responsible for 90% of the variability of the response. In such a case, one could apply the biostatistical technique of dimension reduction (for example via principal component analysis). Classical statistical techniques like linear or logistic regression and linear discriminant analysis do not work well for high dimensional data (i.e. when the number of observations n is smaller than the number of features or predictors p: n < p). As a matter of fact, one can get quite high R 2 -values despite very low predictive power of the statistical model. These classical statistical techniques (esp. least squares linear regression) were developed for low dimensional data (i.e. where the number of observations n is much larger than the number of predictors p: n >> p). In cases of high dimensionality, one should always consider an independent validation test set and the corresponding residual sum of squares (RSS) and R 2 of the validation test set, not those of the training set.

Often, it is useful to pool information from multiple predictors together. For example, Gene Set Enrichment Analysis (GSEA) considers the perturbation of whole (functionally related) gene sets rather than of single genes. [20] These gene sets might be known biochemical pathways or otherwise functionally related genes. The advantage of this approach is that it is more robust: It is more likely that a single gene is found to be falsely perturbed than it is that a whole pathway is falsely perturbed. Furthermore, one can integrate the accumulated knowledge about biochemical pathways (like the JAK-STAT signaling pathway) using this approach.

Bioinformatics advances in databases, data mining, and biological interpretation Edit

The development of biological databases enables storage and management of biological data with the possibility of ensuring access for users around the world. They are useful for researchers depositing data, retrieve information and files (raw or processed) originated from other experiments or indexing scientific articles, as PubMed. Another possibility is search for the desired term (a gene, a protein, a disease, an organism, and so on) and check all results related to this search. There are databases dedicated to SNPs (dbSNP), the knowledge on genes characterization and their pathways (KEGG) and the description of gene function classifying it by cellular component, molecular function and biological process (Gene Ontology). [21] In addition to databases that contain specific molecular information, there are others that are ample in the sense that they store information about an organism or group of organisms. As an example of a database directed towards just one organism, but that contains much data about it, is the Arabidopsis thaliana genetic and molecular database – TAIR. [22] Phytozome, [23] in turn, stores the assemblies and annotation files of dozen of plant genomes, also containing visualization and analysis tools. Moreover, there is an interconnection between some databases in the information exchange/sharing and a major initiative was the International Nucleotide Sequence Database Collaboration (INSDC) [24] which relates data from DDBJ, [25] EMBL-EBI, [26] and NCBI. [27]

Nowadays, increase in size and complexity of molecular datasets leads to use of powerful statistical methods provided by computer science algorithms which are developed by machine learning area. Therefore, data mining and machine learning allow detection of patterns in data with a complex structure, as biological ones, by using methods of supervised and unsupervised learning, regression, detection of clusters and association rule mining, among others. [21] To indicate some of them, self-organizing maps and k-means are examples of cluster algorithms neural networks implementation and support vector machines models are examples of common machine learning algorithms.

Collaborative work among molecular biologists, bioinformaticians, statisticians and computer scientists is important to perform an experiment correctly, going from planning, passing through data generation and analysis, and ending with biological interpretation of the results. [21]

Use of computationally intensive methods Edit

On the other hand, the advent of modern computer technology and relatively cheap computing resources have enabled computer-intensive biostatistical methods like bootstrapping and re-sampling methods.

In recent times, random forests have gained popularity as a method for performing statistical classification. Random forest techniques generate a panel of decision trees. Decision trees have the advantage that you can draw them and interpret them (even with a basic understanding of mathematics and statistics). Random Forests have thus been used for clinical decision support systems. [ citation requise ]

Public health Edit

Public health, including epidemiology, health services research, nutrition, environmental health and health care policy & management. In these medicine contents, it's important to consider the design and analysis of the clinical trials. As one example, there is the assessment of severity state of a patient with a prognosis of an outcome of a disease.

With new technologies and genetics knowledge, biostatistics are now also used for Systems medicine, which consists in a more personalized medicine. For this, is made an integration of data from different sources, including conventional patient data, clinico-pathological parameters, molecular and genetic data as well as data generated by additional new-omics technologies. [28]

Quantitative genetics Edit

The study of Population genetics and Statistical genetics in order to link variation in genotype with a variation in phenotype. In other words, it is desirable to discover the genetic basis of a measurable trait, a quantitative trait, that is under polygenic control. A genome region that is responsible for a continuous trait is called Quantitative trait locus (QTL). The study of QTLs become feasible by using molecular markers and measuring traits in populations, but their mapping needs the obtaining of a population from an experimental crossing, like an F2 or Recombinant inbred strains/lines (RILs). To scan for QTLs regions in a genome, a gene map based on linkage have to be built. Some of the best-known QTL mapping algorithms are Interval Mapping, Composite Interval Mapping, and Multiple Interval Mapping. [29]

However, QTL mapping resolution is impaired by the amount of recombination assayed, a problem for species in which it is difficult to obtain large offspring. Furthermore, allele diversity is restricted to individuals originated from contrasting parents, which limit studies of allele diversity when we have a panel of individuals representing a natural population. [30] For this reason, the Genome-wide association study was proposed in order to identify QTLs based on linkage disequilibrium, that is the non-random association between traits and molecular markers. It was leveraged by the development of high-throughput SNP genotyping. [31]

In animal and plant breeding, the use of markers in selection aiming for breeding, mainly the molecular ones, collaborated to the development of marker-assisted selection. While QTL mapping is limited due resolution, GWAS does not have enough power when rare variants of small effect that are also influenced by environment. So, the concept of Genomic Selection (GS) arises in order to use all molecular markers in the selection and allow the prediction of the performance of candidates in this selection. The proposal is to genotype and phenotype a training population, develop a model that can obtain the genomic estimated breeding values (GEBVs) of individuals belonging to a genotyped and but not phenotyped population, called testing population. [32] This kind of study could also include a validation population, thinking in the concept of cross-validation, in which the real phenotype results measured in this population are compared with the phenotype results based on the prediction, what used to check the accuracy of the model.

As a summary, some points about the application of quantitative genetics are:

  • This has been used in agriculture to improve crops (Plant breeding) and livestock (Animal breeding).
  • In biomedical research, this work can assist in finding candidates genealleles that can cause or influence predisposition to diseases in human genetics

Expression data Edit

Studies for differential expression of genes from RNA-Seq data, as for RT-qPCR and microarrays, demands comparison of conditions. The goal is to identify genes which have a significant change in abundance between different conditions. Then, experiments are designed appropriately, with replicates for each condition/treatment, randomization and blocking, when necessary. In RNA-Seq, the quantification of expression uses the information of mapped reads that are summarized in some genetic unit, as exons that are part of a gene sequence. As microarray results can be approximated by a normal distribution, RNA-Seq counts data are better explained by other distributions. The first used distribution was the Poisson one, but it underestimate the sample error, leading to false positives. Currently, biological variation is considered by methods that estimate a dispersion parameter of a negative binomial distribution. Generalized linear models are used to perform the tests for statistical significance and as the number of genes is high, multiple tests correction have to be considered. [33] Some examples of other analysis on genomics data comes from microarray or proteomics experiments. [34] [35] Often concerning diseases or disease stages. [36]

Other studies Edit

    , ecological forecasting
  • Biological sequence analysis[37] for gene network inference or pathways analysis. [38] , especially in regards to fisheries science. and evolution

There are a lot of tools that can be used to do statistical analysis in biological data. Most of them are useful in other areas of knowledge, covering a large number of applications (alphabetical). Here are brief descriptions of some of them:

    : Another software developed by VSNi [39] that can be used also in R environment as a package. It is developed to estimate variance components under a general linear mixed model using restricted maximum likelihood (REML). Models with fixed effects and random effects and nested or crossed ones are allowed. Gives the possibility to investigate different variance-covariance matrix structures.
  • CycDesigN: [40] A computer package developed by VSNi [39] that helps the researchers create experimental designs and analyze data coming from a design present in one of three classes handled by CycDesigN. These classes are resolvable, non-resolvable, partially replicated and crossover designs. It includes less used designs the Latinized ones, as t-Latinized design. [41] : A programming interface for high-level data processing, data mining and data visualization. Include tools for gene expression and genomics. [21] : An open source environment and programming language dedicated to statistical computing and graphics. It is an implementation of S language maintained by CRAN. [42] In addition to its functions to read data tables, take descriptive statistics, develop and evaluate models, its repository contains packages developed by researchers around the world. This allows the development of functions written to deal with the statistical analysis of data that comes from specific applications. In the case of Bioinformatics, for example, there are packages located in the main repository (CRAN) and in others, as Bioconductor. It is also possible to use packages under development that are shared in hosting-services as GitHub. : A data analysis software widely used, going through universities, services and industry. Developed by a company with the same name (SAS Institute), it uses SAS language for programming.
  • PLA 3.0: [43] Is a biostatistical analysis software for regulated environments (e.g. drug testing) which supports Quantitative Response Assays (Parallel-Line, Parallel-Logistics, Slope-Ratio) and Dichotomous Assays (Quantal Response, Binary Assays). It also supports weighting methods for combination calculations and the automatic data aggregation of independent assay data. : A Java software for machine learning and data mining, including tools and methods for visualization, clustering, regression, association rule, and classification. There are tools for cross-validation, bootstrapping and a module of algorithm comparison. Weka also can be run in other programming languages as Perl or R. [21]

Almost all educational programmes in biostatistics are at postgraduate level. They are most often found in schools of public health, affiliated with schools of medicine, forestry, or agriculture, or as a focus of application in departments of statistics.

In the United States, where several universities have dedicated biostatistics departments, many other top-tier universities integrate biostatistics faculty into statistics or other departments, such as epidemiology. Thus, departments carrying the name "biostatistics" may exist under quite different structures. For instance, relatively new biostatistics departments have been founded with a focus on bioinformatics and computational biology, whereas older departments, typically affiliated with schools of public health, will have more traditional lines of research involving epidemiological studies and clinical trials as well as bioinformatics. In larger universities around the world, where both a statistics and a biostatistics department exist, the degree of integration between the two departments may range from the bare minimum to very close collaboration. In general, the difference between a statistics program and a biostatistics program is twofold: (i) statistics departments will often host theoretical/methodological research which are less common in biostatistics programs and (ii) statistics departments have lines of research that may include biomedical applications but also other areas such as industry (quality control), business and economics and biological areas other than medicine.


Evolutionary forces

Saying that the Hardy-Weinberg principle describes an “equilibrium” is misleading, however, because the values remain constant only in a population that is not evolving. But real-life populations are always evolving. The frequencies of alleles, and thus genotypes and phenotypes, do not stay the same for long because there are always forces acting upon them. Some of the forces acting on the allele frequencies are mutation and natural selection, along with two other phenomena: gene flow and genetic drift.

Now let’s consider some of the interesting things that can happen to gene frequencies in a population.

Sélection naturelle occurs when one allele confers some benefit to the individuals that bear it and is thus favored by natural selection over time. This violates Hardy-Weinberg Equilibrium because the frequency of the beneficial allele will increase over time. The opposite will be true for an allele that harms the individuals that get it: The frequency will decline over time until it is eliminated.

Flux de gènes refers to the movement of genes or alleles into our out of a gene pool. This can happen when members of a population migrate out, or members of another population migrate in and interbreed.

Dérive génétique refers to changes in gene frequencies due to random events, which can happen very quickly, producing dramatic and sudden effects. Drift can occur when a small group becomes isolated from the larger population. This is often called the Founder Effect. Drift can also occur when a catastrophic event reduces a large population to a very small size. Genetic drift means that the gene pool shrinks and becomes less diverse, which is often the opposite of what happens during gene flow when interbreeding expands the gene pool and increases genetic diversity.

When an allele confers some benefit to the individuals and is passed on over time, the genetic force is called:


Gene Flow and Mutation

A population’s genetic variation changes as individuals migrate into or out of a population and when mutations introduce new alleles.

Objectifs d'apprentissage

Explain how gene flow and mutations can influence the allele frequencies of a population

Points clés à retenir

Points clés

  • Plant populations experience gene flow by spreading their pollen long distances.
  • Animals experience gene flow when individuals leave a family group or herd to join other populations.
  • The flow of individuals in and out of a population introduces new alleles and increases genetic variation within that population.
  • Mutations are changes to an organism’s DNA that create diversity within a population by introducing new alleles.
  • Some mutations are harmful and are quickly eliminated from the population by natural selection harmful mutations prevent organisms from reaching sexual maturity and reproducing.
  • Other mutations are beneficial and can increase in a population if they help organisms reach sexual maturity and reproduce.

Mots clés

  • gene flow: the transfer of alleles or genes from one population to another
  • mutation: any heritable change of the base-pair sequence of genetic material

Flux de gènes

An important evolutionary force is gene flow: the flow of alleles in and out of a population due to the migration of individuals or gametes. While some populations are fairly stable, others experience more movement and fluctuation. Many plants, for example, send their pollen by wind, insects, or birds to pollinate other populations of the same species some distance away. Even a population that may initially appear to be stable, such as a pride of lions, can receive new genetic variation as developing males leave their mothers to form new prides with genetically-unrelated females. This variable flow of individuals in and out of the group not only changes the gene structure of the population, but can also introduce new genetic variation to populations in different geological locations and habitats.

Flux de gènes: Gene flow can occur when an individual travels from one geographic location to another.

Maintained gene flow between two populations can also lead to a combination of the two gene pools, reducing the genetic variation between the two groups. Gene flow strongly acts against speciation, by recombining the gene pools of the groups, and thus, repairing the developing differences in genetic variation that would have led to full speciation and creation of daughter species.

For example, if a species of grass grows on both sides of a highway, pollen is likely to be transported from one side to the other and vice versa. If this pollen is able to fertilize the plant where it ends up and produce viable offspring, then the alleles in the pollen have effectively linked the population on one side of the highway with the other.

Mutation

Mutations are changes to an organism’s DNA and are an important driver of diversity in populations. Species evolve because of the accumulation of mutations that occur over time. The appearance of new mutations is the most common way to introduce novel genotypic and phenotypic variance. Some mutations are unfavorable or harmful and are quickly eliminated from the population by natural selection. Others are beneficial and will spread through the population. Whether or not a mutation is beneficial or harmful is determined by whether it helps an organism survive to sexual maturity and reproduce. Some mutations have no effect on an organism and can linger, unaffected by natural selection, in the genome while others can have a dramatic effect on a gene and the resulting phenotype.

Mutation in a garden rose: A mutation has caused this garden moss rose to produce flowers of different colors. This mutation has introduce a new allele into the population that increases genetic variation and may be passed on to the next generation.


6.4: Population Genetics - Biology

Quantitative genetics models have highlighted the diversity of genetic architectures underlying polygenic traits. This diversity has an impact on how the traits respond to directional selection and on its molecular signatures on the genome.

Genome-wide scans for selection have revealed examples of polygenic selection driving local adaptation of populations in several species. This polygenic selection disproportionately targets regulatory regions, hinting for an important role of gene regulatory networks in evolution.

Gene regulatory network inference helps identifying and grouping together genes and regulatory elements that participate to the same biological processes. It also helps discovering how the structure of regulatory networks can put constraints on which genes and regulatory regions can be leveraged by polygenic selection.

The introduction of gene regulatory network information in the omnigenic model highlights the pervasive pleiotropy in the genome. The general interconnection between all genes within the regulatory network might strongly limit the action of selection.

The adaptation of populations to local environments often relies on the selection of optimal values for polygenic traits. Here, we first summarize the results obtained from different quantitative genetics and population genetics models, about the genetic architecture of polygenic traits and their response to directional selection. We then highlight the contribution of systems biology to the understanding of the molecular bases of polygenic traits and the evolution of gene regulatory networks involved in these traits. Finally, we discuss the need for a unifying framework merging the fields of population genetics, quantitative genetics and systems biology to better understand the molecular bases of polygenic traits adaptation.


Triticum population sequencing provides insights into wheat adaptation

10,000 years. The genetic mechanisms of this remarkable evolutionary success are not well understood. By whole-genome sequencing of populations from 25 subspecies within the genera Triticum and Aegilops, we identified composite introgression from wild populations contributing to a substantial portion (4-32%) of the bread wheat genome, which increased the genetic diversity of bread wheat and allowed its divergent adaptation. Meanwhile, convergent adaptation to human selection showed 2- to 16-fold enrichment relative to random expectation-a certain set of genes were repeatedly selected in Triticum species despite their drastic differences in ploidy levels and growing zones, indicating the important role of evolutionary constraints in shaping the adaptive landscape of bread wheat. These results showed the genetic necessities of wheat as a global crop and provided new perspectives on transferring adaptive success across species for crop improvement.


Voir la vidéo: Population: Thomas Malthus 1798 (Mai 2022).