5.4. L’algorithme UPGMA
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
- audio 1 audio 2 audio 3
Descriptif
L'algorithme, que nous allons étudier pour la reconstruction d'arbres phylogénétiques à partir des distances, s'appelle UPGMA. Un nom plutôt compliqué pour une méthode qui est plutôt simple. Et même, on le verra trop simple. UPGMA signifie Unweighted Pair Group Method with Arithmetic Mean. Nous allons voir au fur et à mesure, la signification dans l'exécution de l'algorithme de chacun de ces termes. Le point de départ de cet algorithme est donc un tableau de distances, tel que nous avons pu le remplir dans la session précédente. Voilà l'exemple que nous allons traiter. C'est un exemple simple. Nous avons sept espèces différentes et nous avons calculé les distances entre ces espèces à travers le calcul des distances, entre les séquences d'un gène homologue de ces espèces, à toutes ces espèces. Vous vous souvenez que le tableau que nous avons calculé était d'une part symétrique et que d'autre part, les valeurs sur la diagonale étaient sans surprise égales à 0. Ici nous avons choisi de ne conserver et de n'afficher que les valeurs significatives. Donc inutile de montrer les valeurs qui sont les symétriques des autres. Et inutile d'afficher les 0 sur les diagonales. Ce qui explique que notre tableau apparaît incomplet d'une certaine manière. La première étape de l'algorithme consiste à rechercher parmi toutes ces valeurs de distance dans le tableau la plus petite. Ici, c'est 2 et c'est la distance qui sépare l'espèce F de l'espèce C. Raccourci de langage, la distance qui sépare les séquences associées aux espèces F et C. C'est la distance la plus faible. Elle nous pousse donc à grouper ces 2 espèces dans un même sous-graphe en créant un noeud ancêtre ici. Ces 2 espèces sont proches, sont similaires parce qu'elles possèdent un ancêtre commun récent...
ERRATUM
Sur la slide 3 l’orateur parle de 7 espèces différentes, en fait il y en a 6.
Intervenants
Thèmes
Notice
Documentation
Dans la même collection
-
5.6. La diversité des algorithmes informatiquesRechenmannFrançoisParmentelatThierry
Nous n'avons vu dans ce cours qu'un exemple extrêmement réduit d'algorithme bio informatique. Il existe en effet une très grande diversité de ces algorithmes bio informatiques qui sont motivés par l
-
5.2. L’arbre, objet abstraitRechenmannFrançoisParmentelatThierry
Vous l'aurez compris un arbre phylogénétique est un arbre abstrait qui n'a qu'un lointain rapport métaphorique avec un véritable arbre. L'arbre des bio-informaticiens et des informaticiens se
-
5.1. L’arbre des espècesRechenmannFrançoisParmentelatThierry
Dans cette cinquième et dernière partie de notre cours sur le génome et les algorithmes, qui se veut une introduction à l'analyse informatique de l'information génétique, nous regarderons de plus près
-
5.5. Quand les différences sont trompeusesRechenmannFrançoisParmentelatThierry
Il y a plusieurs raisons pour lesquelles la méthode UPGMA, que nous venons de voir, se révèle simpliste. L'une des raisons par exemple, c'est pourquoi quand on recalcule les distances, quand on a
-
5.3. Remplir un tableau de distancesRechenmannFrançoisParmentelatThierry
Pour tenter de construire l'arbre phylogénétique d'un ensemble d'espèces, nous allons utiliser les données et génotypique ou des données génotypiques disponibles sur ces espèces. Plus clairement, nous
-
5.7. Les applications en microbiologieRechenmannFrançoisParmentelatThierry
Une très grande diversité, on l'a vu, d'algorithmes en bio-informatique, motivé par la résolution de problèmes différents. Ces algorithmes, ces recherches en bio-informatique, s'appuient sur des
Avec les mêmes intervenants
-
5.6. La diversité des algorithmes informatiquesRechenmannFrançoisParmentelatThierry
Nous n'avons vu dans ce cours qu'un exemple extrêmement réduit d'algorithme bio informatique. Il existe en effet une très grande diversité de ces algorithmes bio informatiques qui sont motivés par l
-
4.8. Un algorithme récursifRechenmannFrançoisParmentelatThierry
Nous avons désormais en main tous les éléments pour écrire notre algorithme de détermination d'un alignement optimal, ici d'un chemin optimal. Avec les notations que nous avons introduites, je vous
-
5.2. L’arbre, objet abstraitRechenmannFrançoisParmentelatThierry
Vous l'aurez compris un arbre phylogénétique est un arbre abstrait qui n'a qu'un lointain rapport métaphorique avec un véritable arbre. L'arbre des bio-informaticiens et des informaticiens se
-
5.1. L’arbre des espècesRechenmannFrançoisParmentelatThierry
Dans cette cinquième et dernière partie de notre cours sur le génome et les algorithmes, qui se veut une introduction à l'analyse informatique de l'information génétique, nous regarderons de plus près
-
5.5. Quand les différences sont trompeusesRechenmannFrançoisParmentelatThierry
Il y a plusieurs raisons pour lesquelles la méthode UPGMA, que nous venons de voir, se révèle simpliste. L'une des raisons par exemple, c'est pourquoi quand on recalcule les distances, quand on a
-
4.7. Coûts et alignementRechenmannFrançoisParmentelatThierry
Nous avons vu l'ébauche de notre algorithme d'alignement optimal en considérant la possibilité de calculer le coût optimal, ou score optimal, de ce dernier noeud. Et nous avons vu que le coût de ce
-
4.4. L’alignement de séquences devient un problème d’optimisationRechenmannFrançoisParmentelatThierry
La distance de Hamming nous donne une première possibilité de mesurer la similarité entre 2 séquences. Mais elle ne reflète pas suffisamment la réalité biologique. Qu'est-ce que j'entends par là ? On
-
4.3. Quantifier la similarité de deux séquencesRechenmannFrançoisParmentelatThierry
Le principe est donc de rechercher, dans les bases de données, des séquences similaires à celles que nous sommes en train d'étudier. Nous faisons aussi l'hypothèse que plus les séquences sont
-
4.10. Cet algorithme est-il efficace ?RechenmannFrançoisParmentelatThierry
La version itérative de notre algorithme d'alignement optimal de séquences est indéniablement beaucoup plus efficace que sa version récursive, puisque nous avons vu qu'il permettait d'éviter que le
-
4.6. Si un chemin est optimal, tous ses chemins partiels sont optimauxRechenmannFrançoisParmentelatThierry
Nous cherchons à concevoir un algorithme capable de déterminer l'alignement optimal de 2 séquences. Et nous avons vu que ça revient à chercher un algorithme qui recherche un chemin optimal dans une
-
4.2. Évolution et similarité de séquencesRechenmannFrançoisParmentelatThierry
Avant de chercher à quantifier ce qu'est la similarité de séquence, on peut se poser la question même de savoir pourquoi des séquences de génome sont similaires entre organismes. La réponse tient dans
-
5.3. Remplir un tableau de distancesRechenmannFrançoisParmentelatThierry
Pour tenter de construire l'arbre phylogénétique d'un ensemble d'espèces, nous allons utiliser les données et génotypique ou des données génotypiques disponibles sur ces espèces. Plus clairement, nous
Sur le même thème
-
Opinion polarization and network segregation. Modelling a complex RelationshipFlacheAndreas
Recently, many societies seem to shift towards more polarization and volatility in opinions, for example in attitudes about immigration, climate policy, or the best policy response to Covid-19. A
-
21 Molecular Algorithms Using Reprogrammable DNA Self-AssemblyWoodsDamien
The history of computing tells us that computers can be made of almost anything: silicon, gears and levers, neurons, flowing water, interacting particles or even light. Although lithographically
-
Topological insights in neuroscienceHess BellwaldKathryn
Over the past decade, and particularly over the past five years, research at the interface of topology and neuroscience has grown remarkably fast. Topology has, for example, been successfully applied
-
Quelques algorithmes de calcul d'enveloppe convexe en 2DGiraultAlain
Le calcul de l'enveloppe convexe d'un nuage de points est un des problèmes fondamentaux en informatique, avec des applications multiples : traitement d'images, reconstruction 3D, détection de
-
Modélisation de la croissance des micro-organismesJongHidde de
La croissance microbienne peut être formulée comme un problème d'optimisation : comment allouer les ressources nutritives extraites de l'environnement aux différentes fonctions cellulaires afin de
-
Les mathématiques et la physique dans les effets spéciaux et les jeux vidéoNeyretFabrice
La synthèse d’images (parfois appelée « la 3D ») permet de créer dans l’ordinateur des mondes fictifs, ultra-réalistes ou de style cartoon selon l’envie des graphistes, des réalisateurs, des
-
Caches, montrez-vous !DurandMarie
Les processeurs actuels permettent de l'ordre de quelques tera-opérations par seconde. Puissance nécessaire pour soutenir les besoins en simulation numérique, qui constitue, après la théorie et l
-
Théorie de l’appariement et applications actuelles
Pourquoi y a-t-il tant de personnes sans emploi alors qu’au même moment un grand nombre de postes sont disponibles ? La théorie de l’appariement analyse ces problèmes où un certain nombre de
-
Self-Supervised Visual Learning and SynthesisEfrosAlexei A.
Computer vision has made impressive gains through the use of deep learning models, trained with large-scale labeled data. However, labels require expertise and curation and are expensive to collect.
-
CoNeCo: Concurrency, Networks and CoinductionSilvaAlexandra
In recent years, concurrent Kleene algebra (CKA), an extension of Kleene Algebra (KA) that includes concurrent composition as a first-class citizen, has been proposed by Hoare et al. as a setting to
-
Le numérique face aux enjeux environnementaux et sociétauxPradosEmmanuel
L’humanité est aujourd'hui confrontée à des défis sans précédent et étroitement entremêlés. Le risque d'effondrement environnemental et civilisationnel est désormais établi. Face à ces enjeux, de
-
« Pirater » l’humain. Données, manipulations et enjeux éthiquesCastellucciaClaude
Nos données personnelles sont collectées et utilisées en permanence par les services en ligne, comme Google ou Facebook ou encore exploitées par les publicitaires pour personnaliser les contenus ou