Notice
3.8. Des méthodes probabilistes à la rescousse
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
Nous avons vu comment la qualité des prédictions de gènes dans un génome bactérien, pouvait être améliorée à travers la recherche d'occurrences de motifs particuliers liés au site de fixation du ribosome, le fameux site RBS.
Il n'en reste pas moins que ces prédictions de gènes, basée uniquement sur la recherche de motifs, sont insuffisantes pour produire des prédictions de qualité satisfaisante. Les bio informaticiens complètent donc cette approche-là par des approches probabilistes qui permettent de tester le caractère codant, ou non codant, de la région prédite. Voyons de plus près comment ces méthodes fonctionnent.
Pour ce faire je vais prendre un exemple qui n'a rien à voir avec la génomique. Un exemple tout à fait hypothétique mais intéressant dans son principe. Supposons donc que vous disposiez d'un texte. écrit à l'aide des 26 lettres de notre alphabet habituel, et la majorité de ce texte est écrit de façon aléatoire. Les lettres apparaissent au hasard, sauf sur certains passages qui sont écrits dans un langage, c'est-à-dire une langue humaine, parlée. Est-il possible de détecter automatiquement ces passages ? La réponse est oui en utilisant le fait que la répartition des lettres, la fréquence des lettres dans un texte écrit dans une langue naturelle, telle que le français ou l'anglais n'est évidemment pas aléatoire. Qui plus est on connaît par des études statistiques, les probabilités d'occurrence, par exemple de la lettre E en français ou la lettre W en français comme en anglais...
Intervention
Dans la même collection
-
3.6. L’algorithme de Boyer-Moore
RECHENMANN François
PARMENTELAT Thierry
Vous avez compris que la recherche de motifs, c'est-à-dire de sous-chaînes de caractères dans une chaîne plus importante, était un composant important de beaucoup d'algorithmes de bio-informatique.
-
3.1. Tous les gènes se terminent sur un codon stop
RECHENMANN François
PARMENTELAT Thierry
Une fois la séquence d'un génome complet obtenue, débute la phase d'annotation. L'annotation elle-même consiste tout d'abord à rechercher la localisation, c'est-à-dire la position des gènes sur cette
-
3.10. La prédiction de gènes dans les génomes eucaryotes
RECHENMANN François
PARMENTELAT Thierry
Si nous disposons actuellement de prédicteurs de gènes dans les génomes procaryotes de très bonne efficacité, avec des prédictions relativement fiables, c'est en fait loin d'être le cas sur les
-
3.4. Prédiction de tous les gènes d’une séquence
RECHENMANN François
PARMENTELAT Thierry
En combinant de façon adéquate la recherche des triplés Stop et Start sur un brin d'ADN, nous avons obtenu un algorithme qui prédit les gènes sur ce brin, mais également sur une phase. C'est-à-dire en
-
3.7. Index et arbre des suffixes
RECHENMANN François
PARMENTELAT Thierry
Il y a donc deux approches pour améliorer la performance des algorithmes de recherche d'un motif dans une chaîne de caractères. La première approche consiste à pré-traiter le motif. On a vu un exemple
-
3.2. Un algorithme simple de prédiction de gènes
RECHENMANN François
PARMENTELAT Thierry
Sur la base des principes énoncés précédemment, nous allons écrire un premier algorithme de prédiction de gènes sur un texte génomique procaryote. Je rappelle ces principes. L'idée est la suivante :
-
3.5. Comment améliorer la qualité des prédictions ?
RECHENMANN François
PARMENTELAT Thierry
Il faut toujours le répéter et le souligner, les algorithmes qui déterminent des gènes déterminent des gènes candidats. Ce sont des prédictions de gènes. Donc la question est de savoir s'il est
-
3.9. Comment évaluer la qualité de prédiction des méthodes ?
RECHENMANN François
PARMENTELAT Thierry
Nous avons vu qu'il était possible, ou du moins nous le pensions, améliorer la qualité de prédiction des gènes sur un génome bactérien en introduisant des démarches supplémentaires, de recherches de
-
3.3. À la recherche des codons start et stop
RECHENMANN François
PARMENTELAT Thierry
Nous avons écrit la structure, l'ossature d'un algorithme de prédiction de gènes dans un génome bactérien, en utilisant les principes que nous avions énoncés précédemment. Cet algorithme est incomplet
Avec les mêmes intervenants et intervenantes
-
1.1. The cell, atom of the living world
RECHENMANN François
Welcome to this introduction to bioinformatics. We will speak of genomes and algorithms. More specifically, we will see how genetic information can be analysed by algorithms. In these five weeks to
-
1.9. Predicting the origin of DNA replication?
RECHENMANN François
We have seen a nice algorithm to draw, let's say, a DNA sequence. We will see that first, we have to correct a little bit this algorithm. And then we will see how such as imple algorithm can provide
-
2.8. DNA sequencing
RECHENMANN François
During the last session, I explained several times how it was important to increase the efficiency of sequences processing algorithm because sequences arevery long and there are large volumes of
-
3.5. Making the predictions more reliable
RECHENMANN François
We have got a bacterial gene predictor but the way this predictor works is rather crude and if we want to have more reliable results, we have to inject into this algorithmmore biological knowledge. We
-
4.6. A path is optimal if all its sub-paths are optimal
RECHENMANN François
A sequence alignment between two sequences is a path in a grid. So that, an optimal sequence alignmentis an optimal path in the same grid. We'll see now that a property of this optimal path provides
-
5.1. The tree of life
RECHENMANN François
Welcome to this fifth and last week of our course on genomes and algorithms that is the computer analysis of genetic information. During this week, we will firstsee what phylogenetic trees are and how
-
1.4. What is an algorithm?
RECHENMANN François
We have seen that a genomic textcan be indeed a very long sequence of characters. And to interpret this sequence of characters, we will need to use computers. Using computers means writing program.
-
2.2. Genes: from Mendel to molecular biology
RECHENMANN François
The notion of gene emerged withthe works of Gregor Mendel. Mendel studied the inheritance on some traits like the shape of pea plant seeds,through generations. He stated the famous laws of inheritance
-
2.10. How to find genes?
RECHENMANN François
Getting the sequence of the genome is only the beginning, as I explained, once you have the sequence what you want to do is to locate the gene, to predict the function of the gene and maybe study the
-
3.8. Probabilistic methods
RECHENMANN François
Up to now, to predict our gene,we only rely on the process of searching certain strings or patterns. In order to further improve our gene predictor, the idea is to use, to rely onprobabilistic methods
-
4.3. Measuring sequence similarity
RECHENMANN François
So we understand why gene orprotein sequences may be similar. It's because they evolve togetherwith the species and they evolve in time, there aremodifications in the sequence and that the sequence
-
5.3. Building an array of distances
RECHENMANN François
So using the sequences of homologous gene between several species, our aim is to reconstruct phylogenetic tree of the corresponding species. For this, we have to comparesequences and compute distances
Sur le même thème
-
The tree of life
ABBY Sophie
Les Rencontres Exobiologiques pour Doctorants (RED) sont une école de formation sur les « bases de l'astrobiologie ». L’édition 2025 s’est tenue du 16 au 21 mars au Parc Ornithologique du Teich.
-
Machines algorithmiques, mythes et réalités
MAZENOD Vincent
Vincent Mazenod, informaticien, partage le fruit de ses réflexions sur l'évolution des outils numériques, en lien avec les problématiques de souveraineté, de sécurité et de vie privée...
-
Désassemblons le numérique - #Episode11 : Les algorithmes façonnent-ils notre société ?
SCHWARTZ Arnaud
LIMA PILLA Laércio
ESTéRIE Pierre
SALLET Frédéric
FERBOS Aude
ROUMANOS Rayya
CHRAIBI KADOUD Ikram
Un an après le tout premier hackathon sur les méthodologies d'enquêtes journalistiques sur les algorithmes, ce nouvel épisode part à la rencontre de différents points de vue sur les algorithmes.
-
Les machines à enseigner. Du livre à l'IA...
BRUILLARD Éric
Que peut-on, que doit-on déléguer à des machines ? C'est l'une des questions explorées par Éric Bruillard qui, du livre aux IA génératives, expose l'évolution des machines à enseigner...
-
Désassemblons le numérique - #Episode9 : Bientôt des supercalculateurs dans nos piscines ?
BEAUMONT Olivier
BOUZEL Rémi
Des supercalculateurs feraient-ils bientôt leur apparition dans les piscines municipales pour les chauffer ? Réponses d'Olivier Beaumont, responsable de l'équipe-projet Topal, et Rémi Bouzel,
-
Le projet dnarXiv : Stockage de données sur des molécules d'ADN
LAVENIER Dominique
DUPRAZ Elsa
LEBLANC Julien
COATRIEUX Gouenou
Dominique Lavenier, Elsa Dupraz, Julien Leblanc et Gouenou Coatrieux nous présentent le projet dnarXiv, un projet porté par le LabEx CominLabs qui explore le stockage de données sur des molécules d
-
Projection methods for community detection in complex networks
LITVAK Nelly
Community detection is one of most prominent tasks in the analysis of complex networks such as social networks, biological networks, and the world wide web. A community is loosely defined as a group
-
Lara Croft. doing fieldwork under surveillance
DALL'AGNOLA Jasmin
Lara Croft. Doing Fieldwork Under Surveillance Intervention de Jasmin Dall'Agnola (The George Washington University), dans le cadre du Colloque coorganisé par Anders Albrechtslund, professeur en
-
Containing predictive tokens in the EU
CZARNOCKI Jan
Containing Predictive Tokens in the EU – Mapping the Laws Against Digital Surveillance, intervention de Jan Czarnocki (KU Leuven), dans le cadre du Colloque coorganisé par Anders Albrechtslund,
-
Ivan Murit - Processus de création d'images
MURIT Ivan
Je vais présenter une manière décalée d'aborder les outils d'impression. Pour cela nous ne partirons pas de l'envie d'imprimer une image préexistante, mais d'avant cela : comment se crée une forme
-
Le Creativ’Lab, au cœur de la robotique et de l’intelligence artificielle (ASR N°18 - LORIA)
HéNAFF Patrick
LEFEBVRE Sylvain
Le LORIA, laboratoire phare de la Grande Région dans le domaine de l’informatique, propose de rendre la recherche plus ouverte, plus collaborative, plus ambitieuse… en un mot, plus créative, à travers
-
Les algorithmes de Parcoursup
MATHIEU Claire
L’objectif de la journée « Algorithmes d’aide à la décision publique » était de sensibiliser le grand public aux rôles des algorithmes d’aide à la décision publique utilisés par exemple pour l