Vidéo pédagogique

Notice

Sous-titrage

Sous-titre

Langue :

Français

Crédits

François Rechenmann (Intervention), Thierry Parmentelat (Intervention)

Conditions d'utilisation

Ces ressources de cours sont, sauf mention contraire, diffusés sous Licence Creative Commons. L’utilisateur doit mentionner le nom de l’auteur, il peut exploiter l’œuvre sauf dans un contexte commercial et il ne peut apporter de modifications à l’œuvre originale.

DOI : 10.60527/hvqn-zk50

Citer cette ressource :

François Rechenmann, Thierry Parmentelat. Inria. (2015, 1 juin). 3.8. Des méthodes probabilistes à la rescousse , in 3. Prédiction des gènes. [Vidéo]. Canal-U. https://doi.org/10.60527/hvqn-zk50. (Consultée le 26 janvier 2026)

3.8. Des méthodes probabilistes à la rescousse

Réalisation : 1 juin 2015 - Mise en ligne : 4 octobre 2016

document 1 document 2 document 3
niveau 1 niveau 2 niveau 3

Descriptif

Nous avons vu comment la qualité des prédictions de gènes dans un génome bactérien, pouvait être améliorée à travers la recherche d'occurrences de motifs particuliers liés au site de fixation du ribosome, le fameux site RBS.

Il n'en reste pas moins que ces prédictions de gènes, basée uniquement sur la recherche de motifs, sont insuffisantes pour produire des prédictions de qualité satisfaisante. Les bio informaticiens complètent donc cette approche-là par des approches probabilistes qui permettent de tester le caractère codant, ou non codant, de la région prédite. Voyons de plus près comment ces méthodes fonctionnent.
Pour ce faire je vais prendre un exemple qui n'a rien à voir avec la génomique. Un exemple tout à fait hypothétique mais intéressant dans son principe. Supposons donc que vous disposiez d'un texte. écrit à l'aide des 26 lettres de notre alphabet habituel, et la majorité de ce texte est écrit de façon aléatoire. Les lettres apparaissent au hasard, sauf sur certains passages qui sont écrits dans un langage, c'est-à-dire une langue humaine, parlée. Est-il possible de détecter automatiquement ces passages ? La réponse est oui en utilisant le fait que la répartition des lettres, la fréquence des lettres dans un texte écrit dans une langue naturelle, telle que le français ou l'anglais n'est évidemment pas aléatoire. Qui plus est on connaît par des études statistiques, les probabilités d'occurrence, par exemple de la lettre E en français ou la lettre W en français comme en anglais...

Intervention / Responsable scientifique

Rechenmann

François

Ingénieur. Auteur d'une thèse de docteur-ingénieur en sciences appliquées (Grenoble INPG, 1976). - HDR. Directeur de thèse à Grenoble INPG (1990-1994-) et à l'université de Grenoble 1. Directeur de recherche au centre Inria Grenoble – Rhône-Alpes (2002, 2015)

Parmentelat

Thierry

Ingénieur de recherche chez Inria. Exepert du langage de programmation Python (2015)

Thème

Disciplines :

Documentation

Liens

Support de présentation au format PDF

Dans la même collection

Vidéo pédagogique

00:05:40

Favoris
3.4. Prédiction de tous les gènes d’une séquence

Rechenmann

François

Parmentelat

Thierry

En combinant de façon adéquate la recherche des triplés Stop et Start sur un brin d'ADN, nous avons obtenu un algorithme qui prédit les gènes sur ce brin, mais également sur une phase. C'est-à-dire en
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
Biologie cellulaire et moléculaire
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:05:49

Favoris
3.7. Index et arbre des suffixes

Rechenmann

François

Parmentelat

Thierry

Il y a donc deux approches pour améliorer la performance des algorithmes de recherche d'un motif dans une chaîne de caractères. La première approche consiste à pré-traiter le motif. On a vu un exemple
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
Biologie cellulaire et moléculaire
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:04:20

Favoris
3.2. Un algorithme simple de prédiction de gènes

Rechenmann

François

Parmentelat

Thierry

Sur la base des principes énoncés précédemment, nous allons écrire un premier algorithme de prédiction de gènes sur un texte génomique procaryote. Je rappelle ces principes. L'idée est la suivante :
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
Biologie cellulaire et moléculaire
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:04:44

Favoris
3.5. Comment améliorer la qualité des prédictions ?

Rechenmann

François

Parmentelat

Thierry

Il faut toujours le répéter et le souligner, les algorithmes qui déterminent des gènes déterminent des gènes candidats. Ce sont des prédictions de gènes. Donc la question est de savoir s'il est
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
ADN
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:04:01

Favoris
3.9. Comment évaluer la qualité de prédiction des méthodes ?

Rechenmann

François

Parmentelat

Thierry

Nous avons vu qu'il était possible, ou du moins nous le pensions, améliorer la qualité de prédiction des gènes sur un génome bactérien en introduisant des démarches supplémentaires, de recherches de
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
Codon
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:04:01

Favoris
3.3. À la recherche des codons start et stop

Rechenmann

François

Parmentelat

Thierry

Nous avons écrit la structure, l'ossature d'un algorithme de prédiction de gènes dans un génome bactérien, en utilisant les principes que nous avions énoncés précédemment. Cet algorithme est incomplet
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
Codon
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:05:43

Favoris
3.6. L’algorithme de Boyer-Moore

Rechenmann

François

Parmentelat

Thierry

Vous avez compris que la recherche de motifs, c'est-à-dire de sous-chaînes de caractères dans une chaîne plus importante, était un composant important de beaucoup d'algorithmes de bio-informatique.
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
Biologie cellulaire et moléculaire
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:04:46

Favoris
3.1. Tous les gènes se terminent sur un codon stop

Rechenmann

François

Parmentelat

Thierry

Une fois la séquence d'un génome complet obtenue, débute la phase d'annotation. L'annotation elle-même consiste tout d'abord à rechercher la localisation, c'est-à-dire la position des gènes sur cette
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
Biologie cellulaire et moléculaire
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:06:20

Favoris
3.10. La prédiction de gènes dans les génomes eucaryotes

Rechenmann

François

Parmentelat

Thierry

Si nous disposons actuellement de prédicteurs de gènes dans les génomes procaryotes de très bonne efficacité, avec des prédictions relativement fiables, c'est en fait loin d'être le cas sur les
Génomique
Algorithmes
Bioinformatique
Biologie application informatique
ADN
04.10.2016
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3

Voir tout

Avec les mêmes intervenants et intervenantes

Vidéo pédagogique

00:04:52

Favoris
1.2. At the heart of the cell: the DNA macromolecule

Rechenmann

François

During the last session, we saw how at the heart of the cell there's DNA in the nucleus, sometimes of cells, or directly in the cytoplasm of the bacteria. The DNA is what we call a macromolecule, that
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:07:29

Favoris
1.10. Overlapping sliding window

Rechenmann

François

We have made some drawings along a genomic sequence. And we have seen that although the algorithm is quite simple, even if some points of the algorithmare bit trickier than the others, we were able to
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:05:53

Favoris
2.3. The genetic code

Rechenmann

François

Genes code for proteins. What is the correspondence betweenthe genes, DNA sequences, and the structure of proteins? The correspondence isthe genetic code. Proteins have indeedsequences of amino acids.
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:05:58

Favoris
3.6. Boyer-Moore algorithm

Rechenmann

François

We have seen how we can make gene predictions more reliable through searching for all the patterns,all the occurrences of patterns. We have seen, for example, howif we locate the RBS, Ribosome
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:03:50

Favoris
4.5. A sequence alignment as a path

Rechenmann

François

Comparing two sequences and thenmeasuring their similarities is an optimization problem. Why? Because we have seen thatwe have to take into account substitution and deletion. During the alignment, the
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:07:39

Favoris
5.5. Differences are not always what they look like

Rechenmann

François

The algorithm we have presented works on an array of distance between sequences. These distances are evaluated on the basis of differences between the sequences. The problem is that behind the
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:05:10

Favoris
1.5. Counting nucleotides

Rechenmann

François

In this session, don't panic. We will design our first algorithm. This algorithm is forcounting nucleotides. The idea here is that as an input,you have a sequence of nucleotides, of bases, of letters,
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:06:09

Favoris
2.4. A translation algorithm

Rechenmann

François

We have seen that the genetic codeis a correspondence between the DNA or RNA sequences and aminoacid sequences that is proteins. Our aim here is to design atranslation algorithm, we make the
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:05:41

Favoris
3.1. All genes end on a stop codon

Rechenmann

François

Last week we studied genes and proteins and so how genes, portions of DNA, are translated into proteins. We also saw the very fast evolutionof the sequencing technology which allows for producing
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:05:35

Favoris
3.9. Benchmarking the prediction methods

Rechenmann

François

It is necessary to underline that gene predictors produce predictions. Predictions mean that you have no guarantees that the coding sequences, the coding regions,the genes you get when applying your
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:04:29

Favoris
4.2. Why gene/protein sequences may be similar?

Rechenmann

François

Before measuring the similaritybetween the sequences, it's interesting to answer the question: why gene or protein sequences may be similar? It is indeed veryinteresting because the answer is related
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3
Vidéo pédagogique

00:04:59

Favoris
5.4. The UPGMA algorithm

Rechenmann

François

We know how to fill an array with the values of the distances between sequences, pairs of sequences which are available in the file. This array of distances will be the input of our algorithm for
Biologie application informatique
DNA
Genome
Algorithm
Cell
09.05.2017
document 1 document 2 document 3
niveau 1 niveau 2 niveau 3