3.8. Probabilistic methods
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
- audio 1 audio 2 audio 3
Descriptif
Up to now, to predict our gene,we only rely on the process of searching certain strings or patterns. In order to further improve our gene predictor, the idea is to use, to rely onprobabilistic methods. What does it mean? I will firsttake an example, which is not related to genomic but I think it'sgood to understand the idea. Imagine you have a very long text which is known to be written in some human understandable language but you don't know which one but you know that some passages of this text only are written in a human understandable language,maybe English, maybe French and so on, whatever. You don't know. How can you retrieve these passages with this very little information you have on the text? Well, the idea is to make use ofthe fact that the frequencies of letters in a human readable languageare different from random frequencies. For example, here you have the tables of the frequencies and letters in French and in English. For example you see in French,W is a very low frequency, the highest frequency is E and so on, yousee E for example, well whatever, the. . . OK. This is also meaningful. OK. But the idea here is you see that if you count the frequencies letters in a human readable text,these frequencies are not all equal. That's normal because it's writtenwith words and so on and so on.
Intervenant
Thème
Notice
Documentation
Dans la même collection
-
3.10. Gene prediction in eukaryotic genomesRechenmannFrançois
If it is possible to have verygood predictions for bacterial genes, it's certainly not the caseyet for eukaryotic genomes. Eukaryotic cells have manydifferences in comparison to prokaryotic cells. You
-
3.9. Benchmarking the prediction methodsRechenmannFrançois
It is necessary to underline that gene predictors produce predictions. Predictions mean that you have no guarantees that the coding sequences, the coding regions,the genes you get when applying your
-
3.7. Index and suffix treesRechenmannFrançois
We have seen with the Boyer-Moore algorithm how we can increase the efficiency of spin searching through the pre-processing of the pattern to be searched. Now we will see that an alternative way of
-
3.4. Predicting all the genes in a sequenceRechenmannFrançois
We have written an algorithm whichis able to locate potential genes on a sequence but only on one phase because we are looking triplets after triplets. Now remember that the genes maybe located on
-
3.5. Making the predictions more reliableRechenmannFrançois
We have got a bacterial gene predictor but the way this predictor works is rather crude and if we want to have more reliable results, we have to inject into this algorithmmore biological knowledge. We
-
3.3. Searching for start and stop codonsRechenmannFrançois
We have written an algorithm for finding genes. But you remember that we arestill to write the two functions for finding the next stop codonand the next start codon. Let's see how we can do that. We
-
3.6. Boyer-Moore algorithmRechenmannFrançois
We have seen how we can make gene predictions more reliable through searching for all the patterns,all the occurrences of patterns. We have seen, for example, howif we locate the RBS, Ribosome
-
3.1. All genes end on a stop codonRechenmannFrançois
Last week we studied genes and proteins and so how genes, portions of DNA, are translated into proteins. We also saw the very fast evolutionof the sequencing technology which allows for producing
-
3.2. A simple algorithm for gene predictionRechenmannFrançois
Based on the principle we statedin the last session, we will now write in pseudo code a firstalgorithm for locating genes on a bacterial genome. Remember first how this algorithm should work, we first
Avec les mêmes intervenants
-
5.6. La diversité des algorithmes informatiquesRechenmannFrançoisParmentelatThierry
Nous n'avons vu dans ce cours qu'un exemple extrêmement réduit d'algorithme bio informatique. Il existe en effet une très grande diversité de ces algorithmes bio informatiques qui sont motivés par l
-
4.8. Un algorithme récursifRechenmannFrançoisParmentelatThierry
Nous avons désormais en main tous les éléments pour écrire notre algorithme de détermination d'un alignement optimal, ici d'un chemin optimal. Avec les notations que nous avons introduites, je vous
-
5.2. L’arbre, objet abstraitRechenmannFrançoisParmentelatThierry
Vous l'aurez compris un arbre phylogénétique est un arbre abstrait qui n'a qu'un lointain rapport métaphorique avec un véritable arbre. L'arbre des bio-informaticiens et des informaticiens se
-
5.5. Quand les différences sont trompeusesRechenmannFrançoisParmentelatThierry
Il y a plusieurs raisons pour lesquelles la méthode UPGMA, que nous venons de voir, se révèle simpliste. L'une des raisons par exemple, c'est pourquoi quand on recalcule les distances, quand on a
-
4.7. Coûts et alignementRechenmannFrançoisParmentelatThierry
Nous avons vu l'ébauche de notre algorithme d'alignement optimal en considérant la possibilité de calculer le coût optimal, ou score optimal, de ce dernier noeud. Et nous avons vu que le coût de ce
-
4.4. L’alignement de séquences devient un problème d’optimisationRechenmannFrançoisParmentelatThierry
La distance de Hamming nous donne une première possibilité de mesurer la similarité entre 2 séquences. Mais elle ne reflète pas suffisamment la réalité biologique. Qu'est-ce que j'entends par là ? On
-
5.1. L’arbre des espècesRechenmannFrançoisParmentelatThierry
Dans cette cinquième et dernière partie de notre cours sur le génome et les algorithmes, qui se veut une introduction à l'analyse informatique de l'information génétique, nous regarderons de plus près
-
4.3. Quantifier la similarité de deux séquencesRechenmannFrançoisParmentelatThierry
Le principe est donc de rechercher, dans les bases de données, des séquences similaires à celles que nous sommes en train d'étudier. Nous faisons aussi l'hypothèse que plus les séquences sont
-
4.10. Cet algorithme est-il efficace ?RechenmannFrançoisParmentelatThierry
La version itérative de notre algorithme d'alignement optimal de séquences est indéniablement beaucoup plus efficace que sa version récursive, puisque nous avons vu qu'il permettait d'éviter que le
-
5.4. L’algorithme UPGMARechenmannFrançoisParmentelatThierry
L'algorithme, que nous allons étudier pour la reconstruction d'arbres phylogénétiques à partir des distances, s'appelle UPGMA. Un nom plutôt compliqué pour une méthode qui est plutôt simple. Et même,
-
4.6. Si un chemin est optimal, tous ses chemins partiels sont optimauxRechenmannFrançoisParmentelatThierry
Nous cherchons à concevoir un algorithme capable de déterminer l'alignement optimal de 2 séquences. Et nous avons vu que ça revient à chercher un algorithme qui recherche un chemin optimal dans une
-
5.7. Les applications en microbiologieRechenmannFrançoisParmentelatThierry
Une très grande diversité, on l'a vu, d'algorithmes en bio-informatique, motivé par la résolution de problèmes différents. Ces algorithmes, ces recherches en bio-informatique, s'appuient sur des