## 3.7. Index and suffix trees

We have seen with the Boyer-Moore algorithm how we can increase the efficiency of spin searching through the pre-processing of the pattern to be searched. Now we will see that an alternative way of improving the performance is to pre-process the text itself,the searchable text itself and we will, for that, study two methods, the construction of indexes of fixed length words and the algorithm which uses prefix trees. An index of fixed lengthword, what does it mean? Imagine you have a text, a searchable text, that is a text in which you want to search a pattern,here is quite a short text, the sequence is 14 correctors. We will ...
## 4.9. Recursion can be avoided: an iterative version

We have written a recursive function to compute the optimal path that is an optimal alignment between two sequences. Here all the examples I gave were onDNA sequences, four letter alphabet. OK. The writing of this recursive function is very elegant but unfortunately we will see now that it isnot very efficient in execution time. Let's see why. Remember the computing schema weapply during the recursion, for example here, to compute the cost of this node, we saw that it was required to computerecursively the cost of that node, that node and that node. OK but to compute the cost of that node here, you need to compute the cost ...
## 2.4. Un algorithme de traduction

Une protéine, en tant que succession d'acides aminés, peut-être vue comme le résultat d'un processus de traduction d'une chaîne de caractères écrite dans un alphabet de 4 lettres en une autre chaîne de caractères écrite en un l'alphabet de 20 lettres. La correspondance entre ces 2 chaînes, la table qui permet de passer de l'une à l'autre, est le code génétique. Code génétique qu'on retrouve quasi identique chez tous les organismes vivants. Donc, si maintenant on regarde à nouveau ce processus de transcription et traduction au niveau vraiment de la chaîne de caractères en détails, que voit-on ? Voilà un gène. ...
## 2.7. The algorithm design trade-off

We saw how to increase the efficiencyof our algorithm through the introduction of a data structure. Now let's see if we can do even better. We had a table of index and weexplain how the use of these small arrays allowed us to increase the efficiency that is to reduce the number of comparison to be executed when looking up a triplet in the genetic code. Now what I propose is an alternative to this data structure, it's to compute the indexes. OK. So we have this algorithm which uses here a function. You are now familiar with thisnotion of function, the idea is to fragment the complexity ofan algorithm ...
Quand les biologistes se sont trouvés confrontés au premier texte génomique, dans la deuxième moitié des années 70, ils ont été quelque peu désemparés. On peut le comprendre. Encore une fois, regardez une petite portion d'un texte de génome bactérien ici. Suite de lettres - C, G, et cetera. - pas d'espaces, pas de ponctuation, pas de marqueurs. Et pourtant on sait que cette séquence qui porte l'information génétique a un sens puisque l'organisme vivant existe, se développe, se reproduit. Comment retrouver ce sens ?Au tout début, tout était bon, on a fait feu de tout bois. Un exemple : ...
## 2.8. Les technologies de séquençage de l’ADN

Nous parlons beaucoup dans ce cours de séquences génomiques ou séquences d'ADN, que nous voyons pour des raisons algorithmiques sous forme de chaînes de caractères. Comment ces séquences, ces chaînes de caractères, sont-elles obtenues ? D'une manière très imagée, il s'agit de lire la succession des nucléotides le long d'un brin d'ADN. Je dis imagé parce que cette lecture n'est pas une opération extrêmement simple. Le résultat de cette opération, qu'on appelle séquençage, c'est le texte dans cet alphabet de 4 lettres. Les appareils qui servent à mener cette opération de séquençage sont appelés séquenceurs. Les technologies de séquençage peuvent ...
## 2.1. La séquence est-elle un bon modèle de l’ADN ?

L'ADN porte l'information génétique, plus précisément l'ADN porte les gènes, c'est-à-dire les régions de cette molécule qui portent l'information utilisée par la cellule pour synthétiser les protéines. Durant cette partie, nous allons nous intéresser plus particulièrement aux gènes et aux protéines et aux liens entre gènes et protéines, ce qu'on appelle la traduction. Mais dans un premier temps, je vous propose de revenir sur la question de la représentation de la molécule d'ADN par une simple chaîne de caractères. Parce que on l'a vu, l'ADN est d'abord un objet biologique chimique. C'est une longue molécule appelée souvent macro molécule, elle ...
## 1.10. Des fenêtres glissantes et recouvrantes

Notre sympathique algorithme de balade sur l'ADN, a permis de mettre en évidence des biais de composition de séquences, a fait apparaître sur le tracé un point de rebroussement que l'on peut interpréter comme étant l'origine de réplication. On peut donc être fier d'avoir un algorithme qui serait capable de prédire l'origine de réplication sur un génome bactérien. Alors il faut toujours rester très modeste en bio-informatique tout simplement parce qu'on a affaire à des situations biologiques, et que la variabilité des situations biologiques est très élevée. J'en donne pour preuve l'application de ce même algorithme tracé sur le génome ...
## Le numérique, la biotechnologie et la littérature dystopique - C.Autheman

La lecture des romans d'anticipation sociale nous renvoie à des événements qui font souvent les gros titres de l'actualité: surveillance du courrier électronique et des conversations téléphoniques; identification des comportements grâce aux ordinateurs, aux téléphones portables ou aux cartes de crédit; connaissance intime des individus par le recueil des données sur leur santé; utilisation de drogues ou d'implants pour modifier le fonctionnement du cerveau; nouvelles formes de reproduction humaine; remplacement des organes défaillants; etc. La technologie d'aujourd'hui n'est-elle pas en train de rejoindre les intuitions de la littérature dystopique? Une séance introductive qui posera les grandes questions qui seront débattues ...
## 4.7. Alignment costs

We have seen how we can compute the cost of the path ending on the last node of our grid if we know the cost of the sub-path ending on the three adjacent nodes. It is time now to see more deeply why these costs are used to compute the cost in the last node. So again, we saw how we can compute the cost here of the path ending on that node if we know the cost of the sub-path ending on these three red nodes. Indeed, if we come from that node, the cost on that node will be the cost of that node plus the ...
