Canal-U

Mon compte
Inria

4.3. Quantifier la similarité de deux séquences


Copier le code pour partager la vidéo :
<div style="position:relative;padding-bottom:56.25%;padding-top:10px;height:0;overflow:hidden;"><iframe src="https://www.canal-u.tv/video/inria/embed.1/4_3_quantifier_la_similarite_de_deux_sequences.24696?width=100%&amp;height=100%" style="position:absolute;top:0;left:0;width:100%;height: 100%;" width="550" height="306" frameborder="0" allowfullscreen scrolling="no"></iframe></div> Si vous souhaitez partager une séquence, indiquez le début de celle-ci , et copiez le code : h m s
Auteur(s) :
RECHENMANN Francois
PARMENTELAT Thierry

Producteur Canal-U :
Inria
Contacter le contributeur
J’aime
Imprimer
partager facebook twitter Google +

4.3. Quantifier la similarité de deux séquences

Le principe est donc de rechercher, dans les bases de données, des séquences similaires à celles que nous sommes en train d'étudier. Nous faisons aussi l'hypothèse que plus les séquences sont similaires, meilleure est la pertinence de l'information attachée à la séquence retrouvée dans la base de données.
Nous allons donc chercher un moyen de quantifier le niveau de similarité entre 2 séquences. Le premier moyen très simple, c'est d'utiliser la distance dite de Hamming. De quoi s'agit-il ? Très simple, en effet. Prenez ces 2 séquences ici. Vous pouvez très rapidement à l'oeil voir qu'elles diffèrent par 2 substitutions, 2 différences, ça va être la distance de Hamming. De même, cette paire ici, 3 substitutions, distance de Hamming, 3.
Est-ce une distance véritablement au sens mathématique du terme ? Je vous rappelle les 3 propriétés qu'une distance mathématique doit satisfaire : la distance d'une séquence à elle-même doit être nulle, ce qui est le cas, puisqu'il n'y a pas de différence entre les 2, pas de substitution ni quoi que ce soit, distance 0. La distance entre une séquence et une seconde séquence doit être la même qu'entre la seconde et la première. Bien entendu, le nombre de différences reste le même. Et la 3ème qui est dite l'inégalité qui doit être effectivement vérifiée elle aussi, ce que l'on peut faire assez facilement en prenant quelques exemples. C'est donc bien une distance au sens mathématique...

  •  
    Label UNT : UNIT
  •  
    Date de réalisation : 1 Juin 2015
    Durée du programme : 4 min
    Classification Dewey : biologie application informatique
  •  
    Catégorie : Vidéocours
    Niveau : Tous publics / hors niveau, 1er cycle, L1
    Disciplines : Outils, méthode et techniques scientifiques, Informatique
    Collections : 4. Comparaison de séquences
    ficheLom : Voir la fiche LOM
  •  
    Auteur(s) : RECHENMANN Francois, PARMENTELAT Thierry
  •  
    Langue : Français
    Mots-clés : génomique, algorithmique, bioinformatique, biologie cellulaire et moléculaire, modélisation
    Conditions d’utilisation / Copyright : Ces ressources de cours sont, sauf mention contraire, diffusées sous Licence Creative Commons. L’utilisateur doit mentionner le nom de l’auteur, il peut exploiter l’œuvre sauf dans un contexte commercial et il ne peut apporter de modifications à l’œuvre originale.
 

commentaires


Ajouter un commentaire Lire les commentaires
*Les champs suivis d’un astérisque sont obligatoires.
Aucun commentaire sur cette vidéo pour le moment (les commentaires font l’objet d’une modération)
 

Dans la même collection

FMSH
 
Facebook Twitter Google+
Mon Compte