Identifications de protéines par moteur MASCOT

Vous avez reçu un résultat « Mascot » d’identification des protéines de vos échantillons. Il s’agit de protéines répertoriées dans les bases de données unifiées dans le format fasta avec accessions Uniprot ou NCBI. En quelques mots, le moteur « Mascot » compare une liste de masses expérimentales produites à partir de l’échantillon et le compare à une liste théorique de toutes les protéines connues contenues dans la base de données utilisée. S’il existe des correspondances suffisamment probantes en terme de fiabilité/probabilité, « Mascot » inscrit la protéine dans la liste et y joint l’ensemble des « preuves » expérimentales (séquences des peptides, annotations des spectres, écarts en masse entre mesure et théorie).

Une protéine est réputée identifiée avec un très haut niveau de confiance dès lors qu’au minimum 2 évènements de séquence « MS/MS » de qualité acceptable pointent vers des peptides de séquences différentes ET retrouvés dans cette même protéine.

La qualité d’un événement de MS/MS est fonction :
• de la quantité du peptide,
• du nombre d’autres peptides présents dans sa fenêtre d’élution chromatographique et/ou dans sa fenêtre de sélection en masse,
• de sa capacité à acquérir une charge lui permettant de se déplacer dans un spectromètre de masse,
• de sa capacité à se fragmenter en divers points de sa chaîne peptidique (liaisons peptidiques préférentiellement).

Pour ces diverses raisons, les données spectrales obtenues peuvent varier de « médiocres » à « très bonnes ». Ce niveau de qualité est restitué par un score ou un indice de confiance.

Les spectres obtenus lors des événements de fragmentation sont associés à une séquence peptidique et accompagnés d’un score qui est le reflet de la corrélation entre les données théoriques et expérimentales dans leur contexte. Plus le score est haut, plus la probabilité de corrélation est bonne compte tenu :

1- de la quantité et de la qualité des données expérimentales,

2- de la quantité des données théoriques auxquelles on se réfère : plus le nombre de séquences présentes dans une base de données est important, plus le risque de trouver un match « par hasard » (ou faux positif) devient important.

Le nombre de séquences théoriques auxquelles sont comparées les valeurs expérimentales augmente bien entendu avec le nombre d’espèces pris en considération (ex. homme ou mammifères ou ensemble de la banque : procaryotes et eucaryotes) mais aussi avec les modifications d’acides aminés : oxydation des méthionines, modifications post-traductionnelles, diverses modifications sur les cystéines ou les lysines… D’un point de vue combinatoire, les probabilités de correspondance aléatoire augmentent avec le volume de données brassées. Il est donc important de ne prendre en compte que les modifications ayant une juste pertinence d’être retrouvées.

Ainsi pour qu’une protéine soit identifiée, son score doit être au dessus de la valeur minimale délimitée par le risque acceptable de match aléatoire (voir plus bas).

Par ailleurs, il faut tenir compte des possibilités d’origines diverses des protéines présentes. Par exemple, des protéines d’origine bovine sont souvent retrouvées dans des échantillons issus de cultures cellulaires (SVF et autres additifs…). Si une analyse restreinte à l’espèce humaine ne permettra pas de les voir, sous l’espèce Bos taurus elle risquera d’assigner artéfactuellement certaines protéines d’origine bovine à leur homologue de l’espèce humaine en n’utilisant que les peptides ayant une séquence identique entre les deux espèces.

Inversement une analyse « ouverte » permettant de détecter les protéines « exogènes » apportées par les contraintes de l’expérience a pour conséquence de montrer des protéines de l’espèce humaine sous l’espèce Bos taurus simplement parce que les peptides retrouvés ont des séquences identiques entre les 2 espèces et le moteur aura sélectionné Bos taurus par priorité alphabétique…

Toutefois dans le cas d’une analyse ouverte et si dans l’espèce recherchée la protéine n’était pas ou mal séquencée, il est possible qu’une recherche ouverte à la famille de l’espèce permette d’identifier l’homologue de séquence le plus proche chez une espèce voisine !

Il faut donc bien avoir à l’esprit les conditions de l’expérience, connaître les contaminants possibles ou inévitables (IgG, protéines A/G des IP, BSA du milieu de culture, caséines du lait, partie de protéine de fusion utilisée pour la purification ou la détection, etc… ). Une discussion avec les membres de la plateforme qui vont réaliser ou qui ont réalisé l’analyse est souvent indispensable a la bonne marche de l’identification et de sa compréhension.

Taux de faux positifs et appréciation statistique

D’une manière générale, les identifications qui vous ont été fournies comportent généralement moins de 1% de protéines faussement positives parmi celles qui ont été identifiées par le séquençage de deux peptides. Une p-value maximum fixée par défaut à 0.05 par peptide vous indique à quel point ces résultats sont fiables. Vous trouverez davantage d’information sur le site de l’éditeur de Mascot. D’un point de vue expérimental, une base de donnée de même volume mais avec des séquences randomisées, est utilisée pour effectuer une mesure réelle du taux de faux positif (FDR) de chaque peptide.

Identifications de protéines par moteur MASCOT

Taux de faux positifs et appréciation statistique

À lire aussi

Certification ISO9001 et Certification NFX 50-900

Formation « Méthodes d’analyse protéomique comparative globale »