Aide à l’interprétation de données protéomique quantitatives (type Maxquant)

Les données fournies par la plateforme sont généralement une liste de protéines répertoriées dans les bases de données non redondantes Swissprot (TrEMBL eventuellement) ou NCBI dans le format fasta avec numéro d’accession Uniprot ou « gi ». Une valeur d’intensité y est associée par addition de l’ensemble des intensités des peptides assignés à chaque protéine considérée. En quantification relative « label free » (ou LFQ) une intensité corrigée ou non par normalisation permet d’établir un ratio entre au moins deux conditions.

Une protéine est réputée identifiée avec un très haut niveau de confiance dès lors qu’au minimum 2 évènements de séquence « MS/MS » de qualité acceptable pointent vers des peptides de séquences différentes ET retrouvés dans cette protéine.

La qualité d’un évènement de MS/MS est fonction :

de la quantité du peptide disponible ;
du nombre d’autres peptides présents dans sa fenêtre d’élution chromatographique et/ou dans sa fenêtre de sélection en masse ;
de sa capacité à acquérir une charge lui permettant de se déplacer dans un spectromètre de masse ;
de sa capacité à se fragmenter en divers points de sa chaîne peptidique (liaisons peptidique préférentiellement). Pour ces diverses raisons, les données spectrales obtenues peuvent varier de « médiocres » à « très bonnes ». Ce niveau de qualité est restitué par un score ou un indice de confiance. Le risque de peptides faux positif est généralement <1%.

Les spectres obtenus lors des évènements de fragmentation sont associés à une séquence peptidique à l’aide d’un moteur de comparaison des données expérimentales avec les données théoriques. Les scores sont le reflet de la corrélation entre ces données. Plus le score est haut plus la probabilité de corrélation est bonne compte tenu : 1- de la quantité et de la qualité des données expérimentales 2- de la quantité des données théoriques auxquelles on se réfère (plus le nombre de séquences pré-sentes dans une base de données est important plus le risque de trouver un match « par hasard » (ou faux positif) devient non négligeable. Le nombre de séquences théoriques auxquelles sont comparées les valeurs expérimentales augmente bien entendu avec le nombre d’espèces pris en considération (ex homme ou mammifères ou ensemble de la banque : procaryotes et eucaryotes) mais aussi avec les modifications prises en considération pour les acides aminés : oxydation des méthionines, modifications post-traductionnelles, diverses modifications sur les cystéines ou les lysines…. Il est donc important de ne prendre en considération que les modifications ayant une probabilité suffisamment importante d’être retrouvées.

Ainsi pour qu’une protéine soit identifiée son score doit être au-dessus de la valeur minimale délimitée par le risque acceptable de « match » aléatoire (moins de 1 % d’erreur pour l’analyse rapportée dans ce document). Le taux de faux positifs est appelé FDR et généralement limité à 1%.

Qu’est-ce que le « match between run » et le missing value replacement ? (voir les informations des developpeurs maxquant et un exemple de nos travaux )

Le premier item correspond à une supposition que des évènements d’identification MS/MS non fructueuse d’une MS1 d’un échantillon x présentant les valeurs m/z et RT proche d’un autre échantillon y ayant lui obtenu une identification fructueuse, sont identiques. Le missing value replacement permet de fournir une valeur dans une table où l’absence d’intensité de MS1 d’un échantillon empêcherait la possibilité de calculer (division/0) un ratio. La valeur remplacée est issue d’un calcul d’intensité globale de l’échantillon correspondant à la fraction de valeurs la plus faible fréquemment retrouvée. Il va sans dire que ce remplacement peut être opportun pour accroître la liste de protéines quantifiées mais peut représenter un biais potentiel.

Aide à l’interprétation de données protéomique quantitatives (type Maxquant)

À lire aussi

Certification ISO9001 et Certification NFX 50-900

Formation « Méthodes d’analyse protéomique comparative globale »