Variant Call Format
| Extension | 
.vcf | 
|---|---|
| PUID | |
| Développé par | |
| Type de format | 
Genomic sequence format | 
| Basé sur | |
| Origine de | 
gVCF | 
| Spécification | |
| Site web | 
Le Variant Call Format ou VCF est un format d'un fichier texte utilisé en bioinformatique pour stocker les variations de séquences génétiques. Le format VCF est développé en 2010 pour le Projet 1000 Genomes et est depuis utilisé par d'autres projets de génotypage et de séquençage de l'ADN à grande échelle[1],[2]. Les formats préexistants pour stocker les séquences génétiques, tels que le format général des caractéristiques (GFF), conservaient des données redondantes car partagées entre les génomes. Le format VCF permet de ne stocker que la différence ou l'absence de différence par rapport à un génome de référence et, est un format de sortie courant pour les programmes d'appel de variants en raison de sa simplicité relative et de son évolutivité[3],[4].
La norme est actuellement la version 4.5[5],[6], bien que le Projet 1000 Genomes a développé sa propre spécification pour les variations structurelles telles que les duplications, qui ne sont pas facilement prises en compte dans le schéma existant[7].
D'autres formats de fichiers ont été développés sur la base du VCF, notamment leGenomic VCF (gVCF). gVCF est un format étendu qui comprend des informations supplémentaires sur les « blocs » qui correspondent à la référence et sur leurs qualités[8]. Un ensemble d'outils est également disponible pour l'édition et la manipulation des fichiers[9],[10], notamment VCFtools, qui a été publié en même temps que le format VCF en 2011, et BCFtools, qui a été inclus dans SAMtools jusqu'à ce qu'il soit divisé en un package indépendant en 2014[1],[11] ..
Exemple
##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x> ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
En-tête d'un fichier VCF
L'en-tête commence le fichier et fournit des métadonnées décrivant le corps du fichier. Les lignes d'en-tête sont indiquées comme commençant par# . Les mots-clés spéciaux dans l'en-tête sont indiqués par ## . Les mots clés recommandés incluent fileformat, fileDate et reference.
L'en-tête contient des mots-clés qui décrivent éventuellement sémantiquement et syntaxiquement les champs utilisés
Colonnes d'un fichier VCF
Le corps du VCF suit l'en-tête, et est séparé par une tabulation en 8 colonnes obligatoires et un nombre illimité de colonnes optionnelles qui peuvent être utilisées pour enregistrer d'autres informations sur le ou les échantillons. Lorsque des colonnes supplémentaires sont utilisées, la première colonne facultative est utilisée pour décrire le format des données dans les colonnes suivantes.
| Nom | Brève description (voir les spécifications pour plus de détails). | |
|---|---|---|
| 1 | CHROM | Le nom de la séquence (généralement un chromosome) sur laquelle la variation est appelée. Cette séquence est généralement appelée « séquence de référence », c'est-à-dire la séquence par rapport à laquelle l'échantillon donné varie. | 
| 2 | POS | Position en base 1 de la variation sur la séquence donnée. | 
| 3 | ID (identifiant) | L'identifiant de la variation, par exemple un identifiant dbSNP (en) rs, ou un « . » s'il est inconnu. Les identifiants multiples doivent être séparés par des points-virgules sans espace blanc. | 
| 4 | REF | La base de référence (ou les bases dans le cas d'un indel) à la position donnée sur la séquence de référence donnée. | 
| 5 | ALT | Liste des allèles alternatifs à cette position. | 
| 6 | QUAL | Un score de qualité associé à l'inférence des allèles donnés. | 
| 7 | FILTER | Un drapeau indiquant, parmi un ensemble donné de filtres, celui auquel la variation a échoué ou PASS si tous les filtres ont été passés avec succès. | 
| 8 | INFO | Une liste extensible de paires clé-valeur (champs) décrivant la variation. Voir ci-dessous les champs les plus courants. Les champs multiples sont séparés par des points-virgules et des valeurs facultatives dans le format suivant : <key>=[,data] : <key>=[,data]. | 
| 9 | FORMAT | Une liste extensible (facultative) de champs pour décrire les échantillons. Voir ci-dessous pour quelques champs communs. | 
| + | SAMPLES | Pour chaque échantillon (facultatif) décrit dans le fichier, des valeurs sont données pour les champs répertoriés dans FORMAT | 
Champs de la section INFO fréquemment utilisés
Les clés arbitraires sont autorisées, bien que les sous-champs suivants soient réservés (mais facultatifs)[5] :
| Nom | Brève description | 
|---|---|
| AA | Allèle ancestral | 
| AC | Nombre d'allèles dans les génotypes, pour chaque allèle de l'ALT, dans le même ordre que celui de la liste | 
| AF | Fréquence des allèles pour chaque allèle de l'ALT dans le même ordre que celui de la liste (à utiliser en cas d'estimation à partir de données primaires, et non de génotypes). | 
| AN | Nombre total d'allèles dans les génotypes appelés | 
| BQ | Qualité de base RMS à cette position | 
| CIGAR | Chaîne CIGAR[12][réf. à confirmer] décrivant comment aligner un allèle alternatif sur l'allèle de référence | 
| DB | Appartenance à dbSNP | 
| DP | Profondeur combinée sur l'ensemble des échantillons, par exemple DP=154 | 
| END | Position finale du variant décrit dans cet enregistrement (à utiliser avec des allèles symboliques) | 
| H2 | Appartenance à hapmap2 | 
| H3 | Appartenance à hapmap3 | 
| MQ | Qualité de cartographie RMS, par ex. QM=52 | 
| MQ0 | Nombre de MAPQ == 0 lectures couvrant cet enregistrement | 
| NS | Nombre d'échantillons avec des données | 
| SB | Biais de brin à cette position | 
| SOMATIC | Indique que l'enregistrement est une mutation somatique, pour la génomique du cancer | 
| VALIDATED | Validé par une expérience de suivi | 
| 1000G | Adhésion à 1000 génomes | 
Tous les autres champs d'informations sont définis dans l'en-tête .vcf.
Champs de la section FORMAT fréquemment utilisés
| Nom | Brève description | 
|---|---|
| AD | Profondeur de lecture pour chaque allèle | 
| ADF | Profondeur de lecture pour chaque allèle sur le brin avant | 
| ADR | Profondeur de lecture pour chaque allèle sur le brin arrière | 
| DP | Profondeur de lecture | 
| EC | Nombre attendu d'allèles alternatifs | 
| FT | Filtre indiquant si ce génotype a été « appelé » | 
| GL | Vraisemblances du génotype | 
| GP | Probabilités postérieures du génotype | 
| GQ | Qualité conditionnelle du génotype | 
| GT | Génotype | 
| HQ | Qualité de l'haplotype | 
| MQ | Qualité de la cartographie RMS | 
| PL | Vraisemblances du génotype à échelle prédite, arrondies à l'entier le plus proche | 
| PQ | Qualité de la mise en phase | 
| PS | Ensemble de phases | 
Tous les autres champs de format sont définis dans l'en-tête .vcf.
La spécification VCF n'est plus maintenue par le Projet 1000 Genomes. En effet, les variations structurelles telles que les duplications ne sont pas gérées par le format VCF de manière optimale[13]. Le groupe qui dirige la gestion et l'expansion du format est l'équipe de format de fichier du flux de travail à grande échelle de l'Alliance mondiale pour la génomique et la santé (GA4GH)[14],[15].
Voir aussi
- Le format FASTA, utilisé pour représenter les séquences du génome.
- Le format FASTQ, utilisé pour représenter les lectures du séquenceur d'ADN ainsi que les scores de qualité.
- Le format SAM, utilisé pour représenter les lectures du séquenceur du génome qui ont été alignées sur les séquences du génome.
- Le format GVF (Genome Variation Format) est une extension basée sur le format GFF3.
Notes et références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Variant Call Format » (voir la liste des auteurs).
- (en) Petr Danecek, Adam Auton, Goncalo Abecasis, Cornelis A. Albers, Eric Banks, Mark A. DePristo, Robert E. Handsaker, Gerton Lunter, Gabor T. Marth, Stephen T. Sherry, Gilean McVean et Richard Durbin, « The variant call format and VCFtools », Bioinformatics, vol. 27, no 15, , p. 2156–2158 (ISSN 1367-4803, PMID 21653522, PMCID 3137218, DOI 10.1093/bioinformatics/btr330).
- ↑ (en) Alexandra Ossola, « The Race to Build a Search Engine for Your DNA », sur IEEE Spectrum, (consulté le ).
- ↑ (en) « Understanding VCF format | Human genetic variation » [archive du ], sur EMBL-EBI (consulté le ).
- ↑ (en) Erik Garrison, Zev N. Kronenberg, Eric T. Dawson, Brent S. Pedersen et Pjotr Prins, « A spectrum of free software tools for processing the VCF variant call format: vcflib, bio-vcf, cyvcf2, hts-nim and slivar », PLOS Computational Biology, vol. 18, no 5, , e1009123 (ISSN 1553-734X, PMID 35639788, PMCID 9286226, DOI 10.1371/journal.pcbi.1009123, Bibcode 2022PLSCB..18E9123G).
- (en) « The Variant Call Format Specification » [PDF], sur samtools.github.io, (consulté le ).
- ↑ (en) « Specifications of SAM/BAM and related high-throughput sequencing file formats », sur GitHub (consulté le ).
- ↑ (en) « Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes » (consulté le ).
- ↑ (en) « GVCF - Genomic Variant Call Format », GATK, Broad Institute.
- ↑ (en) « VCFtools from Github.io » (consulté le ).
- ↑ (en) « BCFtools ».
- ↑ (en) Petr Danecek, James K Bonfield, Jennifer Liddle, John Marshall, Valeriu Ohan, Martin O Pollard, Andrew Whitwham, Thomas Keane, Shane A McCarthy, Robert M Davies et Heng Li, « Twelve years of SAMtools and BCFtools », GigaScience, vol. 10, no 2, (ISSN 2047-217X, PMID 33590861, PMCID 7931819, DOI 10.1093/gigascience/giab008, lire en ligne).
- ↑ Nicolas Philippe, Développement de méthodes et d’algorithmes pour la caractérisation et l’annotation des transcriptomes avec les séquenceurs haut débit (thèse), Université Montpellier II, , PDF (lire en ligne), « 2.5.2 La détection des SNV/SNP ».
- ↑ (en) « Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes » (consulté le ).
- ↑ (en-US) « Bio-IT World », www.bio-itworld.com (consulté le ).
- ↑ (en-GB) « Home », sur www.ga4gh.org (consulté le ).
Liens externes
- (en) « Une explication du format sous forme d'image » [PDF]
- « Introduction à l'analyse des SNPs », sur blog bioinformatique communautaire…, (consulté le )
- (en) « Reliable Standards : A Necessity For Genomic Data », sur Pubs - Bio-IT World (consulté le )
- Portail de l’informatique
- Portail de la biologie cellulaire et moléculaire