Convertisseurs de formats¶
Voici quelques types de fichier de génotypes:
- Typage a) le format "bovin lait GABI" typ1 , individu, marqueurs codés 1/2 et 0 pour manquante
- Phase b) des mêmes auteurs, le format phase_chromosome avec les génotypes phasés et séparés par des espaces, et plusieurs chromosomes, les genotypes manquantes sont codés comme 0, les autres comme 1/2 (3, 4...n si n alleles)
- QTLMAP c) le format "QTLMAP" avec une ligne en tête et un valeur "à definir" pour les manquantes (* dans le manuel, mais cela peut être autre)
- PED d) le format "ped" (du programma linkage) avec famille, individu, père, mère sexe statut marqueurs separés par des espaces
- AIPL e) le format "AIPL" qu'utilisent VanRaden et ses collègues aux USA. C'est du type:
individu "nombre de marqueurs" "génotype"
avec marqueurs comme un grand mot 1210212005121... dans lequel "1" est la quantité des copies d'un allèle predeterminé. C'est à dire il y a "nmarqueurs" characters dans "génotype" . 5 est le valeur manquante - UGA f) le format "UGA" qui est similaire:
individu "génotype" et qui est utilisé par les logiciels tupe "BLUPF90" qui utilisent la matrice de parenté génomique (avec ou sans extension aux individus non-genotypés)
Les scripts awk et shell ci-dessous font quelques unes de ces conversions, un example est exo_phase. Notez que pour convertir de "phase" vers d'autres formats il faut passer par un format intemediare "oneline". Les originaux sont à
snp.toulouse.inra.fr:/home/alegarra/save/progs