performance de l'appli muller...

Ajouté par Olivier Filangi il y a presque 11 ans

un petit point du coté performance et "utilisabilité" des procedure qu'on a mis en place.
Hélène Romé utilise le logiciel pour analyse les données utopige (990 individus et 288 000 marqueurs).
Le logiciel fonctionne mais pose un probleme sur les groupe de liaison contenant beaucoup de marqueur (30 000 le CHR1 par exemple).

la routine de lapack (DSYEV : decomposition ACP) peut mettre un certain temps à decomposer la matrice Mqq...
à titre d exemple sur le jeu de données de andres ou il y a 10900 marker, j'ai voulu faire un gwas complet (je sais, cela n a pas de sens, il faut faire une analyse par GL mais c est pour les tests)
ca prend un peu plus d 1heure (ca va encore). par contre sur utopige, j'ai testé en mettant 20 000 SNP dans l analyse, ca a pris plus de 8H....

Deplus, cela pose un probleme de ressource memoire. helene, n'as pas pu analyser plus de 15000 SNP sur DGA12 car DSYEV plante (saturation memoire).
Chez moi ca marche, car j ai une "grosse machine" pour moi tout seul.....

bref,j'ose pas testé 30000 SNP (je vais le faire quand meme) mais ca m a l air un peu exponentielle en terme de complexité.....

je vais prospecter pour savoir si il y a pas moyen d'ameliorer ce point mais j 'aimerai savoir si il y a un interet à changer de routine ?

En gros, l'orsqu'on implementera l estimation des effets haplotypiques, nous reviendrons à un cas avec des dimensions de la matrice Mqq raisonable et donc un temps d execution raisonable....

par exemple (taille du bloc haplotypique=2 , pour 30 000 SNP, on a au pire une dimension 15 000 x15 000 au lieu de 30 000 x 30 000)

je me trompe ?