Wiki¶
CR de réunions¶
Réunion du 8/06/2022:¶
Présents: Claire, Yannick, Sarah.
Liens utiles:
https://elearning.formation-permanente.inrae.fr/course/view.php?id=196§ion=1
https://github.com/nf-core/rnaseq/blob/master/docs/output.md
Exemples
MultiQC v1.9- Exemple: http://genoweb.toulouse.inra.fr/~sigenae/sarah/multiqc_report.html
https://genotoul-bioinfo.pages.mia.inra.fr/use-nextflow-nfcore-course/
https://forgemia.inra.fr/genotoul-bioinfo/use-nextflow-nfcore-course
General Stats¶
Il y a effectivement une petite différence de comptage entre samtools flagstat et samtools (raw_total_sequences) mais la différence est effectivement liée au multimapping :
or 136.5 + 6.5 = 143
M Total seqs (16ieme ligne) = nb de reads brutes pour l'union R1 + R2 = 136.5
M Non-Primary (11ieme ligne) = endroits où les reads mappent à plusieurs endroits (au minimum 2 mappings) = 6.5
M Reads (1ere ligne) = compte les lignes dans le BAM donc ajoute les multimappées aussi.
Chez toi, ces différences sont grandes car tu as beaucoup de multimapping. Voir pourquoi avec la PF de séquençage ?
Pour la différence proper paired, samtools et rseq, j'ai aussi des résultats très différents , du simple ou double.... d'autant que j'ai très peu de multimaps (5)...
Après, reseq est un vieil outil, utilisé juste pour checker la qualité...
La ligne de commande rseq est:
RNASEQ:RSEQC:RSEQC_BAMSTAT (E_L1_90_LM_M_M+_R1) COMPLETED 0 4m 59s 100.5% 1 MB bam_stat.py \ -i E_L1_90_LM_M_M+_R1.markdup.sorted.bam \ \ > E_L1_90_LM_M_M+_R1.bam_stat.txt bam_stat.py --version | sed -e "s/bam_stat.py //g" > rseqc.version.txt RSeQC v2.3.7 bam_stat.py: Now counts ‘Proper-paired reads map to different chrom’
http://rseqc.sourceforge.net/#bam-stat-py --> Il compte les paires donc dans l'exemple ci-dessous: 41 millions de records mais 21 M de paired donc 50% environ... Donc peut-être que multiQC calcule un % mais sur les mauvais chiffres.... Faudrait comprendre par qui (multiQC ?) est calculé le pourcentage ?
Utiliser Rseq pour vérifier foward/reverse:
Lancer un pipeline sur 2-3 échantillons avec l'indication "unstranded" puis analyser le multiQC report généré par Nextflow nf-core rnaseq version 3.
En effet, RSeQC infer_experiment nous indique le pourcentage de lectures qui mappent en antisense et en sense. Si les librairies sont séquencées à partir de la polyA, l'antisense est le sens 3'-5' donc reverse et le sense est 5'-3' donc forward.
Autre indication toujours à partir du report multiQC, avec l'outil qualimap.
Biotype Counts¶
DupRadar¶
Picard¶
Preseq¶
QualiMap : RNAseq QC map.¶
Genomic origin of reads¶
Gene Coverage Profile¶
Rsem¶
Mapped Reads¶
Multimapping rates¶
RSeQC¶
2012 - Assez peu utilisé - Contrôle qualité.
Read Distribution¶
Inner Distance¶
Read Duplication¶
Junction Annotation¶
Junction Saturation¶
Infer experiment¶
Bam Stat¶
Samtools¶
Percent Mapped¶
Alignment metrics¶
Samtools Flagstat¶
XY counts¶
Mapped reads per contig¶
FastQC (raw)¶
-> Cf e-learning FPN INRAE
Cutadapt¶
Filtered Reads¶
Trimmed Sequence Lengths¶
FastQC (trimmed)¶
Sequence Counts¶
Sequence Quality Histograms¶
Per Sequence Quality Scores¶
Per Base Sequence Content¶
Per Sequence GC Content¶
Per Base N Content¶
Sequence Length Distribution¶
Sequence Duplication Levels¶
Overrepresented sequences¶
Adapter Content¶
Status Checks¶
nf-core/rnaseq Software Versions¶
nf-core/rnaseq Workflow Summary¶
Sample correlation¶
sample_correlation : corresponds à une heatmap sous R. Pour mettre en évidence les échantillons outlayers ainsi que la ressemblance des échantillons dans leur expression.
Exemple: s4 est un outlayer
stringtieFPKM¶
Quantification des gènes du modèle Ensembl.
preseq¶
Recherche des lectures brutes redondantes en marquant les lectures identiques. Cette comparaison des lectures aboutit à un tableau avec, en première colonne, le nombre de lectures testées et les 3 autres colonnes sont les
lectures distinctes. Une lecture est comparée par rapport aux autres pour voir si elle est nouvelle ou pas. Cette analyse de la redondance de l'information permet de savoir s'il est nécessaire de continuer à séquencer ou pas.
markDuplicates¶
Marquage des lectures identiques dans le BAM.
dupradar¶
Recherche les duplicats PCR dans les données afin de déterminer si le lot et l'expression sont biaisés par la duplication des lectures hors du séquençage.