Wiki

CR de réunions

Réunion du 8/06/2022:

Présents: Claire, Yannick, Sarah.

Liens utiles:
https://elearning.formation-permanente.inrae.fr/course/view.php?id=196&section=1
https://github.com/nf-core/rnaseq/blob/master/docs/output.md
Exemples
MultiQC v1.9- Exemple: http://genoweb.toulouse.inra.fr/~sigenae/sarah/multiqc_report.html
https://genotoul-bioinfo.pages.mia.inra.fr/use-nextflow-nfcore-course/
https://forgemia.inra.fr/genotoul-bioinfo/use-nextflow-nfcore-course

General Stats

Il y a effectivement une petite différence de comptage entre samtools flagstat et samtools (raw_total_sequences) mais la différence est effectivement liée au multimapping : tot_seq_counts.png
or 136.5 + 6.5 = 143
M Total seqs (16ieme ligne) = nb de reads brutes pour l'union R1 + R2 = 136.5
M Non-Primary (11ieme ligne) = endroits où les reads mappent à plusieurs endroits (au minimum 2 mappings) = 6.5
M Reads (1ere ligne) = compte les lignes dans le BAM donc ajoute les multimappées aussi.

Chez toi, ces différences sont grandes car tu as beaucoup de multimapping. Voir pourquoi avec la PF de séquençage ?

Pour la différence proper paired, samtools et rseq, j'ai aussi des résultats très différents , du simple ou double.... d'autant que j'ai très peu de multimaps (5)... proper_reads.png

Après, reseq est un vieil outil, utilisé juste pour checker la qualité...

La ligne de commande rseq est:

RNASEQ:RSEQC:RSEQC_BAMSTAT (E_L1_90_LM_M_M+_R1) COMPLETED 0 4m 59s 100.5% 1 MB
    bam_stat.py \
        -i E_L1_90_LM_M_M+_R1.markdup.sorted.bam \
         \
        > E_L1_90_LM_M_M+_R1.bam_stat.txt

    bam_stat.py --version | sed -e "s/bam_stat.py //g" > rseqc.version.txt

RSeQC v2.3.7
bam_stat.py: Now counts ‘Proper-paired reads map to different chrom’

http://rseqc.sourceforge.net/#bam-stat-py --> Il compte les paires donc dans l'exemple ci-dessous: 41 millions de records mais 21 M de paired donc 50% environ... Donc peut-être que multiQC calcule un % mais sur les mauvais chiffres.... Faudrait comprendre par qui (multiQC ?) est calculé le pourcentage ?

bam_stats.png

Utiliser Rseq pour vérifier foward/reverse:

Lancer un pipeline sur 2-3 échantillons avec l'indication "unstranded" puis analyser le multiQC report généré par Nextflow nf-core rnaseq version 3.
En effet, RSeQC infer_experiment nous indique le pourcentage de lectures qui mappent en antisense et en sense. Si les librairies sont séquencées à partir de la polyA, l'antisense est le sens 3'-5' donc reverse et le sense est 5'-3' donc forward.

Error executing the thumbnail macro (Attachment ​sens_antisens.png not found)

Autre indication toujours à partir du report multiQC, avec l'outil qualimap.

Error executing the thumbnail macro (Attachment ​qualimap.png not found)

Biotype Counts

DupRadar

Picard

Preseq

QualiMap : RNAseq QC map.

Genomic origin of reads

Gene Coverage Profile

Rsem

Mapped Reads

Multimapping rates

RSeQC

2012 - Assez peu utilisé - Contrôle qualité.

Read Distribution

Inner Distance

Read Duplication

Junction Annotation

Junction Saturation

Infer experiment

Bam Stat

Samtools

Percent Mapped

Alignment metrics

Samtools Flagstat

XY counts

Mapped reads per contig

FastQC (raw)

-> Cf e-learning FPN INRAE

Cutadapt

Filtered Reads

Trimmed Sequence Lengths

FastQC (trimmed)

Sequence Counts

Sequence Quality Histograms

Per Sequence Quality Scores

Per Base Sequence Content

Per Sequence GC Content

Per Base N Content

Sequence Length Distribution

Sequence Duplication Levels

Overrepresented sequences

Adapter Content

Status Checks

nf-core/rnaseq Software Versions

nf-core/rnaseq Workflow Summary

Sample correlation

sample_correlation : corresponds à une heatmap sous R. Pour mettre en évidence les échantillons outlayers ainsi que la ressemblance des échantillons dans leur expression.
Exemple: s4 est un outlayer example_sample_correlation_s4outlayer.png

stringtieFPKM

Quantification des gènes du modèle Ensembl.

preseq

Recherche des lectures brutes redondantes en marquant les lectures identiques. Cette comparaison des lectures aboutit à un tableau avec, en première colonne, le nombre de lectures testées et les 3 autres colonnes sont les
lectures distinctes. Une lecture est comparée par rapport aux autres pour voir si elle est nouvelle ou pas. Cette analyse de la redondance de l'information permet de savoir s'il est nécessaire de continuer à séquencer ou pas.

markDuplicates

Marquage des lectures identiques dans le BAM.

dupradar

Recherche les duplicats PCR dans les données afin de déterminer si le lot et l'expression sont biaisés par la duplication des lectures hors du séquençage. dupradar_example.png

bam_stats.png (37.3 KB) Sarah Maman, 07/15/2021 03:27 PM

tot_seq_counts.png (9.44 KB) Sarah Maman, 07/15/2021 03:27 PM

proper_reads.png (25 KB) Sarah Maman, 07/15/2021 03:27 PM

example_sample_correlation_s4outlayer.png (46.3 KB) Sarah Maman, 07/15/2021 03:52 PM

dupradar_example.png (120 KB) Sarah Maman, 07/15/2021 03:52 PM

qualimap.png (65.5 KB) Sarah Maman, 03/01/2022 10:13 AM

sens_antisens.png (49.9 KB) Sarah Maman, 03/01/2022 10:13 AM