Workflow for complete RNAseq analysis from .gz raw data.
The steps 1 to 7 consists of wet lab procedures, while steps 7 to 13 consists of bioinformatics steps, which will be automated in the present project using command line/java/python/R integration. The project is still under development, and the finished steps will be marked down in the following workflow.
-
1. Total RNA Extraction
-
2. mRNA isolation
2.1. Northern Blotting for degradation control
-
3. Fragmentation
-
4. cDNA library convertion
-
5. Addition of Adapters
-
6. Amplification through PCR
6.1. Quality control of products concentration and length
-
7. Sequencing
7.1. Results in the FASTQ files compacted as .gz
7.2. Quality control trough FASTQC
7.3. Contamination analysis through comparison of common reference genomes through BLAST, BWA and kraken2
7.4. GC content analysis compared to the expected in the reference genome
-
8. Trimming with Trimmomatic
8.1. Quality control through FASTQC and comparison with results before trimming
-
9. Alignment with reference genome through STAR
-
10. Duplicates removal through Picard
-
11. Indexing through SAMTools
-
12. Hits counting through FeatureCounts
12.1. Coverage analysis
12.2. Normalization for RPKM (reads per kilobase per million of reads mapped) through gatk if needed.
-
13. Differential expression analysis through DESeq2
The data used here as example are not mine, please refer to the proper guidelines from Dr Joshua Ho's at the Bioinformatics and Digital Health Laboratory.
Fluxo de trabalho da análise completa de RNAseq com dados brutos no formato .gz.
As etapas 1 a 7 consistem de técnicas de análises laboratoriais, enquanto as etapas 7 a 13 consistem de etapas de bioinformática, que serão automatizada no presente projeto através da integração de linha de comando/java/python/R. O projeto ainda está em desenvolvimento, de forma que as etapas finalizadas serão marcadas no seguinte fluxo de trabalho.
-
1. Extração de RNA total
-
2. Isolamento de mRNA
2.1. Análise de degradação por Northern Blotting
-
3. Fragmentação
-
4. Conversão em biblioteca de cDNA
-
5. Adição dos adaptadores
-
6. Amplificação por PCR
6.1. Controle de qualidade dos produtos de PCR quanto à concentração e tamanho dos fragmentos
-
7. Sequenciamento
7.1. Resultados no formato FASTQ compactados como .gz
7.2. Controle de qualidade através do FASTQC
7.3. Análise de contaminação pela comparação com genomas de referência comuns através do BLAST, BWA e kraken2
7.4. Comparação do conteúdo de GC das sequências analisadas com o esperado do genoma de referência
-
8. Remoção dos adaptadores e sequências de baixa qualidade através do Trimmomatic
8.1. Controle de qualidade através do FASTQC e comparação com os dados anteriores ao tratamento com Trimmomatic
-
9. Alinhamento com o genoma de referência através do STAR
-
10. Remoção de duplicatas pelo Picard
-
11. Indexação através do SAMTools
-
12. Contagem de associações positivas através do FeatureCounts
12.1. Análise de cobertura
12.2. Normalização por Reads por Kilobase por Milhão de Reads Mapeados (reads per kilobase per million of reads mapped - RPKM) através do gatk se necessário.
-
13. Análise de expressão diferencial através do DESeq2
Os dados aqui utilizados como exemplo não são de minha autoria, refira-se às diretrizes adequadas do Dr Joshua Ho no Bioinformatics and Digital Health Laboratory.

