TCGA & GTEx RNA-Seq Analysis Pipeline

Este repositorio contiene un pipeline automatizado en Bash y R para realizar Análisis de Expresión Diferencial (DEA) comparando cohortes de TCGA (Cáncer) y GTEx (Tejido normal).

El flujo de trabajo permite limpiar los datos (eliminando muestras pediátricas de TARGET), explorar las categorías disponibles, filtrar subconjuntos de interés y ejecutar el análisis estadístico utilizando Limma.

Estructura del Proyecto

.
├── cohort_TCGA_TARGET_GTEx/
│   └── delete_target_samples.sh   # Script de limpieza de datasets
├── filtered_datasets/             # Directorio de salida para matrices filtradas
├── DEA_limma/                     # Directorio con scripts R para realizar el analisis de expresion diferencial
├── DEA_output/                    # Directorio de salida para resultados de Limma
├── listar_categorias.sh           # Script de exploración de metadatos
├── filtrar_samples.sh             # Script de generación de datasets
├── run_dea.sh                     # Script de ejecución del análisis (Limma)
└── README.md

Uso del Pipeline

Sigue estos pasos secuenciales para ejecutar el análisis:

Preprocesamiento de Datos Antes de comenzar, es necesario limpiar el dataset original eliminando las muestras pertenecientes a la base de datos TARGET (muestras pediátricas), para trabajar únicamente con TCGA y GTEx.
```
cd cohort_TCGA_TARGET_GTEx
bash delete_target_samples.sh
```
Exploración de Categorías Para definir qué grupos comparar, utiliza este script que lista todas las categorías disponibles en los metadatos. El output muestra el recuento de muestras por tejido/enfermedad para GTEx y TCGA.
```
bash listar_categorias.sh
```
Generación del Dataset Una vez decididos los grupos a comparar (basado en el paso anterior), utiliza este script para crear la matriz de conteos filtrada. El script acepta múltiples categorías como argumentos.
Sintaxis: bash filtrar_samples.sh "CATEGORIA_1" "CATEGORIA_2" ...
Ejemplo de uso (Adenocarcinoma de Colon vs. Colon Normal):
```
bash filtrar_samples.sh "TCGA Colon Adenocarcinoma" "GTEX Colon"
```
Nota: Este paso generará dos archivos (filtered_metadata.txt y filtered_counts.txt) listos para el análisis de expresion diferencial en la carpeta filtered_datasets/.
Análisis de Expresión Diferencial (DEA) Finalmente, ejecuta el análisis estadístico. Este script toma el dataset generado en el paso anterior y utiliza Limma para encontrar genes diferencialmente expresados.
```
bash run_dea.sh
```

Los resultados finales (tablas de genes y volcanoplots) se guardarán automáticamente en la carpeta DEA_output/.

Requisitos

Entorno Unix/Linux (Bash) con Herramientas estándars awk, sed, grep
R 4.5

Librerias R: Instalar usando:

Rscript DEA_limma/requirements/check_and_install_packages.r

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
DEA_limma		DEA_limma
cohort_TCGA_TARGET_GTEx		cohort_TCGA_TARGET_GTEx
output_example		output_example
.gitignore		.gitignore
Interpretacion_de_resutlados.md		Interpretacion_de_resutlados.md
LICENSE		LICENSE
Readme.md		Readme.md
filtrar_samples.py		filtrar_samples.py
filtrar_samples.sh		filtrar_samples.sh
listar_categorias.sh		listar_categorias.sh
run_dea.sh		run_dea.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

TCGA & GTEx RNA-Seq Analysis Pipeline

Estructura del Proyecto

Uso del Pipeline

Requisitos

About

Uh oh!

Releases

Packages

Languages

License

omics-datascience/xena-tcga-gtex-extract

Folders and files

Latest commit

History

Repository files navigation

TCGA & GTEx RNA-Seq Analysis Pipeline

Estructura del Proyecto

Uso del Pipeline

Requisitos

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages