Human_Genes

This repository contains the code and resulting output file for the approximate current list of uncharacterized human protein coding genes. The code gets the list of human protein coding genes from a regularly updated data file on the HGNC website, 'protein-coding_gene.txt'. For each gene symbol, if it is not in the title of any papers on PubMed, that gene is put into the output file 'uncharacterized_human_genes.txt'. PubMed papers can be manually searched online at https://pubmed.ncbi.nlm.nih.gov/?term=[gene].

uncharacterized_genes.py

Code file - puts gene symbols with no PubMed papers into uncharacterized_human_genes.txt.

uncharacterized_human_genes.txt

Output text file - contains uncharacterized human protein coding gene symbols and any additional data retrieved.

protein-coding_gene.txt

Input text file - protein-coding_gene.txt is retrieved from HGNC and contains the current list of approved human protein coding genes. This file is created by running uncharacterized_genes.py, it does not need to be in the working directory before executing the code. The protein-coding gene file can be found on the HGNC website at https://www.genenames.org/download/statistics-and-files/.

characterized_symbols_2024.txt

Input text file - contains gene symbols that were found to be in the title of at least one PubMed paper during the first run of uncharacterized_genes.py in 2024. If 'characterized_symbols_YYYY.txt' for the current year is not in the current working directory, it is created by running uncharacterized_genes.py. For every gene symbol, the code retrieves the list of PubMed papers with the gene symbol in its title. PubMed API is rate limited to one request every 0.33 seconds, so for >19,250 genes, this takes a theoretical ideal execution time of 2 hours. In practice, the current code takes about 4 hours to do this full retrieval.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Human_Genes

uncharacterized_genes.py

uncharacterized_human_genes.txt

protein-coding_gene.txt

characterized_symbols_2024.txt

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
LICENSE		LICENSE
README.md		README.md
characterized_symbols_2024.txt		characterized_symbols_2024.txt
characterized_symbols_2025.txt		characterized_symbols_2025.txt
characterized_symbols_2026.txt		characterized_symbols_2026.txt
protein-coding_gene.txt		protein-coding_gene.txt
uncharacterized_genes.py		uncharacterized_genes.py
uncharacterized_human_genes.txt		uncharacterized_human_genes.txt
uncharacterized_human_genes_2024_02.txt		uncharacterized_human_genes_2024_02.txt
uncharacterized_human_genes_2024_03.txt		uncharacterized_human_genes_2024_03.txt
uncharacterized_human_genes_2024_04.txt		uncharacterized_human_genes_2024_04.txt
uncharacterized_human_genes_2024_05.txt		uncharacterized_human_genes_2024_05.txt
uncharacterized_human_genes_2024_06.txt		uncharacterized_human_genes_2024_06.txt
uncharacterized_human_genes_2024_07.txt		uncharacterized_human_genes_2024_07.txt
uncharacterized_human_genes_2024_08.txt		uncharacterized_human_genes_2024_08.txt
uncharacterized_human_genes_2024_09.txt		uncharacterized_human_genes_2024_09.txt
uncharacterized_human_genes_2024_10.txt		uncharacterized_human_genes_2024_10.txt
uncharacterized_human_genes_2024_11.txt		uncharacterized_human_genes_2024_11.txt
uncharacterized_human_genes_2024_12.txt		uncharacterized_human_genes_2024_12.txt
uncharacterized_human_genes_2025_01.txt		uncharacterized_human_genes_2025_01.txt
uncharacterized_human_genes_2025_02.txt		uncharacterized_human_genes_2025_02.txt
uncharacterized_human_genes_2025_03.txt		uncharacterized_human_genes_2025_03.txt
uncharacterized_human_genes_2025_04.txt		uncharacterized_human_genes_2025_04.txt
uncharacterized_human_genes_2025_05.txt		uncharacterized_human_genes_2025_05.txt
uncharacterized_human_genes_2025_06.txt		uncharacterized_human_genes_2025_06.txt
uncharacterized_human_genes_2025_07.txt		uncharacterized_human_genes_2025_07.txt
uncharacterized_human_genes_2025_08.txt		uncharacterized_human_genes_2025_08.txt
uncharacterized_human_genes_2025_09.txt		uncharacterized_human_genes_2025_09.txt
uncharacterized_human_genes_2025_10.txt		uncharacterized_human_genes_2025_10.txt
uncharacterized_human_genes_2025_11.txt		uncharacterized_human_genes_2025_11.txt
uncharacterized_human_genes_2025_12.txt		uncharacterized_human_genes_2025_12.txt
uncharacterized_human_genes_2026_01.txt		uncharacterized_human_genes_2026_01.txt
uncharacterized_human_genes_2026_02.txt		uncharacterized_human_genes_2026_02.txt
update_0.1.txt		update_0.1.txt

Folders and files

Latest commit

History

Repository files navigation

Human_Genes

uncharacterized_genes.py

uncharacterized_human_genes.txt

protein-coding_gene.txt

characterized_symbols_2024.txt

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages