NCBI人类基因爬取工具

@Time: 2023-02-09

一、环境配置

python ——3.9.12
pandas ——1.5.3
numpy —— 1.21.1
request ——2.28.2
faker —— 16.6.1
lxml —— 4.9.2

==以上均可通过conda环境即可完成配置==

conda install package-name

二、使用方式

嵌入自己的python程序使用

# 引入路径
import sys
sys.path.append('脚本程序的父目录')

# 导入类
from ncbi_gene_table import NcbiGeneParser

以ipython为例，ipython需要自己安装 conda install ipython

NcbiGeneParser(ncbi_id=None, find_gene_name=None, save_html_dir=None)

NcbiGeneParser类，共有三个可选参数
.dataframe属性、.save_html_content属性需要用到的参数如下
- ncbi_id，是每个ncbi的基因都有的。例子中的NCBI id是51710，这个可以在ncbi上面查询到，以及由他人提供索引表，一个基因对应一个NCBI ID
- find_gene_name，是要查找的基因名称。例子中是以一个基因名和id为例，如果想实现批量嵌入程序的时候可以写一个逐行读取的步骤，每一行都导入基因名和基因的ID，可以做到批量生成数据框。==推荐每一次爬取时都保存一次单个dataframe==，待所有基因和id爬取结束后，再手动合并所有爬取的表格
- save_html_dir，是用于保存html格式的文件，为可选选项，看需求考虑是否填写，不填写不会干扰表格的生成，保存html和表格生成不是一起实现的，可以分开实现，用到的是 NcbiGeneParser类中的save_html_content属性，使用时直接在定义对象后写.save_html_content即可

三、初衷

初始需求主要是为了爬取NCBI的人类Gene数据，通过解析如下表格，实现数据库的制作。以人类的三种参考基因组版本(hg19，hg38，T2T)为固定版本，如果出现非这三种版本的参考基因组名称，将补充到后面，具体这一块还没有实际测试过（~~主要就是没有其他物种的基因id~~），感兴趣的、以及会改程序的人可以尝试在工具脚本的基础上进一步修改

四、许可说明

脚本不允许商业用途，仅可做科学研究使用

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
pic		pic
script		script
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NCBI人类基因爬取工具

一、环境配置

二、使用方式

三、初衷

四、许可说明

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

NCBI人类基因爬取工具

一、环境配置

二、使用方式

三、初衷

四、许可说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages