basic/03-database.Rmd at master · leeson89/basic · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# 生物信息学数据库资源 {#database}

做数据分析常常会需要用到参考基因组和注释文件，还会需要分析公共数据，了解常见的生物信息学数据库资源也是非常有必要的！

## 基因ID

到目前为止，仅仅是人类研究，就有两万五左右的蛋白编码基因，这些基因可以合成十几万种蛋白质，还有近十万的编码lncRNA的基因，近万的miRNA等非编码基因。基因在生物信息学研究中具有中心地位，所以对于基因的命名也显得至关重要。

每个领域，每个地域，都有权威的科研单位，他们偏向于自己定义各种各样的基因命名系统，并没有一个统一的命名方式。

而且为了研究基因，还有产生探针捕获的技术，各个厂商的探针ID也是五花八门。

在疾病研究领域，也需要独特的ID。

一些功能数据库也会对自己的样本，基因重新编码ID。

常见的基础数据库也会提出自己的ID (entrez ID, Symbol, RefSeq, probeset, PubmedID,OminID,Accnum)，甚至，你自己整理发表一个数据库也可以提出基因命名系统，当然，不一定会那么受欢迎，也不会有那么多人去学习你的命名规则。


为什么要有这么多的基因ID呢？基因就像每个人一样，都是独特的个体。它在不同的地点扮演不同的角色。故自然有不同的ID，有的根据它的位置区分。比如：王总。有的根据它的特征区分比如：吝啬王。这样就会出现很多的称呼，即ID.，但他说的都是同一个人哦。

基因也是一样的，当在表达谱数据的时候，他的名字就是探针，当在ENSEMBL中时，就是ENSG开头加数字的格式，所以在不同的数据库中会有不同的命名故就会有很多的基因ID.

### ID种类繁多  {-}

其中GeneCards数据库里面列出了128种数据库ID，虽然很全面，但并非都是重点，希望大家把学习时间花在刀刃上，有一些就不要死记硬背了。
而且，我觉得大部分人看到了下面这些密密麻麻的ID，肯定是要疯掉的。
一般初学者常见的ID转换工具就是DAVID了，但其实可以自己用R编程的各种包来做转换，这样自己知道自己在做什么，也了解ID是如何定义的。

![密密麻麻的分子ID](image/C3/bioDBnet.jpg)

### 常见的数据库ID {-}

虽然有综合性的数据库收集整理了百余种ID，使得它们之间的对应及转换得以顺利进行，但大部分数据分析过程中并不会用到所有的数据ID，最常见的如下表。

|ID 示例|	ID 来源|
| -----|:-------------:|
|ENSG00000116717	|Ensemble ID|
|GA45A_HUMAN	|UniProtKB/Swiss-Prot, entry name
|A5PJB2_BOVIN	|UniProtKB/TrEMBL, entry name
|A2BC19, P12345, A0A022YWF9	|UniProt, accession number
|GLA, GLB, UGT1A1	|HGNC Gene Symbol
|U12345, AF123456	|GenBank, NCBI, accession number
|NT_123456, NM_123456, NP_123456	|RefSeq, NCBI, accession number|
|10598, 717|	Entrez ID,  NCBI|
|uc001ett, uc031tla.1	|UCSC ID|

Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.

#### 常用物种前缀 {-}

前缀 |学名
---|---
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF | Canis lupus familiaris (Dog)
ENSDAR | Danio rerio (Zebrafish)
FB | Drosophila melanogaster (Fruitfly)
ENS| Homo sapiens (Human)
ENSMUS |Mus musculus (Mouse)
ENSRNO |Rattus norvegicus (Rat)
ENSXET|Xenopus tropicalis (Xenopus)


#### 类型前缀  {-}

前缀 | 类型
---|---
E | exon
FM |Ensembl protein family
G | gene
GT| gene tree
P|protein
R |	regulatory feature
T| transcript

UniProt 中录入的数据都被分配了一个唯一的 entry name，叫做UniProtKB/Swiss-Prot entry name。它是最多有 11 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五个便于记忆的蛋白质编号, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.

#### 蛋白质编号示例如下 {-}

Code(X)	 | Recommended protein name|Gene name
---|---|---|
B2MG | Beta-2-microglobulin|B2M
HBA | Hemoglobin subunit alpha|HBA1
INS | Insulin	|INS
CAD17 |Cadherin-17|CDH17

#### 物种编号示例如下 {-}

Code | Species
---|---
BOVIN | Bovine
CHICK | Chicken
ECOLI| Escherichia coli
HORSE| Horse
HUMAN | Homo sapiens
MAIZE|	Maize (Zea mays)
MOUSE| Mouse
PEA | Garden pea (Pisum sativum)
PIG| Pig
RABIT |Rabbit
RAT | Rat
SHEEP |Sheep
SOYBN | Soybean (Glycine max)
TOBAC | Common tobacco (Nicotina tabacum)
WHEAT |Wheat (Triticum aestivum)
YEAST|Baker’s yeast (Saccharomyces cerevisiae)
HUGO | Gene Nomenclature Committee


#### Gene Symbol  {-}

Gene Symbol 是用来表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母，有点像是是基因的标准缩写。

如:

* GLA这个symbol代表着"galactosidase, alpha"
* GLB这个代表着"galactosidase, beta"
* UGT1A1这个symbol代表着"UDP glycosyltransferase 1 family, polypeptide A1"


#### GenBank Accession Number {-}

GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.

#### RefSeq Accession Number {-}

RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多的数字.

Accession

前缀| 类型|说明
---|---|---
 AC_ | Genomic |Complete genomic molecule, usually alternate assembly
NC_	|Genomic |	Complete genomic molecule, usually reference assembly
NG_|	Genomi c|	Incomplete genomic region
NT_	|Genomic |	Contig or scaffold, clone-based or WGS
NW_	|Genomic|	Contig or scaffold, primarily WGS
NS_|	Genomic	|Environmental sequence
NZ_	|Genomic|	Unfinished WGS
NM_	|mRNA   |
NR_	|RNA    |
XM_	|mRNA   |	Predicted model
XR_	|RNA    |	Predicted model
AP_	|Protein|	Annotated on AC_ alternate assembly
NP_	|Protein|	Associated with an NM_ or NC_ accession
YP_|Protein	|
XP_	|Protein|	Predicted model, associated with an XM_ accession
ZP_ |Protein|	Predicted model, annotated on NZ_ genomic records

#### Entrez ID  {-}


Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.
生信菜鸟团的博客《NCBI的基因entrezID相关文件介绍》讲解了Entrez ID主要的信息文件。可以直接搜索。
一个简单的Entrezid对应的别的ID,例子如下：

 gene_id  | symbol|chromosome
---|---|---
 352937  | dio2 |20

上表中geneid即为 Entrezid. 在ID转换中有重要的作用。

#### UCSC ID  {-}

由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.
如: uc010qfk.3, uc010qfk.3. 这个ID几乎被抛弃不用了，只是因为UCSC是三大数据库之一而已。

### ID 转换 {-}

最重要的就是怎么实现ID转换。常用的id有entrez gene ID, HUGO symbol, refseq ID, ensembl ID。他们之间进行转换，做一些后续的分析。一般初学者用的ID转换的工具就是DAVID，R里面关于ID转换常用的包为org.Hs.eg.db这一类的包。
在生信技能树论坛里，健明发的《ID转换大全》和《生信人必须了解的各种ID表示方式》以及《生信编程直播第8题-几个ID转换咯》里面有实战的代码，务必运行一遍。在论坛直接搜索即可。

方法1：直接在DAVID网站，粘贴转换

方法2：用R包。不管是什么ID转换，都是找到对应关系，然后match一下即可！--《生信编程直播第8题-几个ID转换咯》有完整代码

方法3：用R包，基于org.Xx.eg.db系列包，进行ID转换。--《ID转换大全》由完整代码

总之：

```
entrez gene ID 文盲不会写汉字，只能运用纯数字
Ensembl ID 有文化，身前物种做玉坠
refseq ID最懒惰，一躺在中间，字母在两边
Gene Symbol大写字母加数字，一生平庸最常见
```

直达车：

http://www.biotrainee.com/thread-941-1-1.html

http://www.biotrainee.com/thread-862-1-1.html


## 参考基因组版本

#### 不同版本对应关系 {-}

hg19，GRCH37和ensembl75是三种国际生物信息学数据库资源收集存储单位，即NCBI，UCSC和ENSEMBL各自发布的基因组信息。

hg系列，hg18/19/38来自UCSC也是目前使用频率最高的基因组。从出道至今我就只看过hg19了，但是建议大家都转为hg38，因为它是目前的最新版本。

基因组各种版本对应关系综合来看如下所示：

- GRCh36 (hg18): ENSEMBL release_52.
- GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
- GRCh38 (hg38): ENSEMBL  release_76/77/78/80/81/82.

ENSEMBL的版本特别复杂也很容易搞混，UCSC的版本就简单很多，常用的是hg19，最新版本为hg38。

看起来NCBI也是很简单，就GRCh36,37,38，但是里面水也很深！

```
Feb 13 2014 00:00    Directory April_14_2003
Apr 06 2006 00:00    Directory BUILD.33
Apr 06 2006 00:00    Directory BUILD.34.1
Apr 06 2006 00:00    Directory BUILD.34.2
Apr 06 2006 00:00    Directory BUILD.34.3
Apr 06 2006 00:00    Directory BUILD.35.1
Aug 03 2009 00:00    Directory BUILD.36.1
Aug 03 2009 00:00    Directory BUILD.36.2
Sep 04 2012 00:00    Directory BUILD.36.3
Jun 30 2011 00:00    Directory BUILD.37.1
Sep 07 2011 00:00    Directory BUILD.37.2
Dec 12 2012 00:00    Directory BUILD.37.3
```

从上面可以看到，有37.1， 37.2和 37.3 等等，不过这种版本一般指的是注释在更新而基因组序列一般不变。

**总之你需要记住，** **hg19基因组大小是3G，压缩后八九百兆**。

如果要下载GTF注释文件，基因组版本尤为重要。

##### **NCBI**：最新版（hg38） {-}

- ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/

##### **NCBI**：其它版本 {-}

- ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/

##### **Ensembl** {-}

- ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz

> 变化上面链接中的**release**就可以拿到所有版本信息

- ftp://ftp.ensembl.org/pub/

##### **UCSC**  {-}

它本身需要一系列参数：

```
1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables
2. Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select "genome" for the entire genome.
output format: GTF - gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser
3. Click 'get output'.
```
搞清楚版本关系了，接下来就是进行下载。UCSC里面下载非常方便，只需要根据基因组简称来拼接url：

```
http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz
```
或者用shell脚本指定下载的染色体号

```
for i in $(seq 1 22) X Y M;
do echo $i;
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;done
gunzip *.gz
for i in $(seq 1 22) X Y M;
do cat chr${i}.fa >> hg19.fasta;
done
rm -fr chr*.fasta
```

## NCBI

NCBI (National Center for Biotechnology Information，美国国立生物技术信息中心）于1988年11月4日建立，是NIH（美国国立卫生研究院）的NLM（国立医学图书馆）的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。
目前有将近40个在线的文库和分子生物学数据库，包括：PubMed, PubMed Central, and GenBank等。网址： https://www.ncbi.nlm.nih.gov/

**一、任务**

1. 为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；
2. 从事研究基于计算机的信息处理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与功能；
3. 促进生物学研究人员和医护人员应用数据库和软件；
4. 努力协作以获取世界范围内的生物技术信息。

**二、内容**

1.文献数据库

包括：PubMed,PubMed Central,Books等

2.序列资源库

包括人，小鼠，果蝇，线虫等各种物种的基因组数据库

包含DNA，RNA，蛋白等各种类型的数据

如：SNP,GEO,SRA等

3.常用序列分析工具

* Entrez -- 数据挖掘的工文本条件查询工具（Text Term Searching）
来自于超过10万个种物的核酸和蛋白序列数据，连同蛋白三维结构，基因组图谱信息和文献信息检索
网址：https://www.ncbi.nlm.nih.gov/gquery/

* BLAST -- 序列比对工具

https://blast.ncbi.nlm.nih.gov/Blast.cgi

4.数据下载与上传

数据下载接口：ftp://ftp.ncbi.nlm.nih.gov/

上传的工具有：Sequin，tbl2asn等，链接地址：https://www.ncbi.nlm.nih.gov/guide/data-software/

5.其他合作项目

我们比较常用的就是检索文献，检索序列，比对序列。了解更多内容可以参考官网手册：https://www.ncbi.nlm.nih.gov/books/NBK143764/

**参考资料**

https://baike.baidu.com/item/NCBI/3598184?fr=aladdin

https://www.ncbi.nlm.nih.gov/books/NBK143764/

### GEO

基因表达数据库(GEO,Gene Expression Omnibus database，https://www.ncbi.nlm.nih.gov/geo/ )是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/

首先，我们在GEO的主页（ https://www.ncbi.nlm.nih.gov/geo/ ）可以看到：

    Browse Content
    Repository Browser
    DataSets: 4348
    Series: 87717
    Platforms: 17572
    Samples: 2165066

截止到2017年8月17日，统计信息如上，可以看到数据量已经很恐怖了。


**一、GEO数据库基础知识 **

    GEO Dataset (GDS) 数据集的ID号
    GEO Series (GSE) study的ID号
    GEO Platform (GPL) 芯片平台
    GEO Sample (GSM) 样本ID号

这些数据都可以在ftp里面直接下载。

**二、数据上传**

上传的方式：

1. 网页
2. Excel表格
3. 软件
4. MINiML格式上传

详细上传方法，参见：https://www.ncbi.nlm.nih.gov/geo/info/submission.html

提交Affymetrix芯片数据到GEO数据库
http://www.biotrainee.com/thread-810-1-1.html

**三、数据挖掘**

1. Entrez GEO-DataSets

官网： http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gds

收录整个实验数据，可以通过技术类型，作者，物种和实验变量等信息来进行搜索。一旦相关数据被查询到，可以通过提供上面的小工具做一些分析，比如：热电图分析，表达分析，亚群的影响等

2.Entrez GEO-Profiles

官网：https://www.ncbi.nlm.nih.gov/geoprofiles/

收录单个基因的表达谱数据。可以通过基因名字，GenBank编号，SAGE标签，GEO编号等来进行搜索

3.GEO BLAST

GEO Blast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles
所有的BLAST结果中“E”的标签代表这个数据跟GEO-Profiles表达数据相关。

4. 数据下载

我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！
所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

例如：用GSE75528，则在https://www.ncbi.nlm.nih.gov/geo/  官网上直接搜索GSE75528
或直接输入 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528 修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。
如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

**四、其他**

1. 联系方式

上传数据或查询数据有问题，可以联系 ``geo@ncbi.nlm.nih.gov``

2. 写一个Python脚本下载GEO数据

脚本逻辑很简单：

1. 根据GEO accession找到FTP地址
2. 用wget循环下载FTP地址下的数据

```
#!/bin/python3
import refrom urllib.request
import urlopen
import os
def main(geo):
# find the FTP address from [url=https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GEO]https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GEO[/url]
   response = urlopen("https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc={}".format(geo))
    pattern = re.compile("<a href=\"(.*?)\">\(ftp\)</a>")
    # use wget from shell to download SRA data
   ftp_address = re.search(pattern,response.read().decode('utf-8')).group(1)
    os.system(' wget -nd -r 1 -A *.sra ' + ftp_address)

if __name__ == '__main__':
    from sys import argv
    main(argv[1])
```

3. 数据分析

5行代码搞定GEO学习总结版：http://www.biotrainee.com/thread-612-1-1.html


参考资料：

http://www.bio-info-trainee.com/1835.html

https://www.ncbi.nlm.nih.gov/geo/info/GEOHandoutFinal.pdf

### SRA

跟GEO类似,NCBI的SRA（Sequence ReadArchive，https://www.ncbi.nlm.nih.gov/sra/ ）数据库是专门用于存储二代测序的原始数据，包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。 除了原始序列数据外，SRA现在也存在raw reads在参考基因的aligment information。

该数据库也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含：NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后，数据都是共享的。

**一、数据库结构**

每个数据库都有自己最小的可发表单元。例如：PubMed最小可发表单元是一篇文献，SRA中最小可发表单元是一次实验（标签为：SRX#）。

NCBI中SRA数据结构的层次关系：Studies,Experiments, Samples，Runs:

```
Studies是就实验目标而言的，一个study可能包含多个experiment。
Experiments包含了样本，DNA source，测序平台，数据处理等信息。
一个experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads.
```
SRA数据库用不同的前缀加以区分：ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。

**二、数据上传**

1. 登陆NCBI账号

2. 注册你的项目和生物样本

    注册项目：https://www.ncbi.nlm.nih.gov/bioproject/

    注册样本：https://www.ncbi.nlm.nih.gov/biosample/

3. 上传SRA数据

    上传SRA metadata (关于该项目、实验的等信息)

    上传序列数据

更详细的说明，参见 https://www.ncbi.nlm.nih.gov/sra/docs/submit/

**三、数据下载**

如果要下载每个study对应的runs的所有数据，我们需要下载安装SRA
Toolkit！

链接地址： http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

SRA toolkit常用命令的说明文档见：

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。

这里我们需要使用prefetch命令进行下载

```
$prefetch SRR776503  SRR776505  SRR776506
```
下载完成后，会在你的工作主目录下生成一个ncbi的文件夹。


Sra子文件夹中的.sra文件就是对应的runs文件。
‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前，我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :``$fastq-dump SRR776503.sra``


通过命令行来下载
```
for ((i=204;i<=209;i++)) ;
do
wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;
done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done
```

**四、其他**

1. 上传或下载数据遇到问题，可咨询：`` sra@ncbi.nlm.nih.gov``


**参考资料**

http://www.biotrainee.com/thread-800-1-1.html

https://www.ncbi.nlm.nih.gov/sra/docs/


### dbSNP

单核苷酸多态性（single nucleotide polymorphism，SNP） 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种，占所有已知多态性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库，它是关于单碱基替换以及短插入、删除多态性的资源库。网址：https://www.ncbi.nlm.nih.gov/projects/SNP。

**一、最新版本**

人的dbsnp目前已更新到150版本
150版本基本信息

|Organism| dbSNP Build| Genome Build| Number of  Submissions(ss#'s)|Number of RefSNP Clusters (rs#'s) ( # validated)|Number of (rs#'s) in gene|Number of (ss#'s) with genotype|Number of (ss#'s) with frequency
|-------|-------|-------|-------|-------|-------|-------|-------|
|Homo sapiens|	150|38.3|907,234,193|325,660,549 (107,926,145)|	191,665,918|73,917,935|130,169,906|

下载地址：ftp://ftp.ncbi.nlm.nih.gov/snp/

**二、目录结构**

点击：ftp://ftp.ncbi.nlm.nih.gov/snp/  则进入snp网址。

dbSNP包含了许多目录，其中最有用的是：

```
	organisms/
	database/
	specs/
```

相关详细信息见  ftp://ftp.ncbi.nih.gov/snp/00readme.txt

1. FTP的“specs/”目录包含重要的文件的格式，内容及其基本介绍。

2. FTP的“organisms/”目录包含了一列有SNP数据的生物体目录，其按通用名后接NCBI分类id号来组织的。（要知道，DBsnp不光包含人的数据哦，还有bacteria,tuna等物种的snp信息;人类物种ID是9606，可以看到variation位点信息有基于hg19和hg38的两种下载方式，如果还有其它需求，可以自己用基因组坐标转换工具。）

3. 点击特定的生物体子目录即可访问其中的ftp报表文件，你还可以选择同一个物种的不同版本。比如你点击了human_9606目录，那么你会发现人类数据目录包含以下子目录：ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/


* ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 （.bin）
* ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)
* XML： 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)
* chr_rpts ：包含特定染色体上的RefSNPs 的完整列表(.txt)
* genotype ：以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)
* genome_reports ：包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log）
* ss_fasta ：包含FASTA格式的生物体的所有可用的submitted SNP（ss）序列数据（.fas)
* rs_fasta ：包含FASTA格式的人类所有可用的参考SNP （RS）序列数据（.fas)

**chr_rpts 中的txt文件内容：**

1. RefSNP id (rs#)rs代号

2. mapweight where 匹配个数

  * 1 = Unmapped
  * 2 = Mapped to single position in genome
  * 3 = Mapped to 2 positions on a single chromosome
  * 4 = Mapped to 3-10 positions in genome (possible paralog hits)
  * 5 = Mapped to >10 positions in genome.


3. snp_type where   snp类型

4. Total number of chromosomes hit by this RefSNP during mapping   匹配到的染色体个数

5. Total number of contigs hit by this RefSNP during mapping  匹配到的conting个数

6. Total number of hits to genome by this RefSNP during mapping  匹配到基因组的个数

7. Chromosome for this hit to genome   匹配到的染色体

8. Contig accession for this hit to genome  匹配到conting 序号

9. Position of RefSNP in contig coordinates  在conting中匹配到突变的位置

10. Position of RefSNP in chromosome coordinates (used to order report)

在染色体中匹配到突变的位置

    * x, a single number, indicates a feature at base position x
    * x..y, denotes a feature that spans from x to y inclusive.
    * x^y, denotes a feature that is inserted between bases x and y

11. Genes at this same position on the chromosome    匹配到的基因名字

12. Genotypes available in dbSNP for this RefSNP   基因型是否可知

    * 1 = yes
    * 0 = no

**bed中包含各个染色体上的snp,如下：**

1. chrom:  The name of the chromosome (e.g. chr1, chr2, etc.).

2. chromStart:  The Reference SNP (rs) start position on the chromosome.

Note: The first base in a chromosome is numbered 0.

3. chromEnd:  The rs end position on the chromosome.

Optional Fields:

4. name:  The dbSNP Reference SNP (rs) ID

5. score:  dbSNP does not assign a score value, so this field will always
contain a 0 .

6. strand:  This field defines strand orientation as either + or -.

**VCF**
这个是dbSNP数据库的精髓文件，需要仔细理解，内容节选如下：

```
    #CHROM POS  ID     REF  ALT  QUAL       FILTER      INFO
    1       948136    rs267598747   G      A      .        .         RS=267598747;RSPOS=948136;dbSNPBuildID=137;SSR=0;SAO=3;VP=0x050060000305000002100120;GENEINFO=NOC2L:26155;WGT=1;VC=SNV;PM;REF;SYN;ASP;LSD;CLNALLE=1;CLNHGVS=NC_000001.11:g.948136G>A;CLNSRC=.;CLNORIGIN=2;CLNSRCID=.;CLNSIG=1;CLNDSDB=MedGen:SNOMED_CT;CLNDSDBID=C0025202:2092003;CLNDBN=Malignant_melanoma;CLNREVSTAT=no_assertion_provided;CLNACC=RCV000064926.2
```

它包含的内容：染色体，突变的位置，rs代号，突变过程，info。

其中info包含了突变是否为同义突变？突变实在coding 区还是内含子或UTR？也包含了clinvar数据库的临床意义信息，CLNSIG（0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other）；CLNDSDB（Variant disease database name）；CLNDBN（Variant disease name）还有更多解释，直接看第二章的VCF格式介绍即可。

**三、查询**

 http://www.ncbi.nlm.nih.gov/SNP/
 是NCBI做好的一个网页版查询工具，因为下载一个 variation位点信息记录文件动辄就是十几个G，一般人也不会处理那个文件，不知道从里面应该如何提取需要的信息，这时候学习它的网页版查询工具也挺好的。

在UCSC里面也有对dbsnp数据库的介绍，主要是从数据库设计的角度来理解，里面详细介绍了每一列具体的意义，值得大家仔细学习。

http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp146&hgta_table=snp146&hgta_doSchema=describe+table+schema

http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp141&hgta_table=snp141&hgta_doSchema=describe+table+schema

但是如果真想从数据库语言的角度来理解，需要看它的数据库设计的schema了：很复杂：ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf

 sql的代码也可以下载：
 ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/database/organism_schema/

还根据gene来分genotype：ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/

**四、命名**

关于snp位点的命名其实并不统一，大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBI的rs号。NCBI里对所有提交的snp进行分类考证之后，都会给出一个rs号，也可称作参考snp，并给出snp的具体信息，包括前后序列，位置信息，分布频率等，应该说用这个rs号是比较容易确定搞明白的。 一般写法是这样: dbSNP后面跟featureID。featureID一般是rs/ss后跟7-8位数字， 比如: rs12345678或者dbSNP|rs12345678 。

最后值得一提的是，除了dbsnp对variation规定了ID号，还有几个其它偏门的ID号也可以来描述变异位点的。

	NCBI的dbsnp，以rs和ss开头
	illumina的kgp开头
	ESP的以esp开头
	kgp是illumina中华八芯片的

**五、其他**

有任何疑问可联系：snp-admin@ncbi.nlm.nih.gov

**参考资料：**

http://www.bio-info-trainee.com/1863.html

http://blog.sina.com.cn/s/blog_751bd9440102w6rm.html

https://www.ncbi.nlm.nih.gov/books/NBK21088/

### RefSeq

NCBI RefSeq (Reference Sequence，美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划（RefSeq）将为中心法则中自然存在的分子，从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析，基因表达研究，和多态发现提供一个稳定的参考点。

* 全面的，整合的，无冗余的序列
* 基因组DNA，RNA，蛋白产物
* 是医学、功能、多样性研究的一个基准
* 为基因组注释，基因鉴定和特性描述，突变和多态性分析，表达研究和比较分析提供稳定可靠的参考
* 由NCBI和其合作者维护

|Proteins|Transcripts|Organisms|
|------|------|------|
|88,385,530 |19,634,664|71,356|
-- 最新数据截止2017年7月21日

由于一些序列来自异常连接产生的转录物或由计算机推演产生的不正确内含子-外显子剪切，因此该数据库所收集的参考序列一直在不断地被修改中，尽管如此，NCBI RefSeq  仍是目前最可信赖的人类基因mRNA序列数据库。

**一、命名**

RefSeq一般的命名格式:前缀为两个字母，然后下横线（'_'）。区别于其它的GenBank的命名格式。

	Model RefSeq: XM_ (mRNA), XR_ (non-coding RNA), and XP_ (protein) 这个是首先被提交的
	Known RefSeq: NM_ (mRNA), NR_ (non-coding RNA), or NP_ (protein)  代表被人工检验过

1. 在Comment区域显示来源,说明数据可靠性。（GENOME ANNOTATION，INFERRED，MODEL，
PREDICTED，PROVISIONAL，WGS REVIEWED，VALIDATED）
2. 蛋白序列在DBSOURCE区域标示 ‘REFSEQ’

**blast结果中序列名的含义**

blast一般返回的结果序列开头的格式都如正下面所示：

	gi|4557284|ref|NM_000646.1|[4557284]

格式说明：

1. gi ：”GenBank Identifier的缩写”, 是序列的ID号，标识符。唯一的。
2. 4557284 就是该序列的gi号
3. ref :标示该序列是参考序列。
4. NM_000646.1 该序列的Accession号和版本号


**预测的，临时的，和检查过的RefSeq记录有什么区别？**

RefSeq记录是有三种可以获得的状态：预测的，临时的和检查过的（reviewd）。

1. 检查过的RefSeq记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。

2. 预测的RefSeq记录是来自于那些未知功能的cDNA序列，它们有一个预测的蛋白编码区。

3. 临时的RefSeq记录还没有被检查过。它们是有自动的程序产生的。


**二、如何访问RefSeq**

1. BLAST

http://blast.ncbi.nlm.nih.gov/blast/

将序列跟已经注释的序列比对，寻找序列之间的差异

2. Clinical Remap

www.ncbi.nlm.nih.gov/genome/tools/remap

比较重新组织的序列跟RefSeqGene序列之间的差异

3. Variation Reporter

http://www.ncbi.nlm.nih.gov/variation/tools/reporter/

报到突变跟RefSeq序列的关系

4. 其他会检索RefSeq库的工具

mapview   https://www.ncbi.nlm.nih.gov/mapview/

ENTREZ GENE  https://www.ncbi.nlm.nih.gov/gene

ENTREZ GENOMES DIVISION   https://www.ncbi.nlm.nih.gov/genome

5. 数据下载

下载地址：ftp://ftp.ncbi.nlm.nih.gov/refseq/

其它物种： ftp://ftp.ncbi.nlm.nih.gov/refseq/release/

**三、讨论**

1. RefSeq和genbank的数据有什么区别？

genbank是一个开放的数据库，对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列，另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。
而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复，是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库，一般可信度比较高。

2. 为什么RefSeq记录中的基因符号（symbol）有时和相关的GenBank中的不一样？

RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库，由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号，但有的作者没有，所以有时会产生别名。GenBank与Pubmed相同，通过display可以选择显示格式，常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析，FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征，并以ATGC4种碱基列出核苷酸序列，简单明了。而GenBank格式可显示较完整的基因序列记录，反映核苷酸序列的详细信息


**参考资料**

http://www.ncbi.nlm.nih.gov/refseq/

http://liucheng.name/379/

http://yangl.net/2015/10/08/ncbi_refseq/

http://yangl.net/2015/10/08/ncbi-refseq-name-format/

http://www.biotrainee.com/thread-213-1-1.html

https://www.ncbi.nlm.nih.gov/books/NBK21091/

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/presentations/RefSeqGene.pptx

### Entrez

Entrez (http://www.ncbi.nlm.nih.gov/Entrez) 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez是由NCBI主持的一个数据库检索系统。


**一、Entrez系统数据库**

有将近38个库，这里仅列举了部分，具体请参见（ https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi ）

* Literature
    * Books: 在线生物医学图书
    * PubMed 生物医学文献数据库
* Health
    * OMIM : 人类孟德尔遗传数据库
* Genomes
    * SRA：二代测序的原始数据
    * SNP: 单核苷酸多肽性数据库
    * Taxonomy: GenBank 中的物种分类学数据库
* Genes
    * GEO: 基因表达数据库
* Proteins
    * Structure: 大分子三维结构数据库
* Chemicals
    * BioSystems		跟基因，蛋白，化学分子关联的分子通路

**二、Entrez检索的方法**

1. 检索规则

* 词间默认逻辑关系为AND
* 短语检索加引号“”;
* 使用的逻辑运算符有AND、OR 和NOT, 但必须大写;
* 支持截词检索, 截词符用*表示;
* 定义词条类型：[ ]
* 用：表示起始

例子：

    从左到右的顺序，关联词大写
    promoters OR response elements NOT human AND mammals

    先执行括号里面的逻辑
    g1p3 AND (response element OR promoter)

    horse[Organism]
    neoplasms[MeSH Terms]
    prolactin[Protein Name]
    srcdb_refseq[Properties]
    2010/06[Publication Date]


    110:500[Sequence Length]
    2015/3/1:2016/4/30[Publication Date]

    PubMed: ("horses"[MeSH Terms] OR "horses"[All Fields] OR "horse"
    [All Fields] OR "equidae"[MeSH Terms] OR "equidae"[All Fields])
    AND ("receptors, dopamine d2"[MeSH Terms] OR ("receptors"[All Fields]
     AND "dopamine"[All Fields] AND "d2"[All Fields]) OR "dopamine d2
    receptors"[All Fields] OR ("dopamine"[All Fields] AND "receptor"
    [All Fields] AND "d2"[All Fields]) OR "dopamine receptor d2"[All Fields])

    Protein: ("Equus caballus"[Organism] OR horse[All Fields]) AND (dopamine
    receptor D2[Protein Name] OR (dopamine[All Fields] AND receptor[All Fields]
     AND D2[All Fields])

    模糊匹配
    NC_0000*[Accession] AND Human[Organism]

2.搜索

a. 图形界面的搜索

在主页 https://www.ncbi.nlm.nih.gov/ 选择好数据库，进行检索。

NCBI上所有的资源见：https://www.ncbi.nlm.nih.gov/guide/all/

登陆NCBI以后会保留你的搜索记录。


进入单独的数据库搜索界面，会有advanced选项，更精细的搜索:

    Nucleotide: www.ncbi.nlm.nih.gov/nucleotide
    PubMed: www.ncbi.nlm.nih.gov/pubmed
    Gene: www.ncbi.nlm.nih.gov/gene/advanced

b. 直接输入网址

* 蛋白编号gi4557757，GenPept格式（默认）

    www.ncbi.nlm.nih.gov/protein/4557757

* 核酸编号，NM_000240和NM_000041，GenBank格式

    www.ncbi.nlm.nih.gov/nucleotide/NM_000240,NM_000041&report=genbank

* Gene编号348

    www.ncbi.nlm.nih.gov/gene/348

* Gene编号348，XML格式

    www.ncbi.nlm.nih.gov/gene/348?report=XML

* PubMed ID为9705509和19745054，abstract格式

    www.ncbi.nlm.nih.gov/pubmed/9705509,19745054?report=abstract&format=text

* 在nucleotide中搜索APOE基因，限制一页呈现200个结果

    www.ncbi.nlm.nih.gov/nucleotide/?term=APOE[gene]&dispmax=200

* 在PubMed中搜索Lipman DJ和PMID的格式呈现
    www.ncbi.nlm.nih.gov/pubmed/?term=Lipman+DJ&report=uilist

3. 命令行的搜索

可以通过E-utilities（Entrez Programming Utilities )来进行批量的下载或检索。

感兴趣的可以参考：https://www.ncbi.nlm.nih.gov/books/NBK25501/

bioython也带有相关的工具：http://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr09.html

**参考资料**

《NCBI的Entrez系统检索技巧》

https://www.ncbi.nlm.nih.gov/books/NBK3837/

## Ensembl

[Ensembl](http://asia.ensembl.org/index.html)是由EBI和Sanger共同开发的真核生物基因组注释项目，它侧重于脊椎动物的基因组数据，但也包含了其他生物如线虫，酵母，拟南芥和水稻等，其中，[BioMart](www.biomart.org)是用户提取Ensembl基因组数据的强大工具。

[Ensembl](http://asia.ensembl.org/index.html)项目得到的数据均可以通过其基因组浏览器查看，用于支持脊椎动物基因组的比较基因组，进化，序列突变和转录调控方面研究。Ensembl注释基因，多重序列比对，预测结构和收集疾病数据。Ensembl工具包括：BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。

**一、简介**

Ensembl是由英国Sanger研究所Wellcome基金会（WTSI）和欧洲分子生物学实验室所属分部欧洲生物信息学研究所（EMBI-EBI）共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园（Wellcome Trust Genome Campus）内。

Ensembl计划开始于1999年，人类基因组草图计划完成前的几年。即使在早期阶段，也可明显看出，三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此Ensembl的目标是自动的基因组注释，并把这些注释与其他有用的生物数据整合起来，通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000，是一个真核生物基因组注释项目，其侧重于脊椎动物的基因组数据，但也包含了其他生物，如线虫，酵母，拟南芥和水稻等。近年来，随着时间推移，越来越多的基因组数据已经被添加到了Ensembl，同时Ensembl可用数据的范围也扩展到了比较基因组学、变异，以及调控数据。

目前Ensembl的组员有40到50个人，分成几个小组:

1. Genebuild小组负责不同物种的gene sets创建。他们的结果被保存在核心数据库中，该数据库由Software小组进行运维。Software小组还负责BioMart数据挖掘工具的开发和维护。

2. Compara、Variation以及Regulation小组分别负责比较组学、突变以及调控的数据相关工作。

3. Web小组的工作是确保所有的数据能够在网站页面上，通过清晰和友好用户界面呈现出来。

4. Production小组负责Ensembl数据的常规更行。

5. 最后，Outreach小组负责用户的答疑，以及提供全球范围内使用Ensembl的研讨会议或知识培训。

截止到2017年7月，Ensembl发发布了最新的Ensembl 90版本数据

包含的基因组的物种：http://asia.ensembl.org/info/about/species.html

**基因注释的数据来源**

1. 最新的基因组数据（大部分是动物）
2. UniProt/Swiss-Prot和UniProt/TrEMBL蛋白序列
3. NCBI RefSeq蛋白和核酸序列
4. EMBL cDNA序列

**二、Ensembl可以做什么**

* 查看基因在染色体上的注释
* 查看基因的选择性转录
* 探索某个基因的超过50个物种的同源性和进化树
* 比较物种的全基因组的比对和保守区域
* 查看比对到Ensembl上的芯片序列
* 查看染色体任何一区域的ESTs, clones, mRNA和proteins
* 检查染色体或基因上的SNPs (single nucleotide polymorphisms)
* 查看不同品种（rat,mouse）,种群，品种（狗）的SNPs
* 查看比对到Ensembl基因上的mRNA或蛋白的序列位置
* 上传自己的数据
* 通过BLAST或BLAT来搜索Ensembl基因组中相似的序列
* 通过BioMart导出序列和基因信息
* Variant Effect Predictor

**三、下载**

1. 少量的数据

大多数Ensembl 基因组数据的描述页有"export"功能，可以直接导出这一页的内容。

2. 大的数据集

PERL API http://www.ensembl.org/info/docs/api/index.html

如果不熟悉Perl语言，可以通过Ensembl REST API  http://rest.ensembl.org/

3. 复杂的交叉数据库