basic/index.Rmd at master · leeson89/basic · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
---
title: "生物信息学最佳实践--基础篇"
author: "曾健明"
date: "`r Sys.Date()`"
documentclass: ctexbook
bibliography: [book.bib, packages.bib]
biblio-style: apalike
link-citations: yes
colorlinks: yes
lot: yes
lof: yes
geometry: [b5paper, tmargin=2.5cm, bmargin=2.5cm, lmargin=3.5cm, rmargin=2.5cm]
site: bookdown::bookdown_site
description: "对应着生信技能树论坛的6个基础板块，包括数据产出，数据规范，数据库资源，统计学，计算机以及生物学基础"
github-repo: best-practices-in-bioinformatics/basic
cover-image: cover.png
---

```{r setup, include=FALSE}
options(
  htmltools.dir.version = FALSE, formatR.indent = 2, width = 55, digits = 4
)

# 填上你需要用到的包，如 c('ggplot2', 'dplyr')
lapply(c('Rsamtools'), function(pkg) {
  if (system.file(package = pkg) == '') install.packages(pkg)
})
```

# 前言 {-}

生物信息学的重头戏就是处理各种各样的数据，**第 \@ref(sequencing) 章**介绍了生物信息学主流数据产生方法，包括多种多样的芯片技术，二代测序技术和三代测序技术。

既然数据的来源是如此的丰富多样，而且指定标准的单位比较多，就必然会产生各种各样的数据存储形式来规范化交流，**第 \@ref(filetype) 章**会详细介绍fastq,fasta,sam,bam,vcf,gff,gtf,bed,MAF等，理解了它们才能真正的入门生物信息学。

了解了生物信息学领域的常见数据的产生和数据规范还不够，非常高频的需求是跟已有的各种数据库资源做比较，包括与参考基因组比对，基因结构以及功能的注释等等。**第\@ref(database) 章**会详细介绍生信工作者必须了解的主流数据库，包括NCBI,UCSC,ENSEMBL，以及GO,KEGG,GENCODE,SRTINGDB,还有TCGA,ENCODE,1000GENOMES等等。

做生物信息学数据分析的大多统计学不是太好，而且我们这本书却是基础教程，整个架构就类似于一个网站首页的导航条，所以我们不会太深入讲解统计学原理以及公式。在**第\@ref(statistics) 章**会罗列一些统计学常识以及高频统计学分析方法。当然，也会推荐一些好的学习资源供大家深入学习提高自己。

至于计算机方面，我一直给大家强调一个**去可视化**的精神，虽然表面上看是反人类的操作习惯，但是在数据分析领域非常实用。因为大量的生物信息学软件并没有对桌面操作系统兼容，同时**批量操作**也是常态，这个时候就无法用鼠标傻瓜式的不停点击了。
如果是Windows电脑，那么必须安装,git,notepad++,everything,xshell,winscp这些软件，然后想方设法找到linux服务器连接到终端就可以处理数据啦。如果是MAC的话，直接打开终端即可。要数量在终端操作各种数据就必须学好shell命令。如果是常规的流程化分析，那么shell脚本就足够了。但真正的数据分析过程中经常会遇到个性化的需求，可以选择perl或者python来完成。同时R语言也是必修，因为它涵盖了统计分析，可视化，以及生物信息学bioconductor包。这些全部**第\@ref(computering) 章**会介绍。

最后是生物学基础，在**第\@ref(biology) 章**介绍。因为大部分看这本书的朋友都是生物学背景，所以把这个放在最后。其实主要也是介绍概念，生物学概念太磅礴了，这里只是介绍那些在生物信息学数据处理实战中经常用得着的那些知识点。首当其冲的就是中心法则啦，以及它包含的DNA,RNA,PROTEIN，为了量化这一个法则而扩展出了各种测序组学分析领域。

我用了两个 R 包编译这本书，分别是 **knitr**\index{knitr} [@xie2015] 和 **bookdown**\index{bookdown} [@R-bookdown]。以下是我的 R 进程信息：

```{r}
sessionInfo()
```

## 致谢 {-}

非常感谢[生信菜鸟团](http://www.bio-info-trainee.com/)以及[生信技能树](http://www.biotrainee.com/)对我的帮助。艾玛，要不是他们神一样的队友，我两年前就写完这本书了。


```{block2, type='flushright', html.tag='p'}
曾健明
于 珠海横琴某渔村
```