EasyMicroPlot_tutorial/search_plus_index.json at main · xielab2017/EasyMicroPlot_tutorial · GitHub

1
{"./":{"url":"./","title":"基本介绍","keywords":"","body":"Tutorial for EasyMicroPlot package (v0.5.1.22) =3.6-brightgreen.svg\" referrerpolicy=\"no-referrer\">   Bingdong Liu✉️, Liujing Huang, Zhihong Liu, Xiaohan Pan, Zongbing Cui, Jiyang Pan,Liwei Xie✉️ 2022-08 Background The in-depth understanding of human microbiome has dramatically reshaped our understanding of the relationship between human health and microbiome. A tremendous number of studies have demonstrated that microbiome residing in human body are key contributors in modulating host physiology and metabolism. As the second genome of human being, microbiome is thought to be responsible for the complex pathophysiology nature of various diseases, including neurological, metabolic and immunity disorders, etc. Undeniably, the revolution in DNA sequencing technologies has enabled us to generate massive amounts of microbial data and accelerate the progression of studies and researches to explore the relationship between microbiome and human health. Thus, a growing number of hospitals and medical centers endeavored largely to recruit volunteers and collect bio-samples associated with microbiome. For example, the Human Microbiome Project (HMP) in 2007 expanded our understanding over the microbiome of healthy human body and its physiological roles in human genetic and metabolic landscapes. Furthermore, emerging evidence indicate that microbiome could serve as additional biomarkers as diagnostic and therapeutic targets, for example 30 bacteria taxa identified from a cohort study could distinguish patients with early hepatocellular carcinoma with AUC of 80.64% and Bacteroides vulgatus may alter bile acid metabolism to improve risk of polycystic ovary syndrome. In this regard, there is an urgent necessity to integrate microbial data into clinical practice for evidence-based medicine. With the advancement of NGS and bioinformatics in basic and clinical biomedicine investigation, mathematics and statistical approaches in microbial downstream analysis are able to provide us comprehensive information of the relationship between human microbiome and human health and diseases. For example, diversity metric was introduced from ecology to access microbiota richness, while machine learning technology was popularly used for bacteria biomarkers screening. In order to perform such measurements, clinical researchers usually have to take additional bioinformatics courses, which significantly obstruct the progression and frustrate amateurs without computational and coding experience. First, clinical meta-data generally consists of a wild range of information including but not limited to age, BMI, gender and medical diagnostics, which brings about giant challenges for researchers to estimate and select proper features and determine inclusion criteria. Moreover, in many retrospective studies, due to the complexity of subjects in hospital, clinicians are not able to clearly determine grouping information based on meta data, which challenges clinical researchers, especially various missing value in meta data. Second, a large scale of microbial data always contains various information bias. For example, low abundance and occurrence taxa are often observed in microbial data analysis, which may due to experimental contamination, sequence alignment error, and other factors. Normally, these taxa are filtered in downstream analysis according to study design and researchers’ experience due to the lack of a well-recognized protocol, which may lead to biased and poorly reproducible results. Especially, due to poor coding abilities, clinical researchers may find unexpected difficulties without knowing in this filter process. Third, although many existing softwares and R packages have been developed and integrated multiple method from various field, none of them are specially designed for clinical studies and couldn’t address problems, such as data missing, data filtering and sample regrouping easily and efficiently. Moreover, due to large and comprehensive function and workflow, clinical researchers may spend additional time to learn and modify clinical data. The manual step to select the most appropriate parameters is still puzzling and tedious, and inconsistent application of such tools may reduce the reproducibility of the results. Thus, an efficient and convenient tool to meet the fast-developed clinical microbial studies is necessary. Here, EasyMicroPlot incorporates packages used in basic and clinical microbial studies for data analysis and visualization. In this package, regular downstream analysis covering core tasks of metagenomic analysis could be performed efficiently and conveniently in this field. Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:14:32 "},"MD/01.R和Rstudio.html":{"url":"MD/01.R和Rstudio.html","title":"Chapter 1 R和Rstudio","keywords":"","body":"1. R和Rstudio 本章节主要为R和Rstudio的介绍和基本安装方式。 1.1 R的基本介绍 R语言的特点： 自由软件，免费、开放源代码，支持各个主要计算机系统； 完整的程序设计语言，基于函数和对象，可以自定义函数，调入C、C++、Fortran编译的代码； 具有完善的数据类型，如向量、矩阵、因子、数据集、一般对象等，支持缺失值; 强调交互式数据分析，支持复杂算法描述，图形功能强; 实现了经典的、现代的统计方法，如参数和非参数假设检验、线性回归、广义线性回归、非线性回归、可加模型、树回归、混合模型、方差分析、判别、聚类、时间序列分析等。 统计科研工作者广泛使用R进行计算和发表算法。 1.2 R的安装方式 R的官方网站为https://www.r-project.org/ 官方镜像网站为https://cran.r-project.org/mirrors.html 国内常用清华镜像为https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 下载官方的R软件后按提示安装，安装后获得一个桌面快捷方式，即可在视窗界面中运行。但是一般情况下，我们可以选择在Rstudio中运行R，详情如下。 1.3 Rstudio的基本介绍 RStudio软件是R软件的应用界面与增强系统， 可以在其中编辑、运行R的程序文件， 可以跟踪运行， 还可以构造文字、R结果图表融合在一起的研究报告、论文、图书、网站等。界面一般分为四个窗格， 其中编辑窗口与控制台（Console）是最重要的两个窗格。 编辑窗格用来查看和编辑程序、文本型的数据文件、程序与文字融合在一起的Rmd文件等。 控制台与基本R软件的命令行窗口基本相同， 功能有所增强。在编辑窗口中可以用操作系统中常用的编辑方法对源文件进行编辑， 如复制、粘贴、查找、替换， 还支持基于正则表达式的查找替换。 其它的一些重要窗格包括： Files: 列出当前项目的目录（文件夹）内容。 其中以.R或者.r为扩展名的是R源程序文件， 单击某一源程序文件就可以在编辑窗格中打开该文件； Plots: 如果程序中有绘图结果， 将会显示在这个窗格。 因为绘图需要足够的空间， 所以当屏幕分辨率过低或者Plots窗格太小的时候， 可以点击“Zoom”图标将图形显示在一个单独的窗口中， 或者将图形窗口作为唯一窗格显示。 如何放大窗格见下面的使用技巧； Help: R软件的文档与RStudio的文档都在这里； Environment: 已经有定义的变量、函数都显示在这里； History: 以前运行过的命令都显示在这里。 不限于本次RStdudio运行期间， 也包括以前使用RStudio时运行过的命令； Packages: 显示已安装的R扩展包及其文档； Viewer, Connection, Build, Git等窗格； 1.4 Rstudio的安装方式 RStudio的官方网站为https://www.rstudio.com/ 下载地址为https://www.rstudio.com/products/rstudio/download/#download 对普通研究者，只需要选择自己对应操作系统免费版本即可。安装后，一般情况下RStudio会自动寻找系统内的R程序。如果在系统内存在多个R版本，可以在Tools选项下Global Options中选择所需R的安装目录即可。 Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-02 13:29:11 "},"MD/02.基本介绍.html":{"url":"MD/02.基本介绍.html","title":"Chapter 2 EMP基本介绍","keywords":"","body":"2. EMP基本介绍 EasyMicroPlot致力于帮助低代码经验的微生物数据分析研究者，完成下游注释中一系列主流微生物常规分析流程。 2.1 EMP主要架构 2.2 安装方式 install.packages(\"devtools\") library(devtools) install_github(\"xielab2017/EasyMicroPlot\",subdir='Version_0.5.0') 2.3 依赖包列表 vegan (>= 2.5-6) ape (>= 5.3) grid (>= 3.5.1) plyr (>= 1.8.6) dplyr (>= 1.0.2) multcomp (>= 1.4-14) patchwork (>= 1.0.1) fs (>= 1.5.0) stringr (>= 1.4.0) htmlwidgets (>= 1.5.3) ggiraph (>= 0.7.0) randomForest(>= 4.6-14) ggpubr (>= 0.4.0) ggplot2 purrr (>= 0.3.4) reshape2 (>= 1.4.4) psych (>= 2.0.12) VIM (>= 5.1.1) table1 (>= 1.4.2) pROC (>= 1.17.0.1) corrplot (>= 0.84) igraph (>= 1.2.6) filesstrings (>= 3.2.1) grid (>= 3.6.3) ggrepel (>= 0.9.1) RColorBrewer(>= 1.1-2) scales(>= 1.1.1) ggpmisc(>= 0.4.5) tidyr(>= 1.1.4) tibble(>= 3.1.6) networkD3(>= 0.4) 2.4 引用方式 Bingdong Liu, Liujing Huang, Zhihong Liu, Xiaohan Pan, Zongbing Cui, Jiyang Pan*,Liwei Xie*. EasyMicroPlot : An Efficient and Convenient R Package in Microbiome Downstream Analysis and Visualization for Clinical Study. Frontiers in Genetics. doi: 10.3389/fgene.2021.803627 2.5 基于EMP包已经发表的文章列表 (2021) Susu Zhang #, Peili Wu #, Ye Tian#, Bingdong Liu#, Liujing Huang , Zhihong Liu, Nie Lin , Ningning Xu, Yuting Ruan, Zhen Zhang, Ming Wang, Zongbing Cui, HongWei Zhou, Liwei Xie, Hong Chen, Jia SunGut Microbiota Serves a Predictable Outcome of Short-Term Low-Carbohydrate Diet (LCD) Intervention for Patients with Obesity. Microbiol. Spectr. (2021) Liujing Huang#, Bingdong Liu#, Zhihong Liu, Wanqin Feng, Minjuan Liu, Yifeng Wang, Dongxian Peng, Xiafei Fu, Honglei Zhu, Zongbin Cui, Liwei Xie ,Ying Ma Gut Microbiota Exceeds Cervical Microbiota for Early Diagnosis of Endometriosis. Frontiers Cellular and Infection Microbiology (2022) Limin Xu, Bingdong Liu, Liujing Huang, Ze Li, Yanbo Cheng, Ye Tian, Guihua Pan, Huijun Li ,Yinlan Xu, Weidong Wu, Zongbin Cui, Liwei Xie Probiotic consortia and their metabolites ameliorate the symptoms of inflammatory bowel diseases in a colitis mouse model. Microbiol. Spectr. Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:26:45 "},"MD/03.数据的基本格式.html":{"url":"MD/03.数据的基本格式.html","title":"Chapter 3 数据的基本格式","keywords":"","body":"3. 数据的基本格式 EMP包下游分析计算主要基于三类数据，微生物数据、分组数据和表型数据。 3.1 微生物数据data格式要求 微生物数据主要包含项目各个样本的微生物注释及丰度组成，可以由Qiime1/2、Usearch等微生物上游分析工具生成。输入数据表格行或者列均可为微生物注释，数据内容为微生物相对丰度或者绝对丰度（EMP计算过程中将自动将绝对丰度转换为相对丰度）。微生物注释不同级别，应用分号隔开;。 注意：EMP可以自动判断微生物数据data的物种注释级别，因此用户无需刻意手动修改数据文件命名，但是需要统一文件格式为csv或者txt。 格式一 SampeID A01 A02 A03 A04 A05 k__Bacteria;p__Actinobacteria 0.03121966 0.00920281 0.01498855 0.02058013 0.00489263 k__Bacteria;p__Bacteroidetes 0.56583699 0.35700695 0.3541335 0.47908981 0.37075292 k__Bacteria;p__Cyanobacteria 0.00031064 0.00023298 0.0003883 0.0003883 0.0003883 k__Bacteria;p__Deferribacteres 0.00015532 0.00481497 0.01184328 0.00298994 0.00372772 格式二 SampleID A01 A02 A03 A04 A05 k__Bacteria;p__Actinobacteria 804 237 386 530 126 k__Bacteria;p__Bacteroidetes 14572 9194 9120 12338 9548 k__Bacteria;p__Cyanobacteria 8 6 10 10 10 k__Bacteria;p__Deferribacteres 4 124 305 77 96 格式三 SampeID k__Bacteria;p__Actinobacteria k__Bacteria;p__Bacteroidetes k__Bacteria;p__Cyanobacteria A01 0.03121966 0.00920281 0.01498855 A02 0.56583699 0.35700695 0.3541335 A03 0.00031064 0.00023298 0.0003883 格式四 SampeID k__Bacteria;p__Actinobacteria k__Bacteria;p__Bacteroidetes k__Bacteria;p__Cyanobacteria A01 804 14572 8 A02 237 9194 6 A03 386 9120 10 3.2 表型数据meta格式要求 表型meta数据应包含项目中样本的表型相关数据，数据内容应为连续数值变量或者等级数值变量。 注意：由于微生物实验项目中，表型数据meta主要由患者临床数据、代谢质谱数据、转录组数据等组成，表型数据样本可能会少于微生物数据样本。因此EMP包在计算中将会采用样本交集的形式进行下游计算，表型数据meta的样本无须与微生物数据data的样本完全一致。 SampleID Body_Weight Hemoglobin Fecal_Iron Liver_iron A01 27.00 15.0 7.9391279 34.410363 A02 29.40 14.8 8.2228562 36.203700 A03 28.50 13.5 10.8827860 36.427868 ...... ...... ...... ...... ...... 3.3 分组数据mapping格式要求 mapping文件主要记录了样本及分组情况，共包含两列信息。第一列为SampleID样本信息，需与微生物注释表中的样本名称完全一致，第二列Group为样本所对应的分组情况。 注意：EMP包在计算过程中将会根据mapping文件自动提取样本与分组信息，因此mapping文件内样本无须与微生物数据data完全一致。例如，当项目中需要剔除部分样本或者进行亚组分析时，只需要修改mapping文件或者创建新的mapping文件即可，无须修改微生物数据和表型数据内容。 SampleID Group A01 CT A02 CT ... ... B01 ID B02 ID 3.4 示例数据的内置与下载 在本教程中，EMB工具包采用了一篇SCI文章的真实数据进行示例分析。该文章利用16s技术观察分析了低铁饲料组，正常饲料组和高铁饲料组下小鼠肠道菌群的变化。(DOI: 10.1096/fj.201901635RR) EMB包内置了教程中所需要的示例数据，可以在分析中直接调用。 # 调取EMP包内置示例数据 library(EasyMicroPlot) # 加载包 EMP$micro # 这里以list形式储存了27个小鼠粪便样本门纲目科属种级别微生物相对丰度的数据 EMP$mapping # 这里存储了27个小鼠粪便样本的分组信息 EMP$iron # 这里存储了27个小鼠表型数据，包含基本生理信息和不同组织的铁含量数据 EMP$meta # 这里存储了广东省微生物计划618个受试者基本信息、饮食资料及排便情况的数据 EMP$Sankey_data # 这里用list形式存储了为Charpter 16 多层相关性Sankey图的示例的三层数据 该教程也提供了原始数据文档，可以利用EMP包读取功能进行示例分析。 下载地址：Github地址 Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:06:17 "},"MD/04.表型数据分析.html":{"url":"MD/04.表型数据分析.html","title":"Chapter 4 表型数据分析","keywords":"","body":"4. 表型数据分析（代码优化中） 在临床微生物数据分析中，样本表型数据主要涵盖了患者个人信息、检验结果和诊断结果等等。然而受限于患者的病情情况和信息记录的难度，在大型临床回顾性研究种研究者往往很难快速对这些复杂数据进行汇总统计。而且，由于表型数据中很多特征与微生物存在的着密切的关联，因此除了考虑疾病分型外，研究者也需要对这些表型数据进行聚类分组，例如饮食数据。因此，本章节提供了meta_summary模块和meta_regroup模块用于辅助临床研究者进行快速的表型数据统计和样本的重分组。 4.1 meta_summary模块 meta_summary模块可以对统计表型数据的进行基本的统计分析、缺失值可视化、三线表绘制。 4.1.1参数介绍 data 样本表型数据，格式需要符合3.2格式要求。 estimate_group 设定三线表绘制时的主要分组。 missing_plot 设定是否显示缺失值评估图。 keep_col 设定不纳入统计的列，主要用于指定样本名称。【默认：SampleID】 width 输出缺失值图形的宽度。 height 输出缺失值图形的高度。 4.1.2 基本用法 代码示例： library(EasyMicroPlot) # 加载表型数据，格式需要满足格式需要符合3.2格式要求 data(EMP) meta_data 基本计算结果： # 这里仅选择前六列作为展示 meta_re$summary_info[,1:6] Aginomoto Animal_oil Plant_oil Salt Sauce Soy_sauce Min. : 0.00 Min. : 0.00 Min. : 0 Min. : 0.0 Min. : 0.00 Min. : 0.0 1st Qu.: 0.00 1st Qu.: 0.00 1st Qu.: 680 1st Qu.: 67.0 1st Qu.: 0.00 1st Qu.: 83.0 Median : 0.00 Median : 0.00 Median :1000 Median :100.0 Median : 0.00 Median : 150.0 Mean : 18.89 Mean : 24.92 Mean :1209 Mean :115.2 Mean : 25.42 Mean : 217.5 3rd Qu.: 25.00 3rd Qu.: 0.00 3rd Qu.:1500 3rd Qu.:133.0 3rd Qu.: 25.00 3rd Qu.: 250.0 Max. :200.00 Max. :1250.00 Max. :5333 Max. :400.0 Max. :500.00 Max. :6667.0 NA's :17 NA's :14 NA's :23 NA's :28 NA's :11 NA's :21 # 缺失值基本统计 meta_re$missing_plot Missings in variables: Variable Count Aginomoto 17 Animal_oil 14 Plant_oil 23 Salt 28 Sauce 11 Soy_sauce 21 Sugar 20 Diarrhea 4 Astriction 4 Antibiotics 6 Synbiotics 7 图形结果展示： # 缺失值展示 meta_re # 三线表 meta_re$summary_table 4.2 meta_regroup模块 4.2.1参数介绍 data 样本表型数据，格式需要符合3.2格式要求。 new_col_id 重分组后的新名称。 col_str 等级变量的列名称。 col_num 连续变量的列名称。 keep_col 设定不纳入统计的列，主要用于指定样本名称。【默认：SampleID】 regroup 重新命名新分组。 clust_min 最小评估分组。 clust_max 最大评估分组。 clust_method 设定分组聚类方法。（ward.D, ward.D2,single,complete,average,mcquitty,median,centroid,kmeans）【默认：kmeans】 clust_dis 设定聚类距离计算方法。（euclidean,maximum,manhattan,canberra,binary,minkowski）【默认：euclidean】 silent 设定计算中是否显示输出信息。【默认:False】 4.2.2 基本用法 代码示例： Tips1：本次示例采用了广东省微生物计划的深圳南山区部分代谢综合征、饮食和排便情况数据。meta_regroup函数将首先根据Nbclust包的26种指标对饮食情况的连续变量数据进行投票判断，再结合代谢综合征的情况，重新分组394名受试者数据。 # 示例采用了EMP内置的数据，用户可选择自己的数据 library(EasyMicroPlot) # 加载包 data(EMP) # 数据清洗 meta_data 基本统计结果： # 重分组结果信息 meta_regroup *********************************************************************** *** : The best number of clusters for Continuous variable data is 2 *** : The best number of clusters for Categorical variable data is 2 ***** Conclusion ***** ***: According to the majority rule, the best number of clusters is 4 *********************************************************************** # 重分组中连续变量和等级变量的分组情况 meta_regroup$regroup_info $data_num_clust_best [1] \"2\" $data_str_clust_best [1] 2 $data_clust_best [1] 4 # 重分组后样本，这里仅展示前10行 re$regroup_data[1:10,] Tips2：Group列为直接将原有组名进行拼接后得到的新组名，regroup列为根据Group重新设置的新组名。 SampleID Group regroup 1540 G440305004 Control_1 Group_C 1541 G440305006 Control_2 Group_D 1542 G440305007 Cases_2 Group_B 1544 G440305009 Control_1 Group_C 1545 G440305010 Control_2 Group_D 1546 G440305011 Control_2 Group_D 1548 G440305013 Control_1 Group_C 1553 G440305018 Control_2 Group_D 1555 G440305020 Control_2 Group_D 1556 G440305021 Control_2 Group_D 图形结果展示： # 26种算法对患者饮食状况连续变量的投票分组 meta_regroup$regroup_info$data_num_clust_plot Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:34:45 "},"MD/05.便捷分析模式.html":{"url":"MD/05.便捷分析模式.html","title":"Chapter 5 便捷分析模式","keywords":"","body":"5. 便捷分析模式  在微生物下游分析研究中，研究者第一步是对微生物数据有一个初步的评估。本章节提供了EMP_MICRO模块,集成了常规微生物分析的核心物种过滤、alpha多样性、beta多样性、共发生网络分析、结构图分析、随机森林分析等模块，便于快速帮助研究者快速批量的完成微生物各个注释级别的初步评估性分析。 5.1 EMP_MICRO模块  EMP_MICRO模块可以将自动识别输入微生物数据的物种注释级别，并根据物种相对丰度和物种组内出现率筛选出核心微生物物，支持dataframe、list和file三种读取方式。 5.1.1参数介绍 data 输入微生物数据支持dataframe和list两种格式,dataframe应符合3.1 中的格式要求，也可将不同级别微生物数据dataframe直接合并为list输入。 dir 指定微生物数据文件存放的地址，文件可以以csv和txt格式保存，格式应符合3.1 中的格式要求。 design 指定样本分组信息mapping文件,支持直接输入dataframe或者指定文件地址。 min_relative 指定最小的微生物物种相对丰度数值，低于此阈值的相对丰度将会被过滤为0。【默认：0.001】 min_ratio 指定最小的微生物物种在至少一个分组内的出现率，低于此阈值的物种将会被过滤。【默认：0.7】 group_level 指定图形中分组显示的排列顺序。 method 除beta多样性分析中的统计方法，包含T检验（ttest)和onewayANOVA及多重检验(HSD, LSD,duncan,scheffe,REGW,SNK)。 beta_method 仅用于设定beta多样性分析中的统计方法，仅支持onewayANOVA及多重检验(HSD, LSD,duncan,scheffe,REGW,SNK)。 distance 设定beta多样性计算过程中采用的距离运算。(bray,manhattan, euclidean, canberra, clark, kulczynski, jaccard, gower, altGower, morisita, horn, mountford, raup, binomial, chao, cao or mahalanobis)。 top_num 设定物种结构图中展示微生物物种的最大数量，其余物种将会合并如Others。 tax_level 调整出图后物种的排序。 cooc_r 设定节点之间相关性计算的p值阈值，高于此阈值的相关性结果将会被过滤。【默认：0.05】 cooc_p 设定节点之间相关性计算的相关系数绝对值的阈值，低于此阈值的相关性结果将会被过滤。【默认：0.3】 vertex.size 设定共发生网络中节点的大小。 vertex.label.cex 设定共发生网络中节点注释文字大小。 edge.width 设定共发生网络中边的宽度。【默认：2】 set_color_level 设定共发生网络中节点按照微生物注释级别进行染色。【默认：phylum】 edge_color_positive 设定共发生网络中正相关边的颜色。 edge_color_negitive 设定共发生网络中负相关边的颜色。 ntree 设定随机森林模型中建树的数目。 RFCV_estimate 设定随机森林模型中输入数据的微生物级别。【默认：species】 kfold 设定随机森林模型中交叉验证的数目。 rep 设定随机森林模型中在不同随机数下尝试的次数。 x_break 设定随机森林模型曲线图横轴的分割显示值。 RF_importance 设定随机森林模型中用于评估重要性的方式(MeanDecreaseAccuracy, MeanDecreaseGini)，对应值为1和2。【默认：1】 step 设定随机森林模型中剔除特征的步伐数目。【默认：1】 pattern 指定在文件夹内微生物数据文件名的特征信息，与dir配合使用 width 设定输出图的宽。 height 设定输出图的高。 html_out 设定是否输出交互式图形。 output_folder 设定结果输出文件名。 5.1.2 基本用法 数据准备： 首先利用R设置好工作区间，创建两个文件目录16s_data和mapping，前者用于存放微生物数据，后者可以存放不同的mapping文件。 代码示例： Tips 1：本模块仅为便捷方式的基本使用技巧，主要用于快速对微生物数据进行批量绘制常规分析，初步筛选可能存在的阳性的结果。 Tips 2：本模块是基于子模块的合并流程，如需进一步发掘分析或者调整参数，建议在后续子模块（06-12章节）针对性分析。 Tips 3: 在快速筛选调整亚组或者剔除样本时，只需要调整mapping文件，无须修改微生物数据，运算会自动筛选样本。 Tips 4：本模块在进行多个微生物级别运算时，为避免由于部分级别过滤为空集导致整个流程中断，建议选择较宽松的过滤条件或者只输入感兴趣的微生物级别。 Tips 5：当流程因为部分模块warning而中断时，建议首先在子模块中先进行运算，排除bug信息。 Library(EasyMciroPlot) # 加载包 # 简要模式 EMP_MICRO(dir = '16s_data/',design = 'mapping/mapping.txt', min_relative = 0.001,min_ratio = 0.7,pattern = 'txt') 输出结果说明： Result # 输出结果文件名 │ ├── alpha_result # 微生物各级别alpha多样性结果汇总 │ ├── Post-Hoc # onewayANOVA事后多重检验详细结果 │ ├── data # alpha多样性值 │ ├── html # alpha多样性图形结果 │ └── pic # alpha多样性可交互式图形结果 ├── beta_result # beta多样性结果汇总 │ ├── bray_0.001_0.7 # 基于Bray Curtis距离计算的结果 │ └── jaccard_0.001_0.7# 基于Binary Jaccard距离计算的结果 ├── cooc_result # 微生物各级别共发生网络结果汇总 │ ├── cooc_info # 微生物各级别各组节点相关性系数及检验结果 │ ├── net_profile # 微生物各级别共发生网络基本属性结果 │ ├── network # 微生物各级别各组共发生网络基本图形结果 │ └── vertex # 微生物各级别各组共发生网络节点重要性评估结果 ├── core_data # 微生物各级别核心微生物结果汇总 │ ├── class_0.001_70%.txt │ ├── class_0.001_70%_info.txt │ ├── family_0.001_70%.txt │ ├── family_0.001_70%_info.txt │ ├── genus_0.001_70%.txt │ ├── genus_0.001_70%_info.txt │ ├── order_0.001_70%.txt │ ├── order_0.001_70%_info.txt │ ├── phylum_0.001_70%.txt │ ├── phylum_0.001_70%_info.txt │ ├── species_0.001_70%.txt │ └── species_0.001_70%_info.txt └── structure_result #微生物各级别物种结构结果汇总 │ ├── pic # 基本结构图 │ ├── taxonomy # 物种详细注释图 │ └── top_abundance # Top物种结果 ├── RFCV_result #微生物种级别随机森林模型结果汇总，如需采用其他级别，请修改RFCV_estimate参数 │ ├── Imprortance # 不同随机数种子下随机森林物种重要性评估图 │ ├── model # 随机森林交叉验证错误率曲线图 └── └── taxonomy # 随机森林交叉验证筛选物种统计及可视化结果图 5.1.3 批量筛选用法 Tips 6：由于所有的分组和样本筛选仅依靠mapping文件，因此用户可以设定各种不同的mapping文件，并利用output_folder参数批量的产生不同结果文件夹。 # 批量执行多个分组 mapping_files Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-22 18:18:07 "},"MD/06.核心过滤模块.html":{"url":"MD/06.核心过滤模块.html","title":"Chapter 6 核心微生物","keywords":"","body":"6. 核心过滤模块  在微生物注释分析结果中，可以发现存在相当多的”稀有物种“。这些”稀有物种“具备相对丰度或者在样本内出现率较低的特点，对于筛选组间微生物差异性造成了极强的干扰。特别是筛选关键微生物的分析中，机器学习算法，例如随机森林、LEFse，很容易将这些个别组内存在的稀有物种，识别为组间的差异物种，因此有必要在正式分析前将这些稀有物种根据统一的标准进行过滤。本章节的data_filter模块，根据物种相对丰度和物种组内出现率对物种进行过滤，并筛选出不同注释级别的核心微生物。过滤的基本流程为：首先将在不同注释级别中将全部出现的物种进行编号，再根据设定的最小物种相对丰度使低于此阈值的丰度转换为0，最后将要求核心物种必须满足在至少一个分组内物种组内出现率高于预先设定的阈值，其余物种则判断为”稀有物种“进行过滤。 6.1 data_filter模块  data_filter模块可以将自动识别输入微生物数据的物种注释级别，并根据物种相对丰度和物种组内出现率筛选出核心微生物物，支持dataframe、list和file三种读取方式。 6.1.1参数介绍 data 输入微生物数据支持dataframe和list两种格式,dataframe应符合3.1 中的格式要求，也可将不同级别微生物数据dataframe直接合并为list输入。 dir: 指定微生物数据文件存放的地址，文件可以以csv和txt格式保存，格式应符合3.1 中的格式要求。 min_relative： 指定最小的微生物物种相对丰度数值，低于此阈值的相对丰度将会被过滤为0。 min_ratio： 指定最小的微生物物种在至少一个分组内的出现率，低于此阈值的物种将会被过滤。 design： 指定样本分组信息mapping文件,支持直接输入dataframe或者指定文件地址。 adjust： 在min_relative和min_ratio过滤下，部分样品的微生物物种可能过滤为空，打开此选项可以将空样本赋予一个特殊特征在beta多样性中以区分彼此。【默认：False】 pattern： 指定在文件夹内微生物数据文件名的特征信息，与dir配合使用 output： 指定是否将核心微生物计算结果输出。【默认：False】 change： Qiime2产生物种注释结果中有时出现完全为空的情况（d__Bacteria;__;__)，打开此选项后可以将其修正为（d__Bacteria;Other;Other)。【默认：False】 change_name： 指定空注释的修改名，与change配合使用。【默认：Other】 6.1.2 使用范例 数据基本读取方式 代码示例一 ： 通过文件Files读取 将符合3.1和3.1.3要求的微生物数据及分组信息文件放置在工作目录中 Tips1: 可以根据实验分析情况设置不同分组或者样本数量的mapping文件，EMP包将自动根据mapping文件从微生物数据中提取样本，无需手动调整。 Tips2:可以利用 pattern参数选择自己想要的微生物数据。例如当示例数据是按照L2-L7对微生物文件进行命名，如只需要分析种级别数据，则可以指定pattern='L7'，这样函数将只会读取种级别数据进行分析。 Tips2:如果不需要对微生物数据进行过滤，可以设置min_relative = 0和min_ratio = 0 Library(EasyMciroPlot) # 加载包 core_data 代码示例二 ：通过数据框读取 Library(EasyMciroPlot) raw_species 代码示例三 ：通过列表读取 library(EasyMicroPlot) file1 数据结果展示 # core_data$filter_data 过滤后样本各个级别的核心微生物结果 core_phylum core_phylum_ID Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-01 15:49:49 "},"MD/07.Alpha多样性.html":{"url":"MD/07.Alpha多样性.html","title":"Chapter 7 Alpha多样性","keywords":"","body":"7. Alpha多样性  α多样性是微生物下游分析中常见的分析方法，主要用于评估物种的丰富度。本章节alpha_plot模块基于相对丰度数据，内置了4种常见的α多样性的方法，并提供了常规的统计分析和可视化功能。 7.1 alpha_plot模块  alpha_plot模块是基于4.1的data_filter函数进行alpha多样性计算，即可衔接data_filter函数计算结果，也可直接仿照data_filter函数语法，读取dataframe、list和file三种格式。 7.1.1 参数介绍 data 输入微生物数据支持dataframe和list两种格式,dataframe应符合3.1 中的格式要求，也可将不同级别微生物数据dataframe直接合并为list输入。 dir: 指定微生物数据文件存放的地址，文件可以以csv和txt格式保存，格式应符合3.1 中的格式要求。 min_relative： 指定最小的微生物物种相对丰度数值，低于此阈值的相对丰度将会被过滤为0。 min_ratio： 指定最小的微生物物种在至少一个分组内的出现率，低于此阈值的物种将会被过滤。 design： 指定样本分组信息mapping文件,支持直接输入dataframe或者指定文件地址。 adjust： 在min_relative和min_ratio过滤下，部分样品的微生物物种可能过滤为空，打开此选项可以将空样本赋予一个特殊特征在beta多样性中以区分彼此。【默认：False】 method: 此参数将决定多样性差异统计的方法，主要包含T检验（ttest)和onewayANOVA及多重检验(HSD, LSD,duncan,scheffe,REGW,SNK) pattern： 指定在文件夹内微生物数据文件名的特征信息，与dir配合使用 output： 指定是否将核心微生物计算结果输出。【默认：False】 html_out: 指定是在结果中输出html结果。【默认：False】 change： Qiime2产生物种注释结果中有时出现完全为空的情况（d__Bacteria;__;__)，打开此选项后可以将其修正为（d__Bacteria;Other;Other)。【默认：False】 change_name： 指定空注释的修改名，与change配合使用。【默认：Other】 row_panel: 指定拼图结果输出每行的图形数目。 seed： 指定随机数种子，便于确定图形中散点的随机分布。【默认：123】 group_level: 指定图形中分组显示的排列顺序。 palette: 指定绘图色板。 mytheme: 支持ggplot2主题代码，便于图形美化。 7.1.2 使用范例 代码示例： Tips 1：alpha_plot模块与data_filter模块一样支持dataframe、list和file三种格式。 Tips 2：以下均在种级别进行演示，实际使用用户可以自行查看其他级别结果。 Tips 3：method参数可以指定成LSD等方差分析的统计方式。 libary(EasyMciroPlot) # 加载包 alpha_re 基本计算结果： # 种级别各个样本核心微生物alpha多样性结果 alpha_re$result$alpha_result$species Pielou Shannon Simpson InvSimpson A01 0.6948243 2.429458 0.8176936 7.485272 A02 0.7426636 2.596729 0.8862084 8.787994 A03 0.7076148 2.452406 0.8545843 6.876838 A04 0.7631435 2.691119 0.8724602 7.840688 A05 0.7837826 2.740502 0.9059144 10.628623 A06 0.7209308 2.520740 0.8454894 6.472048 A07 0.6536974 2.285658 0.8120621 7.320907 A08 0.6371104 2.227661 0.7835866 4.620785 A09 0.5946119 2.096816 0.7714934 4.376242 B10 0.7829667 2.713556 0.9069157 10.742948 B11 0.6321257 2.190781 0.7945742 4.867937 B12 0.6694254 2.360635 0.8143036 7.385135 B13 0.7716491 2.649833 0.8867659 8.831258 B14 0.6920953 2.440578 0.8603441 7.160455 B15 0.7316281 2.601193 0.8699751 7.690835 B16 0.6226102 2.138035 0.7871505 4.698154 B17 0.7231726 2.506325 0.8731743 7.884838 B18 0.6677607 2.354765 0.8126828 7.338539 C19 0.7366446 2.619028 0.8544939 6.872564 C20 0.6591650 2.263564 0.7867330 4.688959 C21 0.6828007 2.407802 0.8427408 6.358927 C22 0.6930151 2.483433 0.8253161 7.724627 C23 0.6610389 2.368845 0.8191883 7.530616 C24 0.7519618 2.651688 0.8923070 9.285650 C25 0.7335167 2.564747 0.8895906 9.057199 C26 0.7492045 2.641965 0.8972072 9.728307 C27 0.7194006 2.557720 0.8769097 8.124116 基本统计结果（仅适用于方差分析）： # 函数提供了各个微生物级别的onewayANOVA的详细记录 alpha_re$plot$species$test$ANOVA $Pielou Df Sum Sq Mean Sq F value Pr(>F) Group 2 0.00061 0.0003063 0.109 0.897 Residuals 24 0.06740 0.0028081 $Shannon Df Sum Sq Mean Sq F value Pr(>F) Group 2 0.0237 0.01183 0.341 0.715 Residuals 24 0.8331 0.03471 $Simpson Df Sum Sq Mean Sq F value Pr(>F) Group 2 0.00102 0.0005108 0.28 0.758 Residuals 24 0.04384 0.0018265 $InvSimpson Df Sum Sq Mean Sq F value Pr(>F) Group 2 1.37 0.687 0.173 0.842 Residuals 24 97.21 3.967 # 函数提供了各个微生物级别的事后检验的详细记录 alpha_re$plot$species$test$comparison $Pielou difference pvalue signif. LCL UCL CT - ID 0.0005494902 0.9826 -0.05100785 0.05210683 CT - IO -0.0098187401 0.6977 -0.06137608 0.04173860 ID - IO -0.0103682303 0.6818 -0.06192557 0.04118911 $Shannon difference pvalue signif. LCL UCL CT - ID 0.009487593 0.9149 -0.1717834 0.1907586 CT - IO -0.057522482 0.5187 -0.2387935 0.1237486 ID - IO -0.067010075 0.4529 -0.2482811 0.1142610 $Simpson difference pvalue signif. LCL UCL CT - ID -0.006265957 0.7585 -0.04784704 0.03531512 CT - IO -0.014999340 0.4638 -0.05658042 0.02658174 ID - IO -0.008733383 0.6685 -0.05031446 0.03284770 $InvSimpson difference pvalue signif. LCL UCL CT - ID -0.2434114 0.7977 -2.181290 1.694467 CT - IO -0.5512853 0.5626 -2.489164 1.386593 ID - IO -0.3078740 0.7458 -2.245752 1.630004 图形结果展示： ## 种级别alpha多样性结果 alpha_re # 结果也支持输出交互式图形，便于发现离群样本等情况 alpha_re$plot$species$html$Total Tips 4：可以将鼠标放在感兴趣的点，查询样本信息及基本情况。 # 结果统计支持多组间onewayANOVA和事后多重检验Post-Hoc # 需要设定method参数 alpha_re # 图形输出可以通过调整group_level参数和palette参数进行调整分组排序和颜色方案 group_order # alpha_plot支持ggplot2主题语法，可以使用mytheme参数进行进一步美化 library(ggplot2) newtheme_slope=theme(axis.text.x =element_text(angle = 45, hjust = 1,size = 10)) # 例如调整分组名称的角度 alpha_re=alpha_plot(data = EMP$micro,design = EMP$mapping,min_relative = 0.001,min_ratio = 0.7, method = 'ttest',mytheme = newtheme_slope) alpha_re$plot$species$pic$Total Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:07:23 "},"MD/08.Beta多样性.html":{"url":"MD/08.Beta多样性.html","title":"Chapter 8 Beta多样性","keywords":"","body":"8. Beta多样性 β多样性常用来评估组间微生物结构的差异性。本章节beta_plot模块提供了多种距离算法用于进行维度差异统计及可视化结果。 8.1 beta_plot模块 beta_plot模块是基于4.1的data_filter函数进行beta多样性计算，即可衔接data_filter函数计算结果，也可直接仿照data_filter函数语法，读取dataframe、list和file三种格式。 8.1.1 参数介绍 Tips 1: beta_plot模块提供了过程数据结果，因此用户可以手动计算后，自行标注统计结果。后续的更新版本将会解决这个局限，经期期待。 data 输入微生物数据支持dataframe和list两种格式,dataframe应符合3.1 中的格式要求，也可将不同级别微生物数据dataframe直接合并为list输入。 dir: 指定微生物数据文件存放的地址，文件可以以csv和txt格式保存，格式应符合3.1 中的格式要求。 min_relative： 指定最小的微生物物种相对丰度数值，低于此阈值的相对丰度将会被过滤为0。 min_ratio： 指定最小的微生物物种在至少一个分组内的出现率，低于此阈值的物种将会被过滤。 design： 指定样本分组信息mapping文件,支持直接输入dataframe或者指定文件地址。 ellipse： 设置散点的置信区间（0~1）。【默认：Null】 adjust： 在min_relative和min_ratio过滤下，部分样品的微生物物种可能过滤为空，打开此选项可以将空样本赋予一个特殊特征在beta多样性中以区分彼此。【默认：True】 method: 此参数将决定多样性差异统计的方法，目前仅支持onewayANOVA及多重检验(HSD, LSD,duncan,scheffe,REGW,SNK) distance: 指定beta多样性计算过程中采用的距离运算。（bray,manhattan, euclidean, canberra, clark, kulczynski, jaccard, gower, altGower, morisita, horn, mountford, raup, binomial, chao, cao or mahalanobis） pattern： 指定在文件夹内微生物数据文件名的特征信息，与dir配合使用 output： 指定是否将核心微生物计算结果输出。【默认：关闭】 html_out: 指定是在工作区域文件夹内输出html结果。【默认：关闭】 width： 指定html图形的宽度。 height： 指定html图形的高度。 change： Qiime2产生物种注释结果中有时出现完全为空的情况（d__Bacteria;__;__)，打开此选项后可以将其修正为（d__Bacteria;Other;Other)。【默认：关闭】 change_name： 指定空注释的修改名，与change配合使用。【默认：Other】 row_panel: 指定拼图结果输出每行的图形数目。 seed： 指定随机数种子，便于确定图形中散点的随机分布。【默认：123】 group_level: 指定图形中分组显示的排列顺序。 palette: 指定绘图色板。 8.1.2 使用范例 Tips 2：以下均在种级别进行演示，实际使用用户可以自行查看其他级别结果。 代码示例： library(EasyMicroPlot) # 加载包 beta_re 基本计算结果： # 种级别各个样本核心微生物beta多样性的前三个维度的坐标结果 beta_re$plot$species$pc_data sample PC1 PC2 PC3 Group A01 A01 0.23325291 0.035594497 0.030648810 CT A02 A02 -0.09285486 -0.103393814 -0.031886190 CT A03 A03 0.04045387 -0.125091827 -0.085172668 CT A04 A04 0.05209699 0.002954595 -0.031074589 CT A05 A05 -0.17985725 -0.042200037 -0.093639030 CT A06 A06 0.14258227 -0.012533821 -0.051640448 CT A07 A07 0.17424665 -0.081945583 -0.112918281 CT A08 A08 0.11542759 0.077427298 0.046016115 CT A09 A09 0.26532418 -0.058154301 0.119570046 CT B10 B10 -0.22348190 -0.095896824 -0.033245259 ID B11 B11 -0.03644198 0.290161251 -0.039450952 ID B12 B12 -0.10341177 0.241732219 0.038140553 ID B13 B13 0.03959259 -0.055961831 -0.126781260 ID B14 B14 -0.07445329 0.061620012 0.128671704 ID B15 B15 -0.02873585 0.133737593 -0.007086424 ID B16 B16 -0.04350455 0.305562428 -0.052682899 ID B17 B17 -0.23365667 0.027446065 0.120774234 ID B18 B18 -0.12871343 0.220700157 -0.011274409 ID C19 C19 0.09098629 -0.011571871 -0.025207411 IO C20 C20 0.25263686 0.057607262 -0.021869906 IO C21 C21 0.08242074 -0.104046547 0.067203835 IO C22 C22 0.12718637 -0.034803390 0.024611743 IO C23 C23 0.13368309 -0.116743577 0.124434349 IO C24 C24 -0.12367366 -0.156461584 -0.024632571 IO C25 C25 -0.17801061 -0.185940261 0.031275942 IO C26 C26 -0.23549301 -0.114908182 0.069901074 IO C27 C27 -0.06760157 -0.154889926 -0.052686107 IO # 种级别各个样本核心微生物beta多样性的三个轴事后检验的详细结果 # 第一轴 beta_re$plot$species$test$PC1_test difference pvalue signif. LCL UCL CT - ID 0.17594213 0.0123 * 0.04174051 0.31014375 CT - IO 0.07428198 0.2646 -0.05991964 0.20848360 ID - IO -0.10166015 0.1310 -0.23586177 0.03254147 # 第二轴 beta_re$plot$species$test$PC2_test difference pvalue signif. LCL UCL CT - ID -0.15960490 0.0036 ** -0.2615115 -0.05769826 CT - IO 0.05715723 0.2584 -0.0447494 0.15906386 ID - IO 0.21676213 0.0002 *** 0.1148555 0.31866876 # 第三轴 beta_re$plot$species$test$PC3_test difference pvalue signif. LCL UCL CT - ID -0.02524017 0.4688 -0.09600133 0.04552099 CT - IO -0.04479191 0.2038 -0.11555307 0.02596925 ID - IO -0.01955174 0.5738 -0.09031290 0.05120942 Tips 3: 这里提取前三个维度的坐标结果也可以进行其他统计计算，例如T检验或者Kruskal-Wallis检验。 # Kruskal-Wallis Rank Sum Test location_data Kruskal-Wallis rank sum test data: PC1 by Group Kruskal-Wallis chi-squared = 5.9718, df = 2, p-value = 0.05049 # T test location_data Welch Two Sample t-test data: PC1 by Group t = 3.0639, df = 13.356, p-value = 0.008813 alternative hypothesis: true difference in means between group CT and group ID is not equal to 0 95 percent confidence interval: 0.05222005 0.29966421 sample estimates: mean in group CT mean in group ID 0.08340804 -0.09253409 图形结果展示： # 种级别beta多样性结果 beta_re # 最常用的第一和第二轴组成的平面结果，用户也可以自行查看其他两个平面结果 # 图形右上角为Adonis分析的结果 beta_re$plot$species$pic$p12 # 由于Rstudio窗口的限制，用户需要调整窗体以达到最优的美化结果 # 或者直接输出合适尺寸的pdf结果，在工作文件夹内查看 ggplot2::ggsave(beta_re$plot$species$pic$p12, filename = 'beta_p12.pdf',width = 15,height = 15) # 结果也支持输出交互式图形，便于发现每个样本的具体情况 beta_re$plot$species$html$p12 Tips 4：可以将鼠标放在感兴趣的点，查询样本信息及基本情况。 # 图形输出可以通过调整group_level参数和palette参数进行调整分组排序和颜色方案 group_order Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-22 18:23:32 "},"MD/09.Co-oc共发生网络.html":{"url":"MD/09.Co-oc共发生网络.html","title":"Chapter 9 Co-oc共发生网络","keywords":"","body":"9. Co-oc共发生网络 共发生网络分析是利用相关性检验评估微生物物种之间的竞争或者抑制关系，也可以利用图论相关技术来从整体评估微生物网络的基本属性，筛选可能存在的微生物社区网络及网络关键微生物。 9.1 cooc_plot模块 cooc_plot模块是基于4.1的data_filter函数筛选出各个级别的核心微生物，再基于相关系数并用igraph包进行beta多样性计算，因此可以直接仿照data_filter函数语法，读取dataframe、list和file三种格式。 9.1.1 参数介绍 data 输入微生物数据支持dataframe和list两种格式,dataframe应符合3.1 中的格式要求，也可将不同级别微生物数据dataframe直接合并为list输入。 meta 样本的表型数据，格式需要符合3.2格式要求。 dir: 指定微生物数据文件存放的地址，文件可以以csv和txt格式保存，格式应符合3.1 中的格式要求。 min_relative： 指定最小的微生物物种相对丰度数值，低于此阈值的相对丰度将会被过滤为0。 min_ratio： 指定最小的微生物物种在至少一个分组内的出现率，低于此阈值的物种将会被过滤。 design： 指定样本分组信息mapping文件,支持直接输入dataframe或者指定文件地址。 group_combie： 打开这个参数可以将全部分组合并为一个数据集进行共发生网络计算。【默认：False】 clust： 打开这个参数可以共发生网络的节点根据fast greedy算法进行聚类。【默认：False】 cooc_method： 指定节点之间相关性计算方式（person，spearman，kendall)。【默认：Spearman】 cooc_p： 设定节点之间相关性计算的p值阈值，高于此阈值的相关性结果将会被过滤。【默认：0.05】 cooc_r： 设定节点之间相关性计算的相关系数绝对值的阈值，低于此阈值的相关性结果将会被过滤。【默认：0.3】 vertex.size： 设定共发生网络中节点的大小。 vertex.label.cex： 设定共发生网络中节点注释文字大小。 edge.width： 设定共发生网络中边的宽度。【默认：2】 edge.curved： 设定边是否为曲线。【默认：False】 seed： 设定随机数种子，便于确定图形中散点的随机分布。【默认：123】 width,height： 设定共发生网络图的宽和高。【默认：10】 heatmap_width,heatmap_height： 设定共发生网络图的节点重要性评估热图的宽和高。 set_color_level： 设定共发生网络中节点按照微生物注释级别进行染色。【默认：phylum】 edge_color_positive 设定正相关边的颜色。 edge_color_negetive 设定负相关边的颜色。 meta_col： 设定表型数据在共发生网络中的节点颜色。【默认：white】 adjust： 在min_relative和min_ratio过滤下，部分样品的微生物物种可能过滤为空，打开此选项可以将空样本赋予一个特殊特征在beta多样性中以区分彼此。【默认：False】 pattern： 指定在文件夹内微生物数据文件名的特征信息，与dir配合使用 output： 指定是否将核心微生物计算结果输出。【默认：False】 cooc_output： 指定共发生网络分析的结果输出文件夹名字。【默认：cooc_result】 change： Qiime2产生物种注释结果中有时出现完全为空的情况（d__Bacteria;__;__)，打开此选项后可以将其修正为（d__Bacteria;Other;Other)。【默认：False】 change_name： 指定空注释的修改名，与change配合使用。【默认：Other】 9.1.2 使用范例 代码示例： library(EasyMicroPlot) # 加载包 cooc_re 基本计算结果： Tips 1: 这里仅展示种级别CT组的结果，用户可以根据输入数据情况查看其他级别的结果。 Tips 2: 当group_combie = True时，所有组的数据将合并处理，组名将统一为Total # 种级别各个分组的网络基本属性 cooc_re$cooc_profile$species num.vertices num.edges transitivity centralization_degree graph_density CT 31 95 0.6756757 0.1956989 0.2043011 ID 26 57 0.4912892 0.2246154 0.1753846 IO 32 112 0.6211973 0.2903226 0.2258065 # 种级别CT组共发生网络节点之间相关性系数结果 cor_r # 种级别CT组共发生网络中各个节点在不同算法的重要性评估 # EMP包内置了evcent_value，betweenness_value和page_rank_value三个常用的网络节点评估算法 cooc_re$plot$CT$species$vertex_attribute$vertex_importance_value evcent_value betweenness_value page_rank_value V11 0.894767363 0.0006568144 0.03748984 V14 0.111946208 0.0408464535 0.03996182 V15 0.073028000 0.0598905309 0.03606126 V16 0.120083019 0.0226038346 0.03390773 V19 0.375088867 0.2397686661 0.05081571 V20 0.010881847 0.0007662835 0.01612598 V25 0.101058494 0.1005016259 0.04333433 V26 0.194527714 0.1187298368 0.05377930 V27 0.076653472 0.0000000000 0.01853288 V28 0.894767363 0.0006568144 0.03748984 V30 0.024882835 0.0073508484 0.02180678 V31 0.118581669 0.0812700827 0.03444455 V33 0.011231679 0.0000000000 0.01010074 V50 0.025741613 0.0000000000 0.01887667 V63 0.211304738 0.0983519270 0.02584497 V67 0.249218353 0.1530166779 0.04089875 V74 0.975072258 0.1000790431 0.04602047 V77 0.958146550 0.1370721047 0.04759485 V81 0.726127159 0.0000000000 0.02994727 V84 1.000000000 0.1911416981 0.05093498 V85 0.843272919 0.0332010045 0.03918532 V87 0.842729507 0.0572413793 0.03966348 V88 0.894767363 0.0006568144 0.03748984 V101 0.915902846 0.0394804244 0.04287798 V114 0.023484488 0.0000000000 0.01033077 V119 0.003116891 0.0000000000 0.01409915 V121 0.028044633 0.0666666667 0.02178926 V125 0.205871904 0.1287356322 0.02830766 V126 0.427769779 0.1052228823 0.03480820 V140 0.096860597 0.0000000000 0.01860294 V142 0.025741613 0.0000000000 0.01887667 图形结果展示： Tips 3: 由于EMP包的共发生网络主要基于igragh包进行计算，因此图形将会直接生成在工作区域的本地目录中，后续的版本更新计划中会添加对于ggplot2的支持。 # 各级别分组的共发生网络图形结果将会在工作区域的本地目录中生成 library(EasyMicroPlot) cooc_re cooc_result/ # 共发生网络结果文件夹 ├── network # 包含全部分组各个微生物级别核心微生物的共发生网络分析图 └── vertex # 包含全部分组各个微生物级别核心微生物的三种不同节点重要性评估结果热图 Tips 4: 为了图形美化，微生物节点用编码显示，可以在cooc_re$result$filter_data内查询具体微生物注释信息。例如种级别物种注释信息为cooc_re$result$filter_data$species_ID Tips 5： EMP包默认采用圆形排布展示共发生网络分析结果，当clust = True时候图形将根据fast greedy算法进行聚类。 # 注意修改为clust = T library(EasyMicroPlot) cooc_re Tips 5： EMP包默认采用圆形排布展示共发生网络分析结果，当clust = True时候图形将根据fast greedy算法进行聚类。 # 为了方便直接查看图形结果和美化，EMP也内置cooc_plot_each快速对于特定的结果进行图形调整 # 例如可以直接对于CT组种级别图形进行部分参数的重新设定 cooc_plot_each(cooc_re$plot$CT$species,cooc_output=F,vertex.size = 12, vertex.label.cex =1 ,edge.width =3,clust = T, edge.curved = T,edge_color_positive = '#C34A36', edge_color_negitive ='#845EC2') Tips 6： EMP包支持将表型数据与微生物数据联合在一起做共发生网络分析。由于表型数据样本和微生物数据样本往往不能完全一致，因此计算过程将采取二者样本的交集进行。 # 整合表型数据联合分析 meta_data Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-23 16:36:12 "},"MD/10.Structure结构图.html":{"url":"MD/10.Structure结构图.html","title":"Chapter 10 Structure结构图","keywords":"","body":"10. Structure结构图 物种结构图常用来展现样本主要微生物的分布情况，多用堆叠柱状图的形式出现。本章节structure_plot模块可以基于平均值、中位数、最大丰度、最小丰度的四种方式筛选TOP物种，并进行结构图展示。 structure_plot模块 structure_plot模块是基于4.1的data_filter函数筛选出各个级别的核心微生物，因此可以直接仿照data_filter函数语法，读取dataframe、list和file三种格式。 10.1.1 参数介绍 data 输入微生物数据支持dataframe和list两种格式,dataframe应符合3.1 中的格式要求，也可将不同级别微生物数据dataframe直接合并为list输入。 dir: 指定微生物数据文件存放的地址，文件可以以csv和txt格式保存，格式应符合3.1 中的格式要求。 min_relative： 指定最小的微生物物种相对丰度数值，低于此阈值的相对丰度将会被过滤为0。 min_ratio： 指定最小的微生物物种在至少一个分组内的出现率，低于此阈值的物种将会被过滤。 design： 指定样本分组信息mapping文件,支持直接输入dataframe或者指定文件地址。 measure: 指定特定的微生物物种按照由低到高的丰度重新排序样本 num: 指定展示微生物物种的最大数量，其余物种将会合并如Others structure_method： 指定判断微生物物种名次的方式。（mean,median,max,min)【默认：mean】 estimate_group: 指定根据全部分组或者某一组的数据判断微生物的名次，默认为全部分组数据。【默认：default】 tax_level: 调整出图后物种的排序。 pattern： 指定在文件夹内微生物数据文件名的特征信息，与dir配合使用。 output： 指定是否将核心微生物计算结果输出。【默认：关闭】 change： Qiime2产生物种注释结果中有时出现完全为空的情况（d__Bacteria;__;__)，打开此选项后可以将其修正为（d__Bacteria;Other;Other)。【默认：关闭】 change_name： 指定空注释的修改名，与change配合使用。【默认：Other】 row_panel: 指定拼图结果输出每行的图形数目。 group_level: 指定图形中分组显示的排列顺序。 palette: 指定绘图色板。 mytheme: 支持ggplot2主题代码，便于图形美化。 10.1.2 使用范例 代码示例： Library(EasyMciroPlot) # 加载包 # 基本使用方式,自动按照均值前10名绘制物种结构图 structure_re 基本计算结果： Tips 1: 这里仅展示纲级别的结果，用户可以根据输入数据情况查看其他级别的结果。 # TOP物种的纲水平的数据 structure_re$result$top_abundance$class Group SampleID V7 V15 V16 V21 V22 V24 V5 V14 V20 V25 Others CT A01 0.56583699 0.10818157 0.15221528 0.04663534 0.01386246 0.02011416 0.02423019 0.0262882 0.02861803 0.00531977 0.00869802 CT A02 0.35700695 0.30738166 0.07401079 0.14976896 0.0627888 0.01308585 0.00850386 0.01335767 0.00333942 0.00462082 0.00613521 ... ... ... ... ... ... ... ... ... ... ... ... ... IO C26 0.2583 0.38414942 0.03692774 0.23803052 0.02881218 0.02127907 0.00493146 0.01405661 0 0.00166971 0.01184328 IO C27 0.33922261 0.23189531 0.07047723 0.17928008 0.12394672 0.01759018 0.0128917 0.01118316 0.00252398 0.00295111 0.0080379 # 纲级别物种完整注释名称 structure_re$result$filter_data$class_ID ID tax 1 V1 Unassigned;Other;Other 2 V2 k__Bacteria;p__Acidobacteria;c__Acidobacteriia 3 V3 k__Bacteria;p__Acidobacteria;c__iii1-8 4 V4 k__Bacteria;p__Actinobacteria;c__Actinobacteria 5 V5 k__Bacteria;p__Actinobacteria;c__Coriobacteriia 6 V6 k__Bacteria;p__Actinobacteria;c__MB-A2-108 7 V7 k__Bacteria;p__Bacteroidetes;c__Bacteroidia 8 V8 k__Bacteria;p__Bacteroidetes;c__Flavobacteriia 9 V9 k__Bacteria;p__Bacteroidetes;c__Sphingobacteriia 10 V10 k__Bacteria;p__Chloroflexi;c__Anaerolineae 11 V11 k__Bacteria;p__Cyanobacteria;c__4C0d-2 12 V12 k__Bacteria;p__Cyanobacteria;c__Chloroplast 13 V13 k__Bacteria;p__Deferribacteres;c__Deferribacteres 14 V14 k__Bacteria;p__Firmicutes;c__Bacilli 15 V15 k__Bacteria;p__Firmicutes;c__Clostridia 16 V16 k__Bacteria;p__Firmicutes;c__Erysipelotrichi 17 V17 k__Bacteria;p__GAL15;c__ 18 V18 k__Bacteria;p__OD1;c__ZB2 19 V19 k__Bacteria;p__Proteobacteria;c__Alphaproteobacteria 20 V20 k__Bacteria;p__Proteobacteria;c__Betaproteobacteria 21 V21 k__Bacteria;p__Proteobacteria;c__Deltaproteobacteria 22 V22 k__Bacteria;p__Proteobacteria;c__Epsilonproteobacteria 23 V23 k__Bacteria;p__Proteobacteria;c__Gammaproteobacteria 24 V24 k__Bacteria;p__TM7;c__TM7-3 25 V25 k__Bacteria;p__Tenericutes;c__Mollicutes 26 V26 k__Bacteria;p__Verrucomicrobia;c__Verrucomicrobiae 图形结果展示： # 纲级别核心微生物结构图，用户可以根据输入数据提起其他级别 structure_re$pic$class$barplot$Total # 图形输出可以通过多个参数对图形进行美化 top_num Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:09:49 "},"MD/11.微生物差异箱型图.html":{"url":"MD/11.微生物差异箱型图.html","title":"Chapter 11 微生物差异箱型图","keywords":"","body":"11. 微生物差异箱型图 微生物物种差异箱型图 11.1 tax_plot模块 tax_plot模块是可以根据4.1的data_filter函数筛选出各个级别的核心微生物并进行差异性分析可视化。 11.1.1 参数介绍 data： 由data_filter函数产生的包含分组机各个样本微生物的数据框。 tax_select 指定需要进行差异性分析的物种。 method 指定差异分析的检验方法，包含T检验、onewayANOVA的多重检验(HSD, LSD,duncan,scheffe,REGW,SNK)。 width_total 指定全部物种汇总拼图的宽度 height_total 指定全部物种汇总拼图的高度 width 指定单独物种图形的宽度 height 指定单独物种图形的高度 seed 指定随机数种子，便于确定图形中散点的随机分布。【默认：123】 group_level 指定图形中分组显示的排列顺序。 mytheme 支持ggplot2主题代码，便于图形美化。 palette 指定绘图色板。 11.1.2 使用范例 代码示例： # 首先利用过滤核心模块读取原始数据 library(EasyMicroPlot) # 加载包 core_data 基本计算结果： # 详细的时候多重事后检验结果 tax_re$Post_Hoc $V14 difference pvalue signif. LCL UCL CT - ID -0.002209020 0.6419 -0.0118903818 0.007472342 CT - IO 0.007127541 0.1417 -0.0025538212 0.016808903 ID - IO 0.009336561 0.0581 . -0.0003448013 0.019017922 $V15 difference pvalue signif. LCL UCL CT - ID -0.003261756 0.1208 -0.0074471973 0.0009236855 CT - IO 0.004577676 0.0334 * 0.0003922346 0.0087631173 ID - IO 0.007839432 0.0007 *** 0.0036539905 0.0120248732 $V16 difference pvalue signif. LCL UCL CT - ID -0.002920911 0.5940 -0.0140806819 0.00823886 CT - IO 0.008443461 0.1315 -0.0027163101 0.01960323 ID - IO 0.011364372 0.0463 * 0.0002046009 0.02252414 图形结果展示： # T检验结果 tax_re # onewayANOVA的多重检验 tax_re # 结果也支持输出交互式图形，便于发现离群样本等情况 tax_re$html$total Tips 1：可以将鼠标放在感兴趣的点，查询样本信息及基本情况。 # tax_plot支持ggplot2主题语法，可以使用mytheme参数进行进一步美化 library(ggplot2) newtheme_slope=theme(axis.text.x =element_text(angle = 45, hjust = 1,size = 10)) # 例如调整分组名称的角度 group_order Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:10:35 "},"MD/12.随机森林交叉验证模型.html":{"url":"MD/12.随机森林交叉验证模型.html","title":"Chapter 12 随机森林交叉验证模型","keywords":"","body":"12. 随机森林交叉验证模型 近年来主流的微生物分析中，随机森林模型常被用来进行关键微生物的筛选。但是由于随机数导致模型结果的不确定性以及难以确定最优价值的差异菌种，因此随机森林交叉验证递归剔除弱重要性的策略可以帮助研究者在一定程度下筛选出一批具有潜在重要性的关键菌种。本章节RFCV模块提供了一种快速根据核心微生物进行各个级别随机森林模型快速筛选的方法及可视化结果。 12.1 RFCV模块 RFCV模块是可以根据4.1的data_filter函数筛选出各个级别的核心微生物并进行随机森林交叉验证模型筛选特征微生物物种。 12.1.1 参数介绍 RF 由data_filter函数产生的包含分组机各个样本微生物的数据框。 seed_start 此参数将指定起始种子。【默认：123】 ntree 每个随机森林的建树数目。 kfold 交叉验证的数目。 rep 建模重复数目。【默认：10】 RF_importance 设定模型判断重要性的方式 (MeanDecreaseAccuracy, MeanDecreaseGini)，对应值为1和2。【默认：1】 step 设定剔除特征的步伐数目。【默认：1】 each_ouput 设定是否输出每个随机种子下随机森林的结果图 x_break 设定RFCV图形横轴的分割距离。 cutoff_colour 设定RFCV图形截线的颜色。 palette 指定绘图色板。 12.1.2 使用范例 代码示例： # 首先利用过滤核心模块读取原始数据 library(EasyMicroPlot) # 加载包 core_data 基本计算结果： # 输入的微生物数据，这里默认采用最常用的种级别数据作为结果展示，用户可以自行选择需要的级别 RF_re$RFCV_data # 读取模型计算过程中的准确率变化趋势 RF_var_dataframe Seed_123 Seed_124 Seed_125 Seed_126 … Seed_129 Seed_130 Seed_131 0.8 0.85714286 0.80357143 0.91666667 … 0.8 1 0.71666667 0.8 0.85714286 0.875 0.91666667 … 0.8 1 0.8 0.8 0.85714286 0.80357143 0.91666667 … 0.8 1 0.71666667 0.8 0.85714286 0.80357143 0.91666667 … 0.8 1 0.8 0.8 0.85714286 0.80357143 0.79166667 … 0.8 1 0.9 ... ... ... ... … ... ... ... ... ... ... ... … ... ... ... 0.55 0.92857143 0.875 0.875 … 0.9 1 0.81666667 0.71666667 0.85714286 0.80357143 0.91666667 … 0.775 0.83333333 0.81666667 0.7 0.82857143 0.67857143 0.91666667 … 0.675 0.66666667 0.91666667 图形结果展示： Tips 1: 下图所示截线依据10次随机数种子下平均错误率和错误率标准差最小的标准而选取，即意味着在这个截线下的特征数目可以保证10次随机森林交叉验证结果的平均错误率相对最低且在不同随机数种子下错误率相对稳定。 # RFCV平均错误率下降图 RF_re Tips 2: 注意模型参数调整后，最适结果也将发生变化。 # 也可以通过修改内置参数，调整模型 # 将步伐调整为2，横坐标调整为2，截线调整为蓝色，整体色板统一为黑色，模型重复数为8，起始种子为123 RF_re2 # 由于不同随机数种子结果不同，因此需要判断该如何选择特征物种 # RFCV提供了不同随机数种子下最优特征数的交集和并集 # 交集 RF_re$RFCV_result_plot$intersect_num [1] \"V19\" \"V83\" \"V143\" \"V63\" # 并集 RF_re$RFCV_result_plot$union_num [1] \"V19\" \"V83\" \"V143\" \"V63\" \"V121\" \"V15\" \"V88\" \"V28\" \"V67\" Tips 2: 由于随机森林判断的最优特征不一定具有统计学意义，因此可以利用tax_plot函数快速查看各组间差异结果 # 快速计算潜在关键菌的统计学差异 tax_re Tips 3: 随机森林模型在很多研究中被用作疾病筛查模型，因此在结果计算后需要采用ROC模型对随机森林的结果进行评估。 Tips 4: 如输入数据为二分类数据，例如高血压组和非高血压组，糖尿病组和非糖尿病组等，则无须下列转换步骤。 # 由于本示例数据为三组，分别为CT（正常饲料组），IO（铁剂过量饲料组）和ID（铁剂缺乏饲料组），无法直接使用与二分类的ROC模型评估 # 因此可以将数据转为二分类数据，例如CT组和非CT组 RF_data_binary # 将RFCV的结果直接带入函数 # rf_tax_select 为选取的选取所需要进一步评估的物种，这里直接带入上并集结果 RFCV_roc(RF_re,rf_tax_select = RF_re$RFCV_result_plot$union_num,rf_estimate_group = 'NOT_CT') # 也可以根据tax_plot函数的结果，手动挑选合适的物种纳入ROC评估 # 例如可以挑选出具有统计学差异的核心微生物物种 RFCV_roc(RF_re,rf_tax_select = c('V83','V121','V143'),rf_estimate_group = 'NOT_CT') Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:11:02 "},"MD/13.相关性分析图.html":{"url":"MD/13.相关性分析图.html","title":"Chapter 13 相关性分析图","keywords":"","body":"13. 相关性分析图 微生物研究中，微生物数据常常和表型数据存在着广泛的线性关系。本章节EMP_COR模块提供两种展现微生物数据和表型数据相关性的方式。 13.1 EMP_COR模块 EMP_COR模块是可以根据4.1的data_filter函数筛选出各个级别的核心微生物并进行与表型数据构建相关性分析图。 13.1.1 参数介绍 data 由data_filter函数产生的包含分组机各个样本微生物的数据框。 meta 样本的表型数据，格式需要符合3.2格式要求。 method 相关性计算方式（person，spearman，kendall)。【默认：Spearman】 aes_value 选择相关性热图或者三角形图，对应值为1和2。 width 输出图形宽度。 height 输出图形高度。 cor_output 选择是否输出图形到工作区文件夹内。 file_name 设定输出图形文件名。 13.1.2 使用范例 代码示例： Tips1：由于表型数据样本和微生物数据样本往往不能完全一致，因此计算过程将采取二者样本的交集进行。 # 基本代码 library(EasyMicroPlot) # 加载包 # 加载表型数据 data(EMP) meta_data 图形结果展示： Tips 1: 这里的相关性图形仅保留通过相关性检验的结果，如1个物种或者表型数据与对面矩阵所有数据均无法通过相关性检验，则会被省略。详细结果可以在cor_re$p 查看。 # 生物数据和表型数据分开进行关联分析 （热图形式） # 基本代码 library(EasyMicroPlot) data(EMP) meta_data # 生物数据和表型数据分开进行关联分析 （三角图形式） # 基本代码 library(EasyMicroPlot) data(EMP) meta_data Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:11:16 "},"MD/14.双变量拟合图.html":{"url":"MD/14.双变量拟合图.html","title":"Chapter 14 双变量拟合图","keywords":"","body":"14. 双变量拟合图 本章节提供EMP_COR_FIT模块提供可双变量线性拟合的模型及可视化结果。 14.1 EMP_COR_FIT模块 EMP_COR_FIT模块根据微生物数据和表型数据进行双变量拟合分析。 14.1.1 参数介绍 data 由data_filter函数产生的包含分组机各个样本微生物的数据框。 meta 样本表型数据，格式需要符合3.2格式要求。 formula 设定拟合方程的格式formula = y~poly(x,1,raw = T)。 eq_size 方程字体大小。 se 线性拟合是否添加置信区间。 height 图形高度。 width 图形宽度。 group 是否按照分组进行拟合。 palette 指定绘图色板。 14.1.2 使用范例 代码示例： # 基本代码 library(EasyMicroPlot) # 加载包 # 加载表型数据 data(EMP) meta_data 图形结果展示： Tips 1: 下面的示例中，采用的是微生物的单个菌与表型数据的单个特征进行拟合，用户也可以采用微生物的两个菌之间进行拟合。 Tips 2: 当不需要输入表型数据时,可以在参数中设定meta = NULL。 # 一元一次拟合方程 fit_result # 交互式图形结果 fit_result$html Tips 3：可以将鼠标放在感兴趣的点，查询样本信息及基本情况。 # 一元二次拟合方程 fit_result # 增加置信区间 fit_result # 采用分组数据拟合模型 fit_result Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:11:54 "},"MD/15.冗余分析.html":{"url":"MD/15.冗余分析.html","title":"Chapter 15 冗余分析","keywords":"","body":"15. 冗余分析 在微生物研究中，RDA分析常被用来评估微生物数据和表型数据之间的相互关系。 15.1 EMP_COR_RDA模块 EMP_COR_RDA模块根据微生物数据和表型数据进行冗余分析。 15.1.1 参数介绍 data 由data_filter函数产生的包含分组机各个样本微生物的数据框。 meta 样本表型数据，格式需要符合3.2格式要求。 ellipse 设置散点的置信区间（0~1）。【默认：Null】 zoom 调整两种箭头和微生物样本的比例关系。【默认：1,1,1】 arrow_col 设置箭头颜色。【默认：#F0E442, #CC79A7】 seed 指定随机数种子，便于确定置换检验结果。【默认：123】 width 输出交互式图形宽度。 height 输出交互式图形高度。 palette 指定绘图色板。 15.1.2 使用范例 代码示例： # 基本代码 library(EasyMicroPlot) # 加载包 # 加载表型数据 data(EMP) meta_data 基本计算结果： # RDA模型的基本结果 RDA_re$model Call: rda(X = data, Y = env, scale = T) Inertia Proportion Rank Total 38.0000 1.0000 Constrained 12.5115 0.3292 6 Unconstrained 25.4885 0.6708 20 Inertia is correlations Eigenvalues for constrained axes: RDA1 RDA2 RDA3 RDA4 RDA5 RDA6 5.109 3.586 1.576 1.121 0.689 0.429 Eigenvalues for unconstrained axes: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 6.163 4.013 3.455 2.296 1.845 1.430 1.161 1.043 (Showing 8 of 20 unconstrained eigenvalues) # RDA模型的详细结果 RDA_re$model_information$model_summary Call: rda(X = data, Y = env, scale = T) Partitioning of correlations: Inertia Proportion Total 38.00 1.0000 Constrained 12.51 0.3292 Unconstrained 25.49 0.6708 Eigenvalues, and their contribution to the correlations Importance of components: RDA1 RDA2 RDA3 RDA4 RDA5 RDA6 PC1 PC2 PC3 PC4 PC5 PC6 Eigenvalue 5.1092 3.58609 1.57613 1.12142 0.68949 0.42914 6.1627 4.0131 3.45516 2.29576 1.84545 1.43043 Proportion Explained 0.1345 0.09437 0.04148 0.02951 0.01814 0.01129 0.1622 0.1056 0.09093 0.06041 0.04856 0.03764 Cumulative Proportion 0.1345 0.22882 0.27030 0.29981 0.31796 0.32925 0.4914 0.5970 0.68796 0.74838 0.79694 0.83458 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 PC15 PC16 PC17 Eigenvalue 1.16095 1.04348 0.73698 0.61109 0.50384 0.45506 0.42056 0.348389 0.282187 0.213881 0.200801 Proportion Explained 0.03055 0.02746 0.01939 0.01608 0.01326 0.01198 0.01107 0.009168 0.007426 0.005628 0.005284 Cumulative Proportion 0.86513 0.89259 0.91199 0.92807 0.94133 0.95330 0.96437 0.973540 0.980966 0.986594 0.991878 PC18 PC19 PC20 Eigenvalue 0.142234 0.110554 0.055839 Proportion Explained 0.003743 0.002909 0.001469 Cumulative Proportion 0.995621 0.998531 1.000000 Accumulated constrained eigenvalues Importance of components: RDA1 RDA2 RDA3 RDA4 RDA5 RDA6 Eigenvalue 5.1092 3.5861 1.576 1.12142 0.68949 0.4291 Proportion Explained 0.4084 0.2866 0.126 0.08963 0.05511 0.0343 Cumulative Proportion 0.4084 0.6950 0.821 0.91059 0.96570 1.0000 Scaling 2 for species and site scores * Species are scaled proportional to eigenvalues * Sites are unscaled: weighted dispersion equal on all dimensions * General scaling constant of scores: 5.606467 Species scores RDA1 RDA2 RDA3 RDA4 RDA5 RDA6 V8 -0.243406 0.03688 -0.097118 -0.3081485 0.1179041 0.091868 V11 -0.143506 0.15285 -0.058295 0.0023186 0.1021557 0.094997 V14 -0.384488 -0.09462 -0.047440 -0.0518109 0.0141012 -0.118778 V15 -0.512649 -0.31431 0.210785 -0.1881004 0.0466457 -0.181693 V16 -0.349123 -0.17635 0.011270 -0.0703175 -0.0677141 -0.050305 V19 0.381932 0.51890 -0.020282 -0.1003108 -0.0718708 -0.224673 V20 -0.111128 -0.07816 0.569293 -0.0552672 0.0987528 -0.062916 V25 -0.030865 -0.02891 0.092962 -0.0953025 -0.2437449 -0.101069 V26 -0.224865 -0.22819 -0.124940 0.0992710 -0.0274671 -0.176101 V27 -0.171180 0.05944 -0.278865 -0.3080360 -0.1468861 0.076930 V28 -0.065453 0.67067 -0.192985 0.0976391 0.0498934 -0.139136 V30 -0.106414 0.01383 -0.194588 -0.1743389 -0.0351231 -0.061128 V31 -0.021339 0.25083 -0.200792 0.0397861 -0.3304671 0.106561 V33 -0.109553 0.40942 0.442589 -0.2831694 -0.0851655 -0.075984 V50 -0.366408 -0.15329 -0.101090 -0.3850630 0.1157340 0.038950 V63 -0.354498 -0.42351 0.068422 0.1225142 -0.1229148 0.050978 V67 -0.319194 0.03537 0.083127 0.1847560 -0.1105854 0.155644 V74 0.311921 -0.24809 0.067841 -0.0666054 -0.0672168 -0.042860 V77 0.374762 -0.25876 0.115443 0.0002488 0.0239864 0.054075 V81 0.153913 -0.21544 -0.072806 -0.1505837 0.0481929 0.015838 V84 0.331083 -0.27976 0.034041 -0.1223141 0.1108386 0.067295 V85 0.524764 -0.33441 -0.019799 -0.0420467 -0.0250583 -0.011374 V87 0.501936 -0.10304 -0.314432 -0.2281355 0.0448296 0.050468 V88 0.726625 -0.10428 0.014152 -0.0915228 0.0729030 -0.045347 V101 -0.146542 0.33825 -0.115519 0.0444386 0.1515639 0.046971 V114 -0.028116 0.47193 0.152871 -0.0680606 0.0989948 0.137106 V119 0.473259 -0.19041 0.139634 -0.0425908 -0.0874574 0.041667 V121 0.718153 -0.33770 -0.074219 -0.0337590 -0.1277873 0.045839 V125 -0.130797 0.31904 -0.173137 0.1149292 0.0243022 0.071180 V126 0.004231 -0.19476 0.006752 0.0686144 0.2491351 0.069939 V140 0.121136 -0.06454 -0.211270 0.0438176 0.1706271 -0.109742 V142 -0.282434 0.03333 0.003755 -0.2451765 -0.2129072 0.029075 V52 -0.405960 -0.05622 -0.082740 0.0118185 0.1817272 0.026463 V143 -0.269370 -0.34344 0.274121 0.1978757 -0.0466595 0.104330 V12 0.135333 0.45699 0.206549 -0.0328786 -0.0627156 0.156439 V65 0.176603 -0.01458 -0.090758 0.2975274 -0.0009763 -0.138004 V71 0.221727 0.16221 0.172903 -0.1405882 0.1406303 0.024677 V83 0.590742 0.45924 0.247837 0.0338988 0.0321844 -0.006069 Site scores (weighted sums of species scores) RDA1 RDA2 RDA3 RDA4 RDA5 RDA6 A01 -1.5735 2.10285 -0.98844 -2.37224 -0.32431 0.25782 A02 1.0266 -0.47112 -0.49387 -0.66761 -0.66889 0.56561 A03 0.8444 -0.87977 -1.27107 -2.35823 3.20291 2.94021 A04 -0.8495 -0.35290 -2.05824 -2.31916 -0.55385 -3.19843 A05 0.7456 -1.33236 0.77078 -2.47486 -0.56605 -1.44256 A06 -1.5493 0.06858 -1.31362 -2.89117 0.79461 -0.77611 A07 -0.4269 0.65633 -1.08187 1.25994 2.46753 1.73061 A08 -0.8199 0.77556 -2.10277 2.45605 -1.89667 -3.86567 A09 -0.4997 1.68621 -1.40465 2.94037 3.86438 1.86292 B10 0.5206 -2.08254 1.50198 0.73367 0.99828 -2.09808 B11 -2.1633 -0.41409 1.99713 1.09839 0.35495 -0.98757 B12 -1.5928 -1.20695 -0.18861 1.75651 0.54059 -0.91690 B13 -0.5559 -0.99992 2.08953 -0.53576 0.72937 2.09262 B14 -0.3154 -0.38448 0.03413 1.16950 2.15026 3.73487 B15 -1.2059 0.31930 0.22055 -0.64470 -2.60016 3.19606 B16 -2.2593 -0.24313 0.72890 -0.29854 -3.58506 -2.24263 B17 0.4774 -1.58770 0.91528 0.47564 -1.46366 0.04101 B18 -1.1776 -1.14826 -0.19400 0.80590 -1.57564 -0.35484 C19 0.7307 2.05844 -0.25915 -1.30418 -1.53875 -1.45422 C20 -0.3447 3.08312 3.24645 -0.03043 -1.78849 -4.04400 C21 0.9180 1.07669 1.55438 -0.22500 2.91450 1.99859 C22 0.3113 1.64132 0.25537 0.97648 -2.57407 1.78402 C23 0.9278 1.34665 -0.33049 1.20587 2.40675 1.30725 C24 2.2438 -1.05578 -0.38571 0.35277 -0.80547 -0.66775 C25 2.1288 -1.23157 -0.27717 0.59992 -0.07386 0.55567 C26 2.8215 -1.61911 -1.24582 -1.03061 -0.80172 -0.56023 C27 1.6374 0.19463 0.28099 1.32149 0.39252 0.54173 Site constraints (linear combinations of constraining variables) RDA1 RDA2 RDA3 RDA4 RDA5 RDA6 A01 -0.9450 0.69431 -1.09950 -2.2728004 -0.19839 -0.10772 A02 -0.6814 0.79044 -1.06571 -0.7102468 0.84313 0.31903 A03 -0.3325 0.16445 -0.00130 -0.6908343 1.00812 -0.52817 A04 -0.4290 -0.19821 -0.57624 0.0908234 0.74599 0.35752 A05 -0.4065 -0.42782 0.14021 -1.3158400 0.09924 -0.65945 A06 -0.7891 0.19982 -1.14082 -2.4605480 -0.11447 -0.37798 A07 -0.3258 -0.29069 -0.70006 1.4152527 1.43928 0.88573 A08 -0.8199 0.77556 -2.10277 2.4560510 -1.89667 -3.86567 A09 -0.5374 0.37967 -1.10054 0.2940973 0.83668 0.86630 B10 -0.5984 -1.55336 1.32644 0.6659005 1.66361 -0.99827 B11 -0.8872 -0.82365 -0.06146 0.3093449 1.70301 -0.28153 B12 -0.8487 -1.02191 0.42847 0.0379636 1.66405 -0.74928 B13 -0.4627 -1.12189 1.50343 1.0586162 -0.69875 0.37184 B14 -0.8515 -0.23436 0.07051 0.0707862 -1.37378 1.11538 B15 -0.8442 -0.60273 0.39329 -0.1961204 -1.61422 0.81274 B16 -0.8817 -0.44914 0.16447 -0.1530870 -0.87577 0.64100 B17 -0.5506 -1.22883 1.87383 0.0008429 -1.86875 0.06954 B18 -0.7895 -0.50674 -0.15849 0.7567120 -0.98984 1.41958 C19 0.6185 2.22194 0.07883 -0.1561215 -0.02548 0.48620 C20 0.7145 1.66846 2.80588 -0.3785720 -0.25915 -1.15531 C21 1.1727 1.41746 1.66662 -0.7760910 0.65029 -1.38191 C22 0.5862 1.72212 -0.43845 1.1549307 -0.41819 1.69981 C23 0.9887 0.79432 0.31634 1.6182242 1.35950 0.43986 C24 1.9791 -0.99426 -0.25711 -1.0953856 -1.17916 -0.29562 C25 1.9026 0.04425 -0.30714 0.9387210 -0.21708 0.77651 C26 3.3327 -2.45617 -1.48160 -0.4824233 0.04407 -0.42065 C27 0.6861 1.03696 -0.27713 -0.1801964 -0.32726 0.56050 Biplot scores for constraining variables RDA1 RDA2 RDA3 RDA4 RDA5 RDA6 Body_Weight 0.5206 0.4436600 -0.3798 0.56016 0.2633 0.069393 Hemoglobin 0.1662 0.5662365 -0.7618 -0.23690 0.1239 0.001214 Hematocrite 0.1688 0.5657423 -0.7583 -0.24414 0.1294 0.011582 Fecal_Iron 0.9665 0.0009713 -0.2170 -0.10697 -0.0264 -0.081759 SI_Iron.content 0.7605 0.5942258 0.0965 -0.14106 0.1406 -0.139699 Liver_iron 0.7905 0.5778338 0.1416 -0.04596 -0.1325 0.038554 # RDA模型的置换检验结果 RDA_re$model_information$model_permutest Permutation test for rda under reduced model Permutation: free Number of permutations: 999 Model: rda(X = data, Y = env, scale = T) Permutation test for all constrained eigenvalues Df Inertia F Pr(>F) Model 6 12.511 1.6362 0.002 ** Residual 20 25.488 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 # 表型数据因子检验结果 RDA_re$model_information$model_envfit ***VECTORS RDA1 RDA2 r2 Pr(>r) Body_Weight 0.73855 0.67420 0.3918 0.003 ** Hemoglobin 0.42460 0.90538 0.2708 0.025 * Hematocrite 0.42767 0.90393 0.2715 0.026 * Fecal_Iron 0.97803 0.20846 0.6436 0.001 *** SI_Iron.content 0.75712 0.65328 0.7775 0.001 *** Liver_iron 0.77079 0.63709 0.7974 0.001 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Permutation: free Number of permutations: 999 # 表型数据膨胀系数检验 RDA_re$model_information$model_vif Body_Weight Hemoglobin Hematocrite Fecal_Iron SI_Iron.content Liver_iron 1.968550 5408.293695 5400.909539 2.342255 10.267973 9.785037 图形结果展示： # 基本图形展示 RDA_re$plot$pic # 交互式图形 RDA_re$plot$html Tips 1：可以将鼠标放在感兴趣的点，查询样本信息及基本情况。 # 可以调整参数，进一步美化或者调整图形输出效果 # zoom 参数调整箭头和样本的相对距离 # arrow_col 调整两个箭头的颜色 # palette 调整分组颜色 # ellipse 在0~1之间取值标注样本置信区间 RDA_re Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-22 18:17:25 "},"MD/16.多层相关性Sankey图.html":{"url":"MD/16.多层相关性Sankey图.html","title":"Chapter 16 多重相关性Sankey图","keywords":"","body":"16. 多重相关性Sankey图  Sankey图过去常被用来描述所属流动结果关系，近年来有研究尝试利用sankey图的形式表现多层数据的相互关系。例如第一层为微生物数据，第二层为微生物功能数据（picrust结果或者功能基因组装结果），第三层为样本表型数据（临床症状等）。这种分层相互关系的展现形式，可以很好的描述微生物丰度-微生物功能-宿主病理生理表型的逻辑关系。本章节EMP_COR_SANKEY模块可以基于数据框列表，快速绘制多重相关性的交互式Sankey图。 16.1 EMP_COR_SANKEY模块  EMP_COR_SANKEY模块根据微生物数据和表型数据进行冗余分析。 16.1.1 参数介绍 data_list 按照顺序包含的数据框列表，格式需要符合3.2的格式要求。 cor_method 相关性计算方式（person，spearman，kendall)。【默认：Spearman】 rvalue 设定相关性计算的相关系数绝对值的阈值，低于此阈值的相关性结果将会被过滤。【默认：0.3】 pvalue 设定相关性计算的p值阈值，高于此阈值的相关性结果将会被过滤。【默认：0.05】 positive_col 设定正相关边的颜色。 negtive_col 设定负相关边的颜色。 sankey_ouput 设定是否输出结果在工作区文件夹。 file 设定输出文件名。 palette 指定绘图色板。 16.1.2 使用范例 代码示例： Tips 1：data_list支持多层数据，只需按照顺序依次排列在list内。 Tips 2：data_list内数据框包含的样本不必完全一致，两层之间的相互关系将采用交集样本计算。 Tips 3：EMP_COR_SANKEY模块计算相互关系时，将根据rvalue和pvalue过滤掉不符合意义的边，而孤立的节点将会被去除。 Tips 4：EMP_COR_SANKEY模块计算相互关系时，将判定中间层的节点必须左右均具有符合条件的相互关系，如只存在一侧关系的中间层节点将会被自动过滤。 # 基本用法 library(EasyMicroPlot) # 加载包 data(EMP) # 加载内置示例数据 Sankey_pic 基本计算结果： # 两两相关性结果 Sankey_pic$sankey_data source target value 1 V4 ko00062 -0.4269738 2 V8 ko00062 0.5953949 3 V14 ko00062 0.8701599 4 V8 ko05322 0.5811994 5 V14 ko05322 0.8452108 6 V4 ko00100 -0.4236874 7 V8 ko00100 0.6312576 8 V14 ko00100 0.8074742 9 V14 ko00740 0.6502133 10 V4 ko00350 -0.8620269 11 V8 ko00350 0.6459096 12 V11 ko00350 0.4163614 13 V14 ko00350 0.4438084 14 V3 ko01040 -0.4108669 15 V4 ko01040 -0.7759463 16 V8 ko01040 0.6819292 17 V14 ko01040 0.5829238 18 V4 ko00920 -0.5836386 19 V14 ko00920 0.5194146 20 V3 ko05143 0.4143512 21 V11 ko05143 -0.6552672 22 V14 ko05143 0.7366293 23 V11 ko00140 -0.5384615 24 V14 ko00140 0.6229951 29 V11 ko00627 0.4536020 30 V11 ko00053 0.6233211 31 V14 ko00053 -0.5723390 32 V3 ko00760 0.6019536 33 V4 ko00760 0.6910867 34 V8 ko00760 -0.7362637 35 V14 ko00760 -0.4695145 36 V4 ko00643 -0.5277981 37 V14 ko00643 0.4344559 54 V3 ko03410 0.4957265 55 V11 ko03410 -0.4084249 56 V14 ko03410 0.5889723 59 V3 ko00280 0.5299145 60 V12 ko00280 0.5067155 61 V14 ko00280 -0.4649781 62 V4 ko00510 0.6697192 63 V8 ko00510 -0.7936508 64 V14 ko00510 -0.4075174 110 ko00062 Body_Weight -0.4093981 210 ko00740 Body_Weight -0.4440373 310 ko00140 Body_Weight -0.5432891 410 ko00062 Hemoglobin -0.7193000 510 ko05322 Hemoglobin -0.6908386 65 ko00100 Hemoglobin -0.5867975 71 ko00740 Hemoglobin -0.5513452 81 ko00350 Hemoglobin -0.4281788 91 ko01040 Hemoglobin -0.5443158 101 ko00920 Hemoglobin -0.5767119 111 ko00140 Hemoglobin -0.4318463 121 ko00760 Hemoglobin 0.4804405 131 ko00643 Hemoglobin -0.4243372 141 ko00280 Hemoglobin 0.4349025 151 ko00510 Hemoglobin 0.4850248 161 ko00062 Hematocrite -0.7193000 171 ko05322 Hematocrite -0.6956372 181 ko00100 Hematocrite -0.5944381 191 ko00740 Hematocrite -0.5482889 201 ko00350 Hematocrite -0.4229832 211 ko01040 Hematocrite -0.5437046 221 ko00920 Hematocrite -0.5721276 231 ko00140 Hematocrite -0.4345969 241 ko00760 Hematocrite 0.4841079 25 ko00643 Hematocrite -0.4294001 26 ko00280 Hematocrite 0.4397925 27 ko00510 Hematocrite 0.4844136 28 ko00062 Fecal_Iron -0.5819080 291 ko05322 Fecal_Iron -0.5879092 301 ko00100 Fecal_Iron -0.5427350 311 ko00740 Fecal_Iron -0.6959707 321 ko05143 Fecal_Iron -0.5261069 331 ko00140 Fecal_Iron -0.5006105 341 ko00627 Fecal_Iron 0.5726496 351 ko00053 Fecal_Iron 0.5775336 361 ko03410 Fecal_Iron -0.5073260 371 ko00280 Fecal_Iron 0.4603175 38 ko00062 SI_Iron.content -0.6052633 39 ko05322 SI_Iron.content -0.6380732 40 ko00100 SI_Iron.content -0.5634921 41 ko00740 SI_Iron.content -0.6440781 42 ko01040 SI_Iron.content -0.4151404 43 ko05143 SI_Iron.content -0.4842748 44 ko00140 SI_Iron.content -0.4932845 45 ko00627 SI_Iron.content 0.5781441 46 ko00053 SI_Iron.content 0.5256410 47 ko00760 SI_Iron.content 0.4810745 48 ko03410 SI_Iron.content -0.4035409 49 ko00280 SI_Iron.content 0.4700855 50 ko00062 Liver_iron -0.5690791 51 ko05322 Liver_iron -0.5949386 52 ko00100 Liver_iron -0.5366300 53 ko00740 Liver_iron -0.6721612 541 ko01040 Liver_iron -0.4236874 551 ko00920 Liver_iron -0.3809524 561 ko05143 Liver_iron -0.4308397 57 ko00140 Liver_iron -0.5610501 58 ko00627 Liver_iron 0.6465201 591 ko00053 Liver_iron 0.5360195 601 ko00760 Liver_iron 0.4932845 611 ko03410 Liver_iron -0.3986569 621 ko00280 Liver_iron 0.4761905 图形结果展示： # 交互式图形结果 Sankey_pic$plot Tips 5：可以将鼠标拖动感兴趣的节点。 Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 17:13:11 "},"MD/Contact.html":{"url":"MD/Contact.html","title":"联系我们","keywords":"","body":"联系我们 😃😃😃谢您使用EasyMicroPlot工具进行微生物分析。 📬📬📬如果到任何BUG或者建议，欢迎随时联系我们。 E-Mail: 382983280@qq.com✉️ E-Mail:xielw@gdim.cn ✉️ 👇👇👇如果我们工具有帮助到您的文章发表，非常感谢您能引用我们的文章。 Bingdong Liu, Liujing Huang, Zhihong Liu, Xiaohan Pan, Zongbing Cui, Jiyang Pan*,Liwei Xie*. EasyMicroPlot : An Efficient and Convenient R Package in Microbiome Downstream Analysis and Visualization for Clinical Study. Frontiers in Genetics. doi: 10.3389/fgene.2021.803627 Copyright © 382983280@qq.com 2022 all right reserved，powered by Gitbook更新时间： 2022-09-06 10:42:40 "}}