Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
77 changes: 77 additions & 0 deletions Chinese_version/Final/AI for Electrochemistry/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,77 @@
## 赛题背景

AI4EC赛道由DeepModeling开源社区、嘉庚创新实验室人工智能应用电化学联合实验室(AI4EC)联合主办,旨在鼓励希望探索各类电池领域相关材料的电化学性质的选手,运用AI4Science相关软件工具,用于开发针对某一体系,或某一环境下,诸如材料氧化还原电位、反应自由能变等性质计算的工作流;也可以用于解决某一特定的问题,总之,如果你渴望用材料来不断定义能源,欢迎你加入AI for Electrochemistry的探索之旅!

本赛道赛题分为自由命题和固定命题两个部分。我们特别鼓励大家做自由命题,只要和AI4EC相关的任何创意都非常欢迎;当然如果大家对自由命题不知所措,也可以参与固定命题赛道,在指定的命题下发挥自己的创意与才华。

## 赛题内容

### 一、自由命题

本赛道的选手拥有充分的创意自由,可以选择任意和AI4EC相关的想法来完成。包括但不限于:

- 场景探索:使用AI4EC的算法或软件,探索一些实际应用场景

- 工作流开发类:围绕一些常见场景,开发AI4EC工作流

选择这个赛道的选手,需要在初赛阶段提交自己的proposal来描述自己的想法并初步证实该想法可行性(评审组也会给出一些建设性的指导建议,方便更好的实现)。

### 二、如果你没有想法或灵感,可以参考以下方向:

#### 赛题:构建通过机器学习加速的氧化还原电位计算的自动化工作流(第二阶段)

#### 背景 & 问题

- 基于第一性原理的分子动力学模拟(AIMD) 计算自由能速度慢、效率低。

- 通过机器学习势能 (MLP) 可以加速 AIMD 模拟。MLP的准确性需要高质量的数据集来保证。 深度势能生成器 (DP-GEN) 可用于产生适合MLP的数据集。

#### 目标

构建DP-GEN与氧化还原电位计算方法相结合的工作流

#### 可能的解决方案

- 理解氧化还原电位计算:参考*J. Chem. Phys. 157, 024103 (2022)*和其它相关文献

- 使用DP-GEN:请从github下载DP-GEN的源代码并阅读其主体。

- 构建工作流:可以通过直接修改DP-GEN的源代码,实现自由能微扰与MLP训练的耦合。

#### 入门(第一阶段,初赛部分)

- 通过阅读LAMMPS的输入文件了解使用深度势能分子动力学(DPMD)实现自由能计算的过程。并对比常规的DPMD计算文件,分析异同。

- 阅读论文*J. Chem. Phys. 157, 024103 (2022)*,理解如何计算出垂直能量差(vertical energy gaps)和热力学积分(thermodynamic integration)。

- 读取LAMMPS输出文件计算垂直能量差并画出统计平均图像。

- 基于统计平均的垂直能量差,画出热力学积分图像,计算自由能。

#### 数据集 & 材料

- 2个深度势能模型的数据集 (OH氧化还原电位计算的初始和最终状态),

- LAMMPS的输入文件、计算输出文件

- 下载地址:https://dp-public.oss-cn-beijing.aliyuncs.com/community/ai4ec.zip

#### 决赛得分点

- 理解dpgen自动化生成lammps输入文件的方法,并修改dpgen/generator/lib/lammps.py使其可以生成自由能计算的输入文件,在修改处以注释的形式打上标签。

- 修改dpgen/generator/run.py文件,构建自由能计算势函数训练自动化工作流,在修改处以注释的形式打上标签。

- dpgen如何修改的分析报告。

#### 决赛提交格式

- 修改后的dpgen/generator/lib/lammps.py副本。 (python源文件)(决赛-1)

- 修改后的dpgen/generator/run.py文件。(python源文件)(决赛-2)

- dpgen修改分析报告。(word)(决赛-3)

更多赛题详细信息,请[点击此处](https://dptechnology.feishu.cn/docx/UJIwdMKf6oMhMjxRQcfciR8onyc?from=from_copylink)


94 changes: 94 additions & 0 deletions Chinese_version/Final/AI for Life Sciences/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,94 @@
# 赛题背景

药物发现利用广泛的技术引导了与疾病相关的新型化学实体进入临床环境,以满足患者未得到满足的需求。虽然许多传统技术方法被用于“湿”实验,但最近几十年,计算方法的开发和应用已经被广泛应用。近年来,人工智能,特别是机器学习方法的复兴,加速了药物发现过程,提高了临床前研发效率[1]。


AI for Life Sciences赛道鼓励选手针对生物医药领域普遍关心的问题,使用AI4Science相关软件工具尝试解决。希望选手能够可以针对生物医药领域中目前已有的应用场景提出解决方案,如各种性质预测,靶标预测,结合模式探究及分子生成等实际场景;同时鼓励选手尝试使用不同软件与工具,比如Uni-Mol深入探索某个领域——总之只要是和AI4Science与生物医药有关的一切探索在这里都被鼓励!


**本赛道赛题分为自由命题和固定命题两个部分。我们特别鼓励大家做自由命题,只要和生物医药相关的任何创意都非常欢迎;当然如果大家对自由命题不知所措,也可以参与固定命题赛道,在指定的命题下发挥自己的创意与才华。**

## 赛题内容

### 一、自由命题

本赛道的选手拥有充分的创意自由,可以选择生物医药领域大家关心的问题,使用AI4Science相关算法和工具进行探索。

#### 初赛要求:

选择这个赛道的选手,需要在初赛阶段提交自己的proposal来描述自己的想法并初步证实该想法可行性(评审组也会给出一些建设性的指导建议,方便更好的实现)。

#### 决赛要求:

我们鼓励您按照proposal进一步落地,并尽可能地展现作品的优势和创新点,同时准备充分的演示和答辩,以便能够向评审团展示作品的价值和实用性。我们将从创新性、技术实现、可扩展性、代码规范、文档完整、团队合作等方面评估您的作品。

#### 您需要提交:

1. 带有规范注释的代码文件

2. 一份说明文档

3. 其他支撑材料(如数据、测试评估结果)

### 二、如果你没有想法或灵感,可以考虑探索以下方向:

#### 背景描述:

定量构效关系(quantitative structure-activity relationships,QSAR),是研究一组化合物的活性、毒性、药代性质与其结构(structural)、物理化学性质(physicochemical)、拓扑结构(topological)等之间的相关关系,并用数理统计模型加以表征的研究方法。近几十年来,随着药物相关数据的大量积累,基于QSAR的药物设计与发现方法已转向利用大规模数据源和分子描述符库,使用更多的机器学习算法自动生成预测模型。然而,QSAR模型的准确性在很大程度上依然受限于分子表示方法。具体来说,分子表示方法包括类机器可读的分子表示、字符串表示、化学表表示、基于特征的表示等,常用的方法一般依赖于2D,导致模型无法学习到三维空间下的配体分子信息。

Uni-Mol是一个用于三维分子表示的多功能框架,在训练过程中直接利用分子的三维信息,极大地增强了模型的表现力和适用性。Uni-Mol包含两个具有相同架构的模型:一个是分子预训练模型,其在一个包含2.09亿个分子构象的数据集上进行训练;一个是口袋预训练模型,在一个包含300万个蛋白质口袋的数据集上进行训练。此外,Uni-Mol的模型架构满足SE(3)等变性。在下游实验中,Uni-Mol不仅在先前研究过的分子性质预测任务中达到了最先进的性能,而且在与药物发现相关的一系列下游任务中表现出色,特别是那些涉及了与三维信息高度相关的任务。这些任务的例子包括高精度分子构象生成、蛋白质-配体结合构象预测和蛋白质口袋属性预测。Uni-Mol在诸如小分子性质预测、蛋白质靶点预测、蛋白质-配体复合物构象预测和量子化学性质预测等任务中表现出优越的性能和强大的泛化能力,超越了现有的解决方案。

现在,我们鼓励选手进一步地探索采用3D分子表示框架Uni-Mol解决更多药物设计与发现具体场景的实际难题,赛题参考如下。


#### 赛题一:蛋白质靶点预测

药物候选物与靶蛋白之间物理相互作用的识别是药物发现中的关键环节。根据统计数据,目前关于药物-蛋白质空间的知识相当有限,因此需要新的方法来扩展我们的理解。已经发表的研究表明,蛋白质靶点预测是一个开放性问题,不仅需要新算法,还需要新的表示方法来阐明尚未探索的药物-靶点相互作用(DTI)空间和其他相关任务,典型的例子包括激酶谱预测。

在初赛中,我们鼓励选手基于我们所开发的3D分子表示Uni-Mol框架提出解决方案,Uni-Mol结合了分子和口袋预训练模型,学习基于距离矩阵的评分函数,而后通过采样和优化复合物构象来实现蛋白质-配体结合的预测。

在决赛中,我们鼓励您按照proposal进一步落地,并尽可能地展现作品的优势和创新点,同时准备充分的演示和答辩,以便能够向评审团展示作品的价值和实用性。我们将从创新性、技术实现、可扩展性、代码规范、文档完整、团队合作等方面评估您的作品。


#### 赛题二:分子性质预测

分子性质预测的目标是从一组已知化合物中学习一个可泛化的模型,该模型可以应用于新的分子。这通常涉及系统地设计或选择描述符作为监督式机器学习模型训练的输入。例如,Dahl等[2]和Mayr等[3]报告了在tox21挑战数据集上应用深度神经网络(DNNs)成功进行ADMET预测。Uni-Mol也在分子性质预测这一重要任务中进行了实验,吸引了人工智能(AI)从业者的大量关注。它在各种性质和数据集上相较于最先进(SOTA)方法表现出优越的性能。

在初赛中,我们鼓励选手基于Uni-Mol开发面向某一具体场景的分子性质预测模型,或者提出更优的通用解决方案。

在决赛中,我们鼓励您按照proposal进一步落地,并尽可能地展现作品的优势和创新点,同时准备充分的演示和答辩,以便能够向评审团展示作品的价值和实用性。我们将从创新性、技术实现、可扩展性、代码规范、文档完整、团队合作等方面评估您的作品。


#### 目标(决赛)

1. 初赛要求提供数据收集、数据清洗、模型构建和评估过程的概述。概述可以包括但不限于各种药物性质预测、蛋白靶点预测(例如激酶谱靶标预测等),以及构象生成。而决赛要求根据初赛的proposal,提供实现过程的代码(含注释及相关说明)及实现结果,要求产出一份逻辑严密的文档。

2. 利用Uni-Mol notebook学习Uni-QSAR案例并撰写使用体验,字数不限。(有关更多详细信息,请参阅“入门”)。


#### 入门

https://nb.bohrium.dp.tech/detail/1032


#### 得分点

1. 报告中提出的想法的新颖性和可行性。

2. 报告的合理性和完整性。

#### 提交格式

- 压缩文件需包含:

1. 包含应用场景的背景介绍、实际意义以及数据收集、数据清洗、模型构建和模型评估过程概述的报告。该报告着重于提供一个研究框架,不需要具体实现。

2. 通过笔记本运行Uni-QSAR的经验和反馈的报告。此报告没有字数限制。

## 提交方式

- 发送邮件至邮箱:hackathon@deepmodeling.com

- 邮件命名为“赛道_姓名_方向.zip”,如“AI4Science应用场景探索_小明_DMFF.zip,AI for Life Sciences_李华_自由赛道.zip”,若邮件内有附件,附件同邮件名。

- 邮件内容包含参赛者姓名,压缩包/bohrium Notebook链接(具体看赛题要求),以及必要的说明
Loading