Name	Name	Last commit message	Last commit date
parent directory ..
deploy	deploy
README.md	README.md
compress_qa.py	compress_qa.py
compress_seq_cls.py	compress_seq_cls.py
compress_token_cls.py	compress_token_cls.py
compress_trainer.py	compress_trainer.py
config.yml	config.yml
infer.py	infer.py
run_qa.py	run_qa.py
run_seq_cls.py	run_seq_cls.py
run_token_cls.py	run_token_cls.py

ERNIE 3.0 轻量级模型

模型介绍
模型效果
微调
模型压缩
部署
Notebook教程
参考文献

模型介绍

本次开源的模型是在文心大模型ERNIE 3.0 基础上通过在线蒸馏技术得到的轻量级模型，模型结构与 ERNIE 2.0 保持一致，相比 ERNIE 2.0 具有更强的中文效果。

在线蒸馏技术

在线蒸馏技术在模型学习的过程中周期性地将知识信号传递给若干个学生模型同时训练，从而在蒸馏阶段一次性产出多种尺寸的学生模型。相对传统蒸馏技术，该技术极大节省了因大模型额外蒸馏计算以及多个学生的重复知识传递带来的算力消耗。

这种新颖的蒸馏方式利用了文心大模型的规模优势，在蒸馏完成后保证了学生模型的效果和尺寸丰富性，方便不同性能需求的应用场景使用。此外，由于文心大模型的模型尺寸与学生模型差距巨大，模型蒸馏难度极大甚至容易失效。为此，通过引入了助教模型进行蒸馏的技术，利用助教作为知识传递的桥梁以缩短学生模型和大模型表达空间相距过大的问题，从而促进蒸馏效率的提升。

更多技术细节可以参考论文：

模型效果

本项目开源 ERNIE 3.0 Base 和 ERNIE 3.0 Medium 两个模型：

ERNIE 3.0-Base (12-layer, 768-hidden, 12-heads)
ERNIE 3.0-Medium (6-layer, 768-hidden, 12-heads)

在 CLUE 验证集上评测指标如下表所示：

Arch	Model	AVG	AFQMC	TNEWS	IFLYTEK	CMNLI	OCNLI	CLUEWSC2020	CSL	CMRC2018	CHID	C³
12L768H	ERNIE 3.0-Base-zh	76.05	75.93	58.26	61.56	83.02	80.10	86.18	82.63	70.71/90.41	84.26	77.88
	ERNIE-Gram-zh	75.72	75.28	57.88	60.87	82.90	79.08	88.82	82.83	71.82/90.38	84.04	73.69
	Mengzi-BERT-Base	74.69	75.35	57.76	61.64	82.41	77.93	88.16	82.20	67.04/88.35	83.74	70.70
	ERNIE-1.0	74.17	74.84	58.91	62.25	81.68	76.58	85.20	82.77	67.32/87.83	82.47	69.68
	RoBERTa-wwm-ext	74.11	74.60	58.08	61.23	81.11	76.92	88.49	80.77	68.39/88.50	83.43	68.03
	BERT-Base-Chinese	72.57	74.63	57.13	61.29	80.97	75.22	81.91	81.90	65.30/86.53	82.01	65.38
6L768H	ERNIE 3.0-Medium-zh	72.49	73.37	57.00	60.67	80.64	76.88	79.28	81.60	65.83/87.30	79.91	69.73
	HLF/RBT6, Chinese	69.74	73.15	56.62	59.68	79.26	73.15	75.00	80.04	62.26/84.72	78.26	59.93
	TinyBERT₆, Chinese	69.58	72.22	55.70	54.48	79.12	74.07	77.63	80.17	62.63/83.72	77.64	62.11
	RoFormerV2 Small	68.52	72.47	56.53	60.72	76.37	72.95	75.00	81.07	62.97/83.64	67.66	59.41
	UER/Chinese-RoBERTa (L6-H768)	66.67	70.13	56.41	59.79	77.38	71.86	69.41	76.73	53.22/75.03	77.00	54.77

以下是本项目目录结构及说明：

.
├── run_seq_cls.py               # 分类任务的微调脚本
├── run_token_cls.py             # 序列标注任务的微调脚本
├── run_qa.py                    # 阅读理解任务的微调脚本
├── compress_seq_cls.py          # 分类任务的压缩脚本
├── compress_token_cls.py        # 序列标注任务的压缩脚本
├── compress_qa.py               # 阅读理解任务的压缩脚本  
├── config.yml                   # 压缩配置文件
├── infer.py                     # 支持 CLUE 分类、CLUE CMRC2018、MSRA_NER 任务的预测脚本
├── deploy                       # 部署目录
│ └── python
│   └── ernie_predictor.py
│   └── infer_cpu.py
│   └── infer_gpu.py
│   └── README.md
│ └── serving
│   └── seq_cls_rpc_client.py  
│   └── seq_cls_service.py  
│   └── seq_cls_config.yml  
│   └── token_cls_rpc_client.py  
│   └── token_cls_service.py  
│   └── token_cls_config.yml
│   └── README.md
│ └── paddle2onnx
│   └── ernie_predictor.py  
│   └── infer.py
│   └── README.md
└── README.md                    # 文档，本文件

微调

from paddlenlp.transformers import *

tokenizer = AutoTokenizer.from_pretrained("ernie-3.0-medium-zh")

# 用于分类任务
seq_cls_model = AutoModelForSequenceClassification.from_pretrained("ernie-3.0-medium-zh")

# 用于序列标注任务
token_cls_model = AutoModelForTokenClassification.from_pretrained("ernie-3.0-base-zh")

# 用于阅读理解任务
qa_model = AutoModelForQuestionAnswering.from_pretrained("ernie-3.0-base-zh")

本项目提供了针对分类、序列标注、阅读理解三大场景下的微调使用样例，可分别参考 run_seq_cls.py 、run_token_cls.py、run_qa.py 三个脚本，启动方式如下：

# 分类任务
python run_seq_cls.py  --task_name tnews --model_name_or_path ernie-3.0-base-zh --do_train

# 序列标注任务
python run_token_cls.py --task_name msra_ner  --model_name_or_path ernie-3.0-medium-zh --do_train

# 阅读理解任务
python run_qa.py --model_name_or_path ernie-3.0-medium-zh --do_train

模型压缩

环境依赖

使用裁剪功能需要安装 paddleslim 包

pip install paddleslim

压缩效果

模型压缩 API 使用

本项目基于 PaddleNLP 的 Trainer API 发布提供了模型压缩 API。压缩 API 支持用户对 ERNIE、BERT 等Transformers 类下游任务微调模型进行裁剪、量化。用户只需要简单地调用 compress() 即可一键启动裁剪和量化，并自动保存压缩后的模型。

可以这样使用压缩 API (示例代码只提供了核心调用，如需跑通完整的例子可参考下方完整样例脚本):

trainer = Trainer(
        model=model,
        args=training_args,
        data_collator=data_collator,
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        tokenizer=tokenizer)

output_dir = os.path.join(model_args.model_name_or_path, "compress")

compress_config = CompressConfig(quantization_config=PTQConfig(
        algo_list=['hist', 'mse'], batch_size_list=[4, 8, 16]),
        DynabertConfig(width_mul_ist=[3/4]))

trainer.compress(
    data_args.dataset,
    output_dir,
    pruning=True, # 开启裁剪
    quantization=True, # 开启量化
    compress_config=compress_config)

由于压缩 API 基于 Trainer，所以首先需要初始化一个 Trainer 实例，对于模型压缩来说必要传入的参数如下：

model：ERNIE、BERT 等模型，是在 task_name 任务中微调后的模型。以分类模型为例，可通过AutoModelForSequenceClassification.from_pretrained(model_name_or_path) 来获取
data_collator：三类任务均可使用 PaddleNLP 预定义好的DataCollator 类，data_collator 可对数据进行 Pad 等操作。使用方法参考本项目中代码即可
train_dataset：裁剪训练需要使用的训练集
eval_dataset：裁剪训练使用的评估集，也是量化使用的校准数据
tokenizer：模型model对应的 tokenizer，可使用 AutoTokenizer.from_pretrained(model_name_or_path) 来获取

然后可以直接调用 compress 启动压缩，其中 compress 的参数释义如下：

task_name：任务名，例如 tnews、msra_ner、clue cmrc2018等
output_dir：裁剪、量化后的模型保存目录
pruning：是否裁剪，默认为True
quantization：是否量化，默认为 True
compress_config：压缩配置，需要分别传入裁剪和量化的配置实例。目前裁剪和量化分别仅支持DynabertConfig和PTQConfig类。当默认参数不满足需求时，可通过传入参数对压缩过程进行特殊配置：

其中，DynabertConfig中可以传的参数有：

width_mult_list：裁剪宽度保留的比例，对 6 层模型推荐 3/4 ，对 12 层模型推荐 2/3，表示对 q、k、v 以及 ffn 权重宽度的保留比例。默认是 3/4
output_filename_prefix：裁剪导出模型的文件名前缀，默认是"float32"

PTQConfig中可以传的参数有：

algo_list：量化策略列表，目前支持 KL, abs_max, min_max, avg, hist和mse，不同的策略计算量化比例因子的方法不同。建议传入多种策略，可批量得到由多种策略产出的多个量化模型，从中选择最优模型。推荐hist, mse, KL，默认是["hist"]
batch_size_list：校准样本数，默认是 [4]。并非越大越好，也是一个超参数，建议传入多种校准样本数，可从多个量化模型中选择最优模型。
input_dir：待量化模型的目录。如果是 None，当不启用裁剪时，表示待量化的模型是 Trainer 初始化的模型；当启用裁剪时，表示待量化的模型是裁剪后导出的模型。默认是None
input_filename_prefix：待量化模型文件名前缀，默认是 "float32"
output_filename_prefix：导出的量化模型文件名后缀，默认是"int8"

本项目还提供了压缩 API 在文本分类、序列标注、阅读理解三大场景下的使用样例，可以分别参考 compress_seq_cls.py 、compress_token_cls.py、compress_qa.py，启动方式如下：

# 文本分类任务
python compress_seq_cls.py --dataset "clue tnews"  --model_name_or_path best_models/TNEWS  --output_dir ./

# 序列标注任务
python compress_token_cls.py --dataset "msra_ner"  --model_name_or_path best_models/MSRA_NER  --output_dir ./

# 阅读理解任务
python compress_seq_cls.py --dataset "clue cmrc2018"  --model_name_or_path best_models/CMRC2018  --output_dir ./

测试模型压缩后的精度：

# 原模型
python infer.py --task_name tnews --model_path best_models/TNEWS/compress/inference/infer --use_trt
# 裁剪后
python infer.py --task_name tnews --model_path best_models/TNEWS/compress/0.75/float --use_trt
# 量化后
python infer.py --task_name tnews --model_path best_models/TNEWS/compress/0.75/hist16/int8 --use_trt --precision int8

压缩 API 使用TIPS：

压缩 API 提供裁剪和量化两个功能，如果硬件支持量化模型的部署，建议裁剪和量化都选择。目前支持的裁剪策略需要训练，训练时间视下游任务数据量而定，且和微调的训练时间是一个量级。量化则不需要训练，更快，量化的加速比比裁剪更明显，但是单独量化精度下降可能也更多；
裁剪类似蒸馏过程，方便起见，可以直接使用微调时的超参。为了进一步提升精度，可以对 batch_size、learning_rate、epoch、max_seq_length 等超参进行 grid search；
模型压缩主要用于推理部署，因此压缩后的模型都是静态图模型，只可用于推理部署，不能再通过 from_pretrained 导入继续训练。

压缩效果

精度测试

本案例中我们对 ERNIE 3.0-Medium 模型在三类任务上微调后的模型使用压缩 API 进行压缩。压缩后精度如下：

Model	AVG	AFQMC	TNEWS	IFLYTEK	CMNLI	OCNLI	CLUEWSC2020	CSL	CMRC2018	MSRA_NER
ERNIE 3.0-Medium	74.87	75.35	57.45	60.18	81.16	77.19	80.59	81.93	66.95/87.15	92.65/93.43/93.04
ERNIE 3.0-Medium+FP16	74.87	75.32	57.45	60.22	81.16	77.22	80.59	81.90	66.95/87.16	92.65/93.45/93.05
ERNIE 3.0-Medium+裁剪+FP32	74.70	75.14	57.31	60.29	81.25	77.46	79.93	81.70	65.92/86.43	93.10/93.43/93.27
ERNIE 3.0-Medium+裁剪+FP16	74.71	75.21	57.27	60.29	81.24	77.56	79.93	81.73	65.89/86.44	93.10/93.43/93.27
ERNIE 3.0-Medium+裁剪+量化+INT8	74.44	75.02	57.26	60.37	81.03	77.25	77.96	81.67	66.17/86.55	93.17/93.23/93.20
ERNIE 3.0-Medium+量化+INT8	74.10	74.67	56.99	59.91	81.03	75.05	78.62	81.60	66.32/86.82	93.10/92.90/92.70

评价指标说明： 其中 CLUE 分类任务（AFQMC、TNEWS、IFLYTEK、CMNLI、OCNLI、CLUEWSC2020、CSL）的评价指标是 Accuracy，阅读理解任务 CLUE CMRC2018 的评价指标是 EM (Exact Match) / F1-Score，计算平均值时取 EM，序列标注任务 MSRA_NER 的评价指标是 Precision/Recall/F1-Score，计算平均值时取 F1-Score。

由表可知，ERNIE 3.0-Medium 模型经过裁剪和量化后，精度平均下降 0.46，其中裁剪后下降了 0.17，单独量化精度平均下降 0.77。

性能测试

性能测试的配置如下：

数据集：TNEWS（文本分类）、MSRA_NER（序列标注）、CLUE CMRC2018（阅读理解）
计算卡：T4、CUDA11.2、CuDNN8.2
CPU 信息：Intel(R) Xeon(R) Gold 6271C CPU
PaddlePaddle 版本：2.3
PaddleNLP 版本：2.3
性能数据单位是 QPS。QPS 测试方法：固定 batch size 为 32，测试运行时间 total_time，计算 QPS = total_samples / total_time
精度数据单位：文本分类是 Accuracy，序列标注是 F1-Score，阅读理解是 EM (Exact Match)

CPU 性能

测试环境及说明如上，测试 CPU 性能时，线程数设置为12。

	TNEWS 性能	TNEWS 精度	MSRA_NER 性能	MSRA_NER 精度	CMRC2018 性能	CMRC2018 精度
ERNIE 3.0-Medium+FP32	311.95(1.0X)	57.45	90.91(1.0x)	93.04	33.74(1.0x)	66.95
ERNIE 3.0-Medium+INT8	600.35(1.9x)	56.57(-0.88)	141.00(1.6x)	92.64(-0.40)	56.51(1.7x)	66.23(-0.72)
ERNIE 3.0-Medium+裁剪+FP32	408.65(1.3x)	57.31(-0.14)	122.13(1.3x)	93.27(+0.23)	48.47(1.4x)	65.55(-1.40)
ERNIE 3.0-Medium+裁剪+INT8	704.42(2.3x)	56.69(-0.76)	215.58(2.4x)	92.39(-0.65)	75.23(2.2x)	63.47(-3.48)

三类任务（分类、序列标注、阅读理解）经过相同压缩过程后，加速比达到 2.3 左右。

GPU 性能

	TNEWS 性能	TNEWS 精度	MSRA_NER 性能	MSRA_NER 精度	CMRC2018 性能	CMRC2018 精度
ERNIE 3.0-Medium+FP32	1123.85(1.0x)	57.45	366.75(1.0x)	93.04	146.84(1.0x)	66.95
ERNIE 3.0-Medium+FP16	2672.41(2.4x)	57.45(0.00)	840.11(2.3x)	93.05(0.01)	303.43(2.1x)	66.95(0.00)
ERNIE 3.0-Medium+INT8	3226.26(2.9x)	56.99(-0.46)	889.33(2.4x)	92.70(-0.34)	348.84(2.4x)	66.32(-0.63
ERNIE 3.0-Medium+裁剪+FP32	1424.01(1.3x)	57.31(-0.14)	454.27(1.2x)	93.27(+0.23)	183.77(1.3x)	65.92(-1.03)
ERNIE 3.0-Medium+裁剪+FP16	3577.62(3.2x)	57.27(-0.18)	1138.77(3.1x)	93.27(+0.23)	445.71(3.0x)	65.89(-1.06)
ERNIE 3.0-Medium+裁剪+INT8	3635.48(3.2x)	57.26(-0.19)	1105.26(3.0x)	93.20(+0.16)	444.27(3.0x)	66.17(-0.78)

三类任务（分类、序列标注、阅读理解）经过裁剪 + 量化后加速比均达到 3 倍左右，所有任务上平均精度损失可控制在 0.5以内（0.46）。

部署

我们为ERNIE 3.0提供了多种部署方案，可以满足不同场景下的部署需求，请根据实际情况进行选择。

Python 部署

Python部署请参考：Python部署指南

服务化部署

服务化部署请参考：服务化部署指南

Paddle2ONNX 部署

ONNX 导出及 ONNXRuntime 部署请参考：ONNX导出及ONNXRuntime部署指南

Notebook教程

参考文献

Sun Y, Wang S, Feng S, et al. ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation[J]. arXiv preprint arXiv:2107.02137, 2021.
Su W, Chen X, Feng S, et al. ERNIE-Tiny: A Progressive Distillation Framework for Pretrained Transformer Compression[J]. arXiv preprint arXiv:2106.02241, 2021.
Wang S, Sun Y, Xiang Y, et al. ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation[J]. arXiv preprint arXiv:2112.12731, 2021.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

ERNIE 3.0 轻量级模型

模型介绍

在线蒸馏技术

模型效果

微调

模型压缩

环境依赖

压缩效果

模型压缩 API 使用

压缩效果

精度测试

性能测试

CPU 性能

GPU 性能

部署

Python 部署

服务化部署

Paddle2ONNX 部署

Notebook教程

参考文献

FilesExpand file tree

ernie-3.0

Directory actions

More options

Directory actions

More options

Latest commit

History

ernie-3.0

Folders and files

parent directory

README.md

ERNIE 3.0 轻量级模型

模型介绍

在线蒸馏技术

模型效果

微调

模型压缩

环境依赖

压缩 效果

模型压缩 API 使用

压缩效果

精度测试

性能测试

CPU 性能

GPU 性能

部署

Python 部署

服务化部署

Paddle2ONNX 部署

Notebook教程

参考文献

压缩效果