这是学习文本挖掘编程的一个入门版本,代码的进阶版本见链接 。理论学习请参见链接 。
本项目所需的python版本为python3.8及以上。
本项目依赖的python包见requirements.txt。
可在命令行(Windows)或者终端(Linux/macOS)中一键安装:pip install -r requirements.txt
注意,如果你的系统中既有python2,又有python3,那此时应该指定具体的版本,如使用:pip3 install -r requirements.txt
请通过百度网盘下载datasets.zip文件,然后将之放置在该项目的根目录下,直接解压即可。
- 链接: https://pan.baidu.com/s/1VQy5ASZXKP6CaQs3-6WrBA 提取码: 05ef
解压后的目录应该包括./Text-Mining-Start/datasets/original/AAPR_Dataset/data3
最终该项目的目录结构如文件tree.txt所示。
-
show_json_data:查看源数据。
python data_processor.py --phase show_json_data -
extract_abs_label:从源数据中提取输入和输出。因为我用的是aapr这个数据集,所以此处是abs和label。对于不同的源数据,要自己写不同的数据处理方法。
python data_processor.py --phase extract_abs_label -
save_abs_label:将处理好的干净数据保存下来。
python data_processor.py --phase save_abs_label -
split_data:将干净数据按照某种比例分割开。
python data_processor.py --phase split_data -
get_vocab:为深度学习部分,生成一个字典。
python data_processor.py --phase get_vocab
-
训练全连接神经网络
python main.py --phase aapr.dl.mlp.norm -
训练卷积神经网络
python main.py --phase aapr.dl.textcnn.norm
--phase 后的 aapr.dl.mlp.norm为main.py中parser可以捕捉的参数,此时为深度学习的config文件名。
-
训练逻辑回归模型
python main.py --phase aapr.ml.lr.tfpython main.py --phase aapr.ml.lr.tfidfpython main.py --phase aapr.ml.lr.lda -
训练支持向量机模型
python main.py --phase aapr.ml.svm.tfpython main.py --phase aapr.ml.svm.tfidfpython main.py --phase aapr.ml.svm.lda
--phase 后的 aapr.ml.svm.tf为main.py中parser可以捕捉的参数,此时为机器学习的config文件名。
注意,如果你的系统中既有python2,又有python3,那此时应该指定使用python3,如执行python3 xx.py
风雨过后一定会有美好的天空
天晴之后总会有彩虹
战胜疫情一定有始有终
孤独尽头不一定惶恐
愿疫情早日退散。