A course design on information content security, intended to crawl and analyze specified topics on social networks.
analysis: 数据分析,包括性别比例,时间趋势分析,地域分析cluster: 聚类分析,主要是Kmeans聚类CrawlingStuff: 网络爬虫model: 中文文本处理模型,包括Bert、TFIDF、Word2Vec.output: 输出结果plot: 作图函数以及作图结果LDA.py: 对数据进行LDA分析的样例T-SNE.py: 对聚类结果进行T-SNE分析的样例TFIDF.py: 利用TF-IDF模型进行处理文件的样例bert.py: 利用Bert模型进行处理文件的样例LDA.py: 利用LDA模型进行处理文件的样例word2vec.py: 利用Word2Vec模型进行处理文件的样例final_process.py: 利用BERT和Kmeans的端到端的将文本数据进行分类的样例
运行main_crawl.py,可自由设定要搜索的内容/话题,结果存储路径,搜索日期范围。
爬取对象为指定日期范围内微博高级搜索的逐日搜索结果,每条数据含评论文字内容及相对于爬取时间点的评论发布时间。