一个基于真实教育平台数据的完整分析项目,涵盖用户行为分析、流失预测和个性化课程推荐系统。
随着互联网与通信技术的高速发展,线上教育日益普及。本项目基于某线上教育平台2018年9月至2020年6月的运营数据,进行用户行为分析与课程智能推荐策略研究,旨在提升平台的服务质量与用户学习体验。
- 用户活跃度分析:分析用户分布、增长趋势、活跃时段,并计算用户流失率。
- 课程推荐策略:评估课程受欢迎程度,并构建协同过滤推荐模型,为平台提供个性化课程推荐建议。
本项目包含三个核心数据表:
users.csv: 用户基本信息,如注册时间、最近访问时间、学习时长等。study_information.csv: 用户学习记录,如课程ID、加入时间、学习进度、课程价格等。login.csv: 用户登录明细,如登录时间、登录地点等。
本项目的分析工作主要围绕以下四个模块展开:
- 处理
users表中recently_logged字段的缺失值("--")。
- 绘制各省市登录次数热力图,分析用户地理分布。
- 分析每月新增用户数及环比增长趋势。
- 对比工作日与非工作日的用户活跃时段。
- 根据“最近访问时间”计算平台整体用户流失率。
- 计算并可视化最受欢迎的Top 10课程。
- 通过计算留存率,进行用户生命周期分析。
- 用户地理分布:平台用户绝大多数集中在中国,其中广东省的登录次数遥遥领先。海外用户较少,主要分布在欧洲(特别是英国和德国)。
- 用户活跃时段:工作日,用户活跃时段集中在上午9-10点、下午14-16点以及晚间19点和22点。非工作日,用户活跃时段为上午9-11点、下午14-16点和晚间19-21点,峰值出现在晚间20点。
- 用户增长趋势:平台在2020年初(疫情期间)迎来了一波显著的新增用户高峰。
- 用户流失与留存: 流失率:以“超过90天未登录”为标准,平台的用户流失率约为 52.96%。 留存率:新用户留存率随时间快速下降,1个月后留存率为 28.87%,3个月后降至10.51%,6个月后仅剩 4.83%。
- 课程受欢迎程度: -大多数课程的参与人数集中在1000-5000人次。 -“课程76”是平台目前最受欢迎的课程,参与人数(13265人)远超其他课程。