随着移动互联网的发展,电商平台进入了一个快速发展期,截至目前各电商平台已积累了海量的用户行为数据。从是否能直接反映用户喜好这一维度,对用户行为数据可以分为两类,一类是显式反馈数据,一类是隐式反馈数据。目前针对隐式反馈的研究较少,但是隐式反馈数据在电商平台上的占比最大,通过对隐式反馈用户行为数据的挖掘可以为电商实现更进一步的精准营销提供可能,同时对隐式反馈数据分析挖掘也是对显式反馈数据很好地补充,所以对于电商平台来说针对隐式反馈用户行为的分析挖掘十分重要。因此本文提出了基于数据可视化、特征工程和机器学习模型等一系列方法对电商隐式反馈数据进行处理,以便实现对用户的购买行为进行预测以及更好的为用户推送商品。本文首先梳理了有关隐式反馈、用户行为、特征工程及购买预测的相关研究文献。总结了众多文献的研究内容,分析这些文献在研究中存在的不足。然后进一步提出了本文研究框架和研究方法。本文以电商大规模隐式反馈数据为研究基础,将购买预测问题转化为机器学习二分类问题。首先对原始数据进行清洗整理,去掉刷单用户和爬虫用户等,并通过数据可视化的方式观察购买转化率在时间上的分布等规律。然后基于观察到的规律构建四大特征指标,其中针对隐式反馈数据中没法明显表示用户喜好的这一缺陷设计了用户平均加权选择倾向特征来解决这一问题,并取得了不错的效果,所有特征按照特征群划分为6个特征群,总计988个特征。随后使用随机森林算法展示特征重要性这一特点,对特征进行筛选并留下784维特征。最后使用Logit回归、CNN卷积神经网络和Inception网络对处理好的数据进行购买预测,其中CNN和Inception的训练是将784维的特征转化成28*28的灰度图进行训练。因为样本数据不均衡,所以实验中使用F1指标来评价预测效果。最终Logit回归的F1值为11.25、CNN的F1值为11.41、Inception的F1值为12.42。实验表明,基于Inception网络的两个主要设计思想:多尺度卷积抽取多维度特征和隐含层也可输出结果,本文设计的Inception网络在天池用户行为数据集上取得了不错的预测效果。本文以电商用户行为的隐式反馈数据为中心,通过观察用户行为、进行特征工程和设计模型,完成了对用户购买行为的预测。本文构造的用户平均加权倾向特征和Inception模型,可以提高最终预测的效果。为电商平台向用户更好的推送商品,提供了一定的参考价值。
基本信息
题目 | 基于隐式反馈数据的用户行为分析及购买预测 |
文献类型 | 硕士论文 |
作者 | 卞天宇 |
作者单位 | 南京邮电大学 |
导师 | 张昌兵 |
文献来源 | 南京邮电大学 |
发表年份 | 2020 |
学科分类 | 信息科技,经济与管理科学 |
专业分类 | 计算机软件及计算机应用,企业经济,贸易经济 |
分类号 | F713.36;F274 |
关键词 | 隐式反馈,购买预测,特征工程 |
总页数: | 64 |
文件大小: | 2063K |
论文目录
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 主要研究内容与技术路线图 |
1.2.1 主要研究内容 |
1.2.2 研究技术路线图 |
1.3 主要研究方法 |
1.4 创新与不足 |
第二章 文献综述 |
2.1 对隐式反馈的研究 |
2.2 对用户行为的研究 |
2.3 对特征工程与选择的研究 |
2.4 对购买预测的研究 |
2.5 对现有研究的评述 |
第三章 数据预处理及分析 |
3.1 数据集介绍 |
3.2 数据清洗 |
3.3 数据探索 |
3.3.1 四种行为频次统计 |
3.3.2 四种行为分组频次统计 |
3.3.3 四种行为按天在时间上的分布 |
3.3.4 三种行为的购买转化率 |
3.4 训练集和测试集划分 |
3.5 特征设计 |
3.6 特征处理 |
3.7 特征选择 |
3.7.1 随机森林特征选择概述 |
3.7.2 特征重要性排名 |
第四章 模型构建及预测实验 |
4.1 实验评测指标 |
4.2 Logit回归 |
4.2.1 原理 |
4.2.2 Logit训练 |
4.3 CNN卷积神经网络 |
4.3.1 卷积神经网络的基本概念 |
4.3.2 设计卷积网络 |
4.3.3 数据转换 |
4.3.4 卷积网络训练 |
4.4 Inception网络 |
4.4.1 Inception原理 |
4.4.2 Inception网络设计 |
4.4.3 Inception网络训练 |
4.5 实验对比 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录1 程序清单 |
附录2 攻读硕士学位期间撰写的论文 |
附录3 攻读硕士学位期间获得的奖项 |
致谢 |
参考文献
[1] 基于隐式反馈数据的个性化游戏推荐[J]. 电子学报 2018(11) |
[2] 基于机床反馈数据和工艺知识的进给速度优化[J]. 机械制造 2017(09) |
[3] 毕业实习数据反馈与高校教学改革互动机制建设[J]. 教育学术月刊 2012(11) |
[4] 趣味心理测试图连连看[J]. 读写算(科技知识动漫) 2015(Z2) |
[5] 一种基于内容的新闻推荐系统实例[J]. 电脑知识与技术 2015(25) |
[6] 大数据解读“双11”[J]. 齐鲁周刊 2017(46) |
[7] 客户反馈挖掘技术研究[J]. 科技广场 2012(07) |
[8] 基于“慧学云”平台预习反馈数据进行动态分层与确立分层教学目标的研究[J]. 中国现代教育装备 2016(24) |
相似文献
[1]基于隐式反馈数据的个性化游戏推荐[D]. 陈聪.杭州电子科技大学2018 |
[2]基于机器学习的用户反馈数据中心设计与实现[D]. 苗林茂.北京交通大学2017 |
[3]基于HADOOP的电商实时用户行为分析系统[D]. 赵东昕.上海交通大学2016 |
[4]基于Spark的用户行为分析系统研究及实现[D]. 肖顺.长江大学2019 |
[5]基于Spark的用户行为分析系统的设计与实现[D]. 殷乐.战略支援部队信息工程大学2018 |
[6]基于网约车的用户行为分析系统设计与实现[D]. 王菲.首都经济贸易大学2018 |
[7]基于移动用户行为分析的城市功能区识别研究[D]. 张令浩.重庆邮电大学2018 |
[8]基于Web应用的日志异常检测与用户行为分析研究[D]. 冯秋燕.华南理工大学2019 |
[9]动态异构数据分布式处理与特征提取[D]. 陈戈.上海交通大学2016 |
[10]基于微博的用户行为分析及智能推荐[D]. 黄万云.景德镇陶瓷大学2018 |