»
大数据挖掘的标准流程 »
大数据挖掘(big data mining)的业务流程

大数据挖掘(big data mining)的业务流程

随着互联网的发展,数据的量越来越大,由此产生了数据仓库(data warehouse)。因其太大,无法用传统的方法进行处理,由此产生了数据库知识发现(knowledge discovery in database)。
对大数据加以处理利用,通常的思路有两个:
一个是:假设-数据-检验。在真正利用数据前,已经有了一个因果的理论假设,然后利用已有的数据来证明这个假设是否属实。
另一个是:数据库知识发现(knowledge discovery in database)。用具体的技术方法对数据进行处理而得出结论。由此形成了跨行业数据挖掘标准流程(CRISP-DM 即 cross-industry standard process for data mining)。其中包括六个阶段:
▪ 业务理解(business understanding)
▪ 数据理解(data understanding)
▪ 数据准备(data preparation)
▪ 数据建模(modeling)
▪ 模型评估(evaluation)
▪ 模型发布(deployment)

业务理解(business understanding)

了解大数据项目的目的,确定工作目标,拟订工作方案,制定项目计划。

数据理解(data understanding)

包括数据采集、数据描述、数据初步探索、数据特征统计、数据质量检验(数据的一致性、完整性、正确性、最小性)。

数据准备(data preparation)

数据采集得到的是粗造的数据,其中有大量的错误、重复的信息。要将这种原始的数据进行数据清洗、清理,并根据大数据项目的目的、技术限制等进行数据的整合、转换、格式化才可以用于下一步的数据建模做数据分析用。

数据建模(modeling)

用合适的数据挖掘工具、技术方法、根据大数据项目的目的,对数据进行处理得出有用的分析信息。并从技术方法上,对这一大数据项目的数据分析,建立完整的程序、文件,直到规范化的模板(模型)。

模型评估(evaluation)

根据业务理解中大数据项目的目的,考察数据模型对数据的处理是否达标。

模型发布(deployment)

用评估后的模型来处理数据,由此而得来的结果,以易于理解、易于使用的方式呈现出来。

CRISP-DM 跨行业数据挖掘标准流程

事实上,就方法学而言,CRISP-DM并不是什么新观念,本质来看就是在分析应用中提出问题、分析问题和解决问题的过程。而可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,以至CRISP-DM如今已经成为事实上的行业标准,“调查显示,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程”。

附录:
以下是我们在做商务平台数据分析时的注意事项总结
电子商务平台数据处理注意事项:
1.备份采集的原始数据;
2.首先要做删除相同项处理;
3.紧接着要对所有要参与计算的数字列做异常数据处理(比如:价格、运费是文字属性的、item number没有采集到的)
4.item number、销售个数的属性全部转化为数字属性。
5.所有的itemno都要从链接里面分离出来用(不要用程序采集的),避免因个别的没有采集到而影响分析过程。
6.跨国(例如:usa、ca)采集数据放在一起分析时注意价格、运费的货币符号前缀不统一问题,此时取值函数要做适当处理(如:统一转换为RMB)。
7.分析过程中要在做数据变化前,做数据文件的中间过程备份,以备出错时还有原先的数据在。
8.遇到的事情:数据行数大时,操作“隐藏”行,当取消隐藏时,要很长时间(30万条数据,取消隐藏,2个小时还没有完成!)。原因:隐藏的行挨着函数行4行。
9.每做一步(拖一步函数后)都要做:复制、数字粘贴,否则,会很慢。
10.上面这些处理完毕,再依模板文件的步骤做进一步的数据分析。
11.运用模板注意:copy函数到新文件里,要检查、调整copy来的函数里面的数据取用范围(比如:原函数是Q5:Q3000,而新文件的数据范围是Q5:Q3800)。
12.新建立数据分析模板时,每一步的处理目的、做法、注意事项都要备注清楚,达到目的:其他人拿到模板文件就可以做数据处理。
13.给数据使用部门的数据分析结果文件必须将所有函数清空。

发表评论