分享

淘宝数据挖掘和分析

想请教下各位前辈,如何在淘宝上做数据挖掘?比如我要分析某一类的产品或者商品,要怎么获取数据,还有分析?在下新手顺带请教下怎么在数据挖掘这领域入门。。

已有(1)人评论

跳转到指定楼层
pig2 发表于 2013-11-27 01:27:05
本帖最后由 pig2 于 2013-11-27 01:29 编辑

目前已经有成熟的软件:你可以参考下面的内容。也可以下载一些软件来使用。看看具体是个什么情况。
淘宝数据挖掘软件 淘宝挖掘机简介;
1.淘宝挖掘机是一款针对淘宝数据的采集和分析工具。淘宝挖掘机与其他后台数据扫描工具不同,
淘宝挖掘机直接在浏览器上进行采集,解决了不能采集页面上的动态的数据,比如宝贝的浏览量。
2.淘宝挖掘机基于Web架构,使得数据成为共享,也就是人人都可以进行挖掘,人人都可以分享其
他人的数据。目前淘宝挖掘机支持宝贝、店铺、信誉等数据分析。

同时给你介绍一下淘宝案例:
淘宝网采用Aminer数据挖掘工具提高客户的激活率

“长期以来,数以千万计的业务数据堆积在我们的数据库和数据仓库中,消耗了大量的资源和成本,却一直不能得到有效的利用。自从有了AMINER公司的数据挖掘工具,这一切都发生了改变,我们从数据保管员转变成了知识提供者和决策参与者。”                       
                      ---赫志 财务部经理 淘宝网
“我们试用过多款知名的数据挖掘产品,最终我们选中了AMINER公司的数据挖掘工具,因为它给我们带来了更好的分析效果,它是强大功能和方便易用的结合体。”                       
                                                               ---天宏 数据挖掘主管 淘宝网
客户背景
淘宝网是国内领先的个人交易网上平台,由全球最佳B2B平台阿里巴巴公司创办,致力于成就全球最大的个人交易网站。自2003年成立以来,短短几年,淘宝网已迅速成为国内网站网络购物市场的第一名,占据了中国网络购物70%左右的市场份额。
面临的问题
“沉睡会员”是如今互联网上一个十分普遍的现象。据统计,当下国内各类门户网站、专业网站数不胜数,许多大型网站的注册会员数量都号称达到上千万,但是其中大量会员都处于“休眠”状态。专家指出。“沉睡会员”正在成为互联网产业的另一种泡沫。这些会员名存实亡,网站却依然要给他们提供大量网络空间,费时费力提供特色资讯和服务,由此而产生了巨大的资源浪费。淘宝网也存在大量“沉睡会员”的问题.为了充分发掘这座金矿的潜力,将其转化为公司的营业收入,业务人员希望采取有效的营销手段唤醒这部分会员。在使用数据挖掘工具数据挖掘平台之前,业务人员唤醒会员的手段是对这部分的所有会员平均地发送电子邮件或者短信息,推荐某些商品、频道、活动等。事实证明粗放式的营销手段带来的效果很不明显,会员对营销的相应率只有约5%。为了提高营销效果,淘宝网希望能够寻求到一个新的高效的解决方案。
解决方案
为了解决上述问题,AMINER数据挖掘专家和淘宝网数据挖掘团队按照业内公认的方法论—CRISP-DM实施整个项目。项目组对淘宝各个应用系统的数据状况进行了详细的调查,了解数据的可获得情况,评估数据的数量和质量,并利用数据挖掘工具平台分析和图形化数据的状况和分布情况;在数据准备阶段,项目组定义了沉睡客户(即连续75天没有交易),并根据建模需要完成复杂的、大数据量的数据准备;使用数据挖掘工具的决策树和logistic回归模型对每个会员对营销的偏好、相应概率进行分析和预测,模型总体预测精度达到了90%以上。最后,项目组还对分析的结论进行了业务的实际验证。
应用效果
实际业务验证的结果显示,根据Aminer数据挖掘工具分析结论进行针对性营销的那部分客户的激活比率按照旧方法营销的那部分客户高出4.2倍,改善的程度大大超出业务人员的预期,淘宝网的人员一致认可数据挖掘工具为淘宝网重新激活更多的老客户和巨额的回报。

或许上面只是一个概念下面给你看几个案例:
数据挖掘帮助Credilogros Cía Financiera S.A.改善客户信用评分
Credilogros Cía Financiera S.A. 是阿根廷第五大信贷公司,资产估计价值为9570万美元,对于Credilogros而言,重要的是识别与潜在预先付款客户相关的潜在风险,以便将承担的风险最小化。
该公司的第一个目标是创建一个与公司核心系统和两家信用报告公司系统交互的决策引擎来处理信贷申请。同时,Credilogros还在寻找针对它所服务的低收入客户群体的自定义风险评分工具。除这些之外,其他需求还包括解决方案能在其35个分支办公地点和200多个相关的销售点中的任何一个实时操作,包括零售家电连锁店和手机销售公司。
最终Credilogros 选择了SPSS Inc.的数据挖掘软件PASWModeler,因为它能够灵活并轻松地整合到 Credilogros 的核心信息系统中。通过实现PASW Modeler,Credilogros将用于处理信用数据和提供最终信用评分的时间缩短到了8秒以内。这使该组织能够迅速批准或拒绝信贷请求。该决策引擎还使 Credilogros 能够最小化每个客户必须提供的身份证明文档,在一些特殊情况下,只需提供一份身份证明即可批准信贷。此外,该系统还提供监控功能。Credilogros目前平均每月使用PASW Modeler处理35000份申请。仅在实现 3 个月后就帮助Credilogros 将贷款支付失职减少了 20%.
数据挖掘帮助DHL实时跟踪货箱温度
DHL是国际快递和物流行业的全球市场领先者,它提供快递、水陆空三路运输、合同物流解决方案,以及国际邮件服务。DHL的国际网络将超过220个国家及地区联系起来,员工总数超过28.5万人。在美国 FDA 要求确保运送过程中药品装运的温度达标这一压力之下,DHL的医药客户强烈要求提供更可靠且更实惠的选择。这就要求DHL在递送的各个阶段都要实时跟踪集装箱的温度。
虽然由记录器方法生成的信息准确无误,但是无法实时传递数据,客户和DHL都无法在发生温度偏差时采取任何预防和纠正措施。因此,DHL的母公司德国邮政世界网(DPWN)通过技术与创新管理(TIM)集团明确拟定了一个计划,准备使用RFID技术在不同时间点全程跟踪装运的温度。通过IBM全球企业咨询服务部绘制决定服务的关键功能参数的流程框架。DHL获得了两方面的收益:对于最终客户来说,能够使医药客户对运送过程中出现的装运问题提前做出响应,并以引人注目的低成本全面切实地增强了运送可靠性。对于DHL来说,提高了客户满意度和忠实度;为保持竞争差异奠定坚实的基础;并成为重要的新的收入增长来源。
基本步骤
数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。
数据挖掘完整的步骤如下:
① 理解数据和数据的来源(understanding)。
② 获取相关知识与技术(acquisition)。
③ 整合与检查数据(integration and checking)。
④ 去除错误或不一致的数据(data cleaning)。
⑤ 建立模型和假设(model and hypothesis development)。
⑥ 实际数据挖掘工作(data mining)。
⑦ 测试和验证挖掘结果(testing and verification)。
⑧ 解释和应用(interpretation and use)。
由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。

通过这些案例,你已经入门了。然后具体的技术,你可以慢慢学习,多看些数据挖掘的书,就ok了

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条