数据分析是什么
在了解了数据可视化方法的基础上,想要通过可视化来呈现问题、给出解决问题的方向和思路,就需要掌握正确的数据分析方法。
数据是21世纪的石油,而分析则是内燃机。 ——Gartner研究院高级副总裁Peter Sondergaard
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用,是数据可视化的前提与基础。
也就是说,把隐藏在一大批看起来杂乱无章的数据中的信息集综合提炼出来,从而找出所研究对象的内在规律,帮助人们做出判断,以便采取适当行动的方式,就是数据分析。
为什么需要数据分析
数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。
举个最经典的例子,20世纪90年代,沃尔玛的超市管理人员分析销售数据时发现了一个现象:“啤酒”与“尿布”这两件商品会经常同时出现在结账清单中。经后续调查发现,这种现象是由于母亲一般在家中照看婴儿,年轻的父亲在外出购买尿布的同时,往往会顺便购买啤酒犒劳自己。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,从而获得了很好的商品销售收入。
当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者 Agrawal 提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提
出了商品关联关系的计算方法—— Apriori 算法。沃尔玛从上个世纪 90 年代尝试将 Apriori 算法引入到 POS 机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。这便是数据分析的功能与魅力。