数据中心

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 数据中心

企业的数据分析能力金字塔解析(二)

作者:匿名出处:论坛2016-04-12 21:30

  我写这篇文章的目的很简单,就是希望向不了解数据分析体系建设的朋友们解释一下:数据分析到底都包括些什么?从完成数据采集到做出数据产品,到底有多远的路程要走?我在工作的过程中碰到过很多企业老板、客户以及我的领导,他们对数据分析的理解之浅薄,让我觉得难以置信。和他们交流之后的感触,促使我写了这篇文章。

  2.企业的数据能力层级

  个人认为,企业的数据分析能力层级大概可以分为七级(这里列出七个能力层级是强调底层基础数据采集的意思):基础IT系统的搭建、数据集中与标准化处理、数据报表及可视化的实现、日常产品和运营分析、精细化运营管理的实现、数据产品的输出和变现、数据战略的形成。

  个人水平有限,最后的数据战略从没接触过,所以这里不做阐述。

数据分析能力的金字塔结构

                                        图2 数据分析能力的金字塔结构

  可能有同行会对这个金字塔的层级不认同,而且大部分专家也认为这几个部分是平级关系,不存在高低关系……我这里这样列出来只是为了说明“要做到每个层级的水平,该层级以下的内容都是支撑这些层级的必要条件”而已,实际中的确是存在诸如“数据产品已经完成上线,但是数据可视化还停留在需要人工完成报表的阶段”这样的情况。(在互联网行业中,往往数据产品是最先出现的,而后才产生数据采集及后续内容,因为有了产品之后才会有业务流程;但是在实体行业中,线下业务流程是已有的,不需要等数据产品产生后才有业务流程,所以二者的数据分析构建过程完全不同。我这里对互联网产品领域不做考虑。)

  下面我们就来详细说说每个层级的具体内容。

  2.1.基础IT系统

  最底层的“基础IT系统”是一切数据分析的基础,因为它最重要的作用就是完成“数据采集”。

  “基础IT系统”,这里主要指的就是我们各个企业在实际生产中使用的软件系统及其配套的硬件设备,如:网络世界中的一串串抓取代码,真实世界中的诸如医院里的医学影像设备和其他传感器、探测器,财务使用的财务管理软件等等,这些系统解决了我们口中的“数据采集”问题,正是因为有了这些基础的IT系统(包括软件和硬件),我们才能将生活中的所有一切数字化、可度量。

数据采集难题

                                             图3 数据采集难题

  解决了最基本的“数据采集”问题之后,是不是意味这我们就有数据了呢?NO!从数据采集系统中拿到的信息有这样几个特点:割裂的、碎片化的、无序的,它们必须经过处理之后才能用于使用,因而我们需要进入到下一个阶段“数据集中与标准化”。

  2.2.数据集中与标准化

  在“数据集中与标准化”这一层级中,我们要实现的是数据的集中管理与相互融合,打破数据壁垒,让数据能够正常地在企业内流动。如果把数据比作企业运营的血液,那么我们要做的就是打通所有的血管,让血液自由地流动。

  因而,这一阶段的工作并不只是“数据集中”和“数据标准化”两件事情,需要做的内容大概包括:(如有缺少的部分还请大家补充)

  1、数据清理:

  这个步骤解决的问题是将系统采集到的内容转化为人类能够理解的数据内容,主要有两个方面:一是清理原始数据,使之完整、干净无杂质;二是将采集到的一些编码信息转化为人能看懂的文字、数字等数据。

  2、数据逻辑和数据结构的搭建:

  每个系统中的数据描述的都只是企业业务流程中的一部分,因此梳理业务流程,按照业务流程找到各个系统之间数据的衔接点,从而实现多领域数据的关联。

  第一步,根据业务逻辑,需要将数据分别划分为多少类?每一类的字段、纬度、统计周期等都是什么样的?每一类数据需要多少层汇总?……这些问题首先将数据从采集的清单分离出来,成为一个个数据体系;

  第二步,在考虑数据关联逻辑方面,需要考虑三个方面:

  1)关联使用的“主键”需要在各个系统中实现统一,即在各个相关的系统中,对于同一内容的同一主键是相同的,例如:在电信系统中,用户ID是个在所有相关系统中可以唯一标识用户的主键,而非手机号码;

  2)各个系统中数据的时间颗粒度统一才能保证主键关联的有效使用,例如表格A是每日最新数据,表格B是每日数据,则使用时就要在时间上进行限制:表格A中的日期=表格B中最大日期,而且这种情况下,要想查询A表中的历史数据就无法查到;

  3)各类数据在业务上存在相互制约、相互影响的关系,这种关系也要在多系统的数据关联中体现出来,例如营销活动中的活动商品数量受到库存商品数量的限制,在营销活动执行过程中,每增加一单活动商品销售量,库存商品数就要进行相应的减少,若不做相应的触发变更,多系统数据融合也会意义大减。

数据集中与标准化

                                              图4 数据集中与标准化

  这里我要特别强调一下数据关联的意义。在行业内,我们经常把每一个包含了大量数据、却又与其他系统无任何连通的数据系统称之为“数据孤岛”。在多数实体行业中,一个企业内部也不同程度地存在数据孤岛问题。有些数据孤岛本身因为包含的数据内容较多,足以支撑一定的数据分析应用的建设;但是有些数据孤岛中的数据若想发挥价值,就必须实现与其他系统数据的有效融合使用,即数据关联。

相关文章

关键词:数据分析, 数据采集 ,大数据

责任编辑:杨爽

网警备案