数据中心

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 数据中心

数据准备是大数据分析的无名英雄

作者:网界网出处:博客2015-02-06 15:09

  随着企业花越来越多的时间来分析数据,清理和准备数据的解决方案将会变得更有价值

  现在大数据是热门话题,你在任何地方与任何人交谈很难不提到大数据。事实上,大数据的术语有点被过度使用,它对不同的人意味着不同的东西,但所有这些定义都有一个共同点,那就是数据!

  上面我们说大数据依赖于数据,这似乎很明显,但大数据分析的成功需要的不仅仅是原始数据,还需要好的高质量数据。所以,更准确的说法应该是,大数据的成功需要准备好的数据。对于分析,有句古老的格言,“进来是垃圾,出去也是垃圾”,这意味着如果你把大量参差不齐的数据放到分析解决方案,你将会得到不好的结果。

  数据的清理和准备历来都是漫长的艰巨的耗时的过程。当笔者还在Yankee Group公司时,他们迁移CRM系统,在迁移工作之前,该公司花了一年时间来清理现有系统中的记录数据,以确保不会迁移不好的数据。虽然他们做了这么多工作,仍然有很多不良信息被迁移过去。

  最近,笔者看到一家被称为Paxata的公司,该公司提供的解决方案可以进行所谓的“自助服务自适应数据准备”。在分析或运营报告工作之前,该技术可以整合、清理和形成数据。市面上很多现有的商业智能产品声称可以简化分析过程,但事实是,大多数数据科学家和数据分析师花费大量时间来为分析准备数据。鉴于此,笔者认为,大多数企业宁愿聘请高薪人才找出数据的含义(+微信关注网络世界),而不是清理数据。

  Paxata提供数据整个生命周期的准备,包括探索、清理、更换、形成和发布数据以进行分析。该产品还允许不同的数据团队共享相同的数据集,让不同的团队可以同时编辑和访问多个设备的信息。该产品还是一个管理解决方案,它会追踪项目内的每个步骤,并有完全的重放功能来审查已经完成的更改。

  Paxata的用户可以提高对大型数据集的分析生产率,同时最小化数据蔓延的危险。该产品既可作为云服务—确保数据准备的灵活性,也可以作为内部部署的解决方案,它可以整合到Hadoop以更快获取价值。

  正如上文所述,大数据现在是一个热门话题,但企业和IT领导者需要明白,分析糟糕的数据意味着糟糕的分析结果,可能会造成错误的商业决策。正因为如此,笔者希望看到数据准备技术会开始像大数据一样热门。

相关文章

关键词:大数据

责任编辑:瓦谷子

网警备案