首页 资讯频道 互联频道 智能频道 网络 数据频道 安全频道 服务器频道 存储频道

解读瑞幸咖啡数据造假 朱全日:大数据行业数据困境尚未解除

2020-04-09 09:51:40 来源 : 北京商报

今年1月份,浑水研究发布了一份瑞幸咖啡的做空报告,声称该报告是基于92个全职和1400个兼职调查员,在瑞幸咖啡各大门店卧底搜集到瑞幸咖啡的核心数据写成。据说为了监测到瑞幸咖啡门店每天的客流量,调查员们甚至偷偷在店面安装了摄像头。

面对这份铁证,瑞幸咖啡不得不承认自己财务数据造假的事实,但除了这种耗费人力、物力的方式,就没有其他方法看清真相吗?近几年被寄予厚望的大数据风控为什么没有预警?

瑞幸财务造假被数据实锤

4月2日,瑞幸咖啡发布公告,公开承认瑞幸咖啡存在22亿元销售造假。消息一出,2个月前关于瑞幸咖啡的做空报告再次被拿出来。在公众看来,瑞幸的公告是直接承认了做空报告提到的财务数据造假。

公开消息显示,今年1月底,浑水研究收到了一份长达89页的做空报告,报告直指瑞幸咖啡捏造公司财务数据和运营数据,并列举了详细的数据证据。

报告称,瑞幸咖啡“在2019年的第三季度和第四季度,每店每日商品数量分别夸大了至少69%和88%”。报告调研得出数据显示,瑞幸咖啡平均每家门店的日销量只有263件,这比瑞幸咖啡自称的495件少了将近一半。与此同时,瑞幸咖啡同一个门店,同一天的线上订单量夸大34至232单,平均值为106笔/天,是线下平均订单数量的72%。

不仅如此,报告还提到,瑞幸咖啡在给股民看的报告中,声称他们的平均售价已经提高到11.2元,但调查显示,瑞幸的平均售价只有标价的46%,每单销售额还不到10元。

做空报告认为,单店销售数量、线上订单数量和平均售价这几项数据造假,就充分证明了瑞幸存在财务造假行为。当然,报告中还列举了调查员卧底获取的其他证据,比如店长把取餐码从自然数变成随机数列等。

对企业来说,单店销售数量、客单价等数据往往是内部经营数据,浑水这份报告的数据真实度有多少?调查者又是如何获得了瑞幸的内部经营数据?

关于这一点,报告中提到,这些数据是调查机构雇佣了92名全职员工和1418名兼职人员,通过拍摄视频的方式,线下追踪了981个瑞幸咖啡门店经营,其中包括620家店铺开门到关门全部经营时间的数据,拍摄总时长11260小时。

通过视频记录,调查机构算出了瑞幸咖啡的到店人数。并通过视频记录的外卖人员进店取餐情况,算出了线上订单数量,进而计算出了单店的日销售数据。

关于客单价的数据,调查机构是通过从45个城市的2213家门店收集了一共25843张小票收据,一张一张拍照存档,进而分析得出。

一位从事统计工作的工作人员告诉《数据》记者,这份调研报告获取数据的方式,就是传统统计工作会采用的调研方式:依靠人力、抽样采集。

数据显示,截至2019年底,瑞幸咖啡的门店数量是4500家,分布在全国27个省份、166个城市。

数据拆穿数据的谎言

目前,我们还无从得知瑞幸咖啡财务数据造假真的只是COO带领下的小团队行为,还是有更大内情。但不得不承认的是,在大数据算法面前,瑞幸的财务数据问题显然无处遁形。

这也是为什么瑞幸咖啡会发公告承认财务数据造假,多位投资人提到,“瞒不住了”。

可以看到,浑水这份报告是通过大量人力调研获取数据,进而分析得出结论。从这个角度来说,似乎想要提前发现瑞幸咖啡的财务数据问题并不容易。

但只要稍微分析就会发现,从每日订单量到人均客单价,再到年度营业额这些数据,系统性的做假不是一项小工程。

依据瑞幸咖啡已公布数据显示,2019年后三个季度瑞幸咖啡的营业收入大约46亿元人民币,此次造假涉及金额22亿元,接近一半的业务数据做假。

如此大规模数据做假,9个月的时间里,瑞幸咖啡内部竟然一点异常都没有,这对一个号称“有深厚技术背景的强运营公司”来说,实在无法理解。关于瑞幸的技术和数据能力,2018年一篇专访文章中,瑞幸咖啡(中国)有限公司联合创始人、高级副总裁郭谨一曾介绍,“依靠后台大数据系统,瑞幸咖啡所有订货系统全是自动的,系统自动会算,全是机器学习的,会预测第二天卖多少,不断调整订货的量。”

为了便于远程监控机器的运行状态,瑞幸要求供应商同时开放接口,通过物联网的方式来管理未来全国几千家咖啡店里的咖啡机。在店面运营中,瑞幸还开发出了自动排班系统。什么时候是高峰,什么时候是低谷,由系统来配备人力、自动预测对接外卖系统。

此时,瑞幸咖啡这套由机器、数据和物联网构成的后台自动化系统,为这个品牌镀了很厚一层金。郭谨一甚至放话,“这个市场不管是卖给我,还是卖给其他人,你都要改机器,为什么呢?因为我是市场领导者,至少是新零售咖啡市场的领导者和规则制定者,你杯型这些都得按照我的规则来”。

一位大数据行业从业者告诉《数据》记者,浑水报告中的数据其实可以有更快、更准确的方式获取,只要拿到瑞幸的支付数据和运营商数据,很容易就能掌握瑞幸的实际客流数量和经营情况。“这些数据外部公司拿不到,但对瑞幸都是日常运营数据,一家技术运营公司不可能发现不了这些数据异常”,显然,这是一场具有主观意识的“骗局”。

大数据风控正在迈的坎

瑞幸咖啡事件带来的一系列连锁反应还在发酵,这家拥有5256家门店的品牌是否会昙花一现我们不得而知。值得反思的是,为什么瑞幸的事情一直没有被发现,近几年被热议的大数据风控也没有给出任何预警?

金融风控大数据企业迪科数金金融产品部副总经理朱全日告诉《数据》记者,通过运营商数据和支付数据能比浑水这份报告更快、更准确,但鉴于当下依然存在的数据壁垒和数据隐私保护问题,外人想要拿到瑞幸的运营商数据和支付数据并不容易。

再看浑水这份匿名报告的调查方式:员工卧底、潜入内部核心交流群、偷偷安装摄像头,私下搜集客流数据和小票数据。

“严格来说,这些数据源均涉及用户个人信息等隐私数据,大数据公司没有办法直接拿到这些数据进行挖掘分析,所以必须是在数据打通的情况下才能入手去做这件事”,朱全日表示,当前大数据风控面临的主要瓶颈就是数据割裂和数据质量无法保证,囿于这两大难题,大数据公司能掌握到的有效数据非常少。这也就是说,现在大数据公司所做的大数据监测,只能基于对外公开的数据,那就意味着,只要公开的数据是假的,那么大数据技术所做的分析结果也会不准确,这也是为什么瑞幸的财务数据造假难以被大数据发现。

不过,技术公司也想出了新办法,朱全日提出了一种叫安全计算的方式,就是围绕某个企业主体在各分散平台中产生并留下的数据,包括经营数据、客流数据、工商数据、股市数据等等,在不必拿到原始数据,不必发生数据流通的情况下,通过安全计算得到一个总的分析结果。

换句话说,通过这种大数据分析方法,完全可以在不触及数据隐私保护问题的情况下,更早的发现瑞幸咖啡财务数据中潜藏的问题。

朱全日表示,大数据行业的数据困境已持续多年,五年前,整个行业还是云平台模式,只有把所有数据都汇总到云中心的平台上,才能进行数据的挖掘分析。但现在应该是分布式协同智能模式,数据不需要做集中汇总,它们可以独立分布于一个个不同的地方,通过协同智能的方式,在非原始数据的层面上进行协同。

文字丨李婷

最近更新