[讨论] 如何找出企业内部的「暗资料」?

在自然界中有一种物质叫做「暗物质」,从物理学家的解释来看,「暗物质」是自然界当中最充满能量的部分,如何发挥「暗物质」的作用是当代自然科学研究的话题。而在资料科学领域,人们都在讨论如何发掘隐藏在企业内部和整个互联网上巨量的「暗资料」,怎样发挥「暗资料」的价值。

有一种说法,人类只要利用大脑的 10%,就可以实现长生不老。即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘。同样,许多企业也仅利用了资料的一小部分,而把经过巨大的开销存储着的关于流程、员工、客户和产品的宝贵资料放在资料孤岛中,无法有效利用。我们对资料的挖掘还处在一个非常初级的阶段,可将其称之为「黎明前的黑暗」阶段。

定义「暗资料」
「暗资料」是指企业已付费购买、收集以及存储在各种系统和资料存储中,但实际上目前并未使用、分析甚至访问的所有资料。我们可以将「暗资料」视为巨量资料的子集,它可以包括存储在 CRM 资料仓库的结构化资料、日誌文件甚至来自于社交媒体的非结构化资料等所有资料。
暗资料
当然,有些企业已经实施资料仓库或者巨量资料平台,清楚资料的存在,并正在发掘资料的价值,但他们依然存在暗资料的问题。因为实施资料仓库常常是站在IT的角度,对于IT来讲或许已经是可以利用的明资料,对于其它部门,尤其是业务部门如果没有充分有效的利用手段和方式,仍然是「暗资料」。如果您实际上无法利用付费购买的资料,那幺最终您就无法对企业的整体行为形成一致观点。这意味着您将无法分析流程、合理配置资源,也无法在系统中找到代表您的专有优势的资料。

「暗资料」产生
显而易见, 没有任何组织主动採取低效、 昂贵和不明智的措施。但一系列新应用程序和大量新资料已使很多公司忽视了他们已经拥有和付费购买的资料。为何会有这幺多「暗资料」存在?我们从以下四点来解释:

1、企业甚至没有意识到资料的存在
企业不止有IT部门,还有更多的业务人员、管理决策人员,当他们尝试解答疑难问题或改进工作方式时,会迴避寻找并分析自己不熟悉的资料集的挑战,这种情况十分常见。不幸的是,往往由于缺乏技能、时间或能力,他们很难将正确的资料公诸于世,这在日常的工作当中是非常典型的一种场景。举例说明,有些企业表示不清楚到底有多少客户,这是真的吗?回答是否定的,因为现在的企业IT已非常完善,每一笔客户的交易信息都会存在系统当中,或许有些资料质量不是很好,但它们都是存在的,只是企业自己没有意识到。如果这些资料以整个组织都能访问的方式存储,就能为更多业务部门、项目团队提供支持,进而制定更明智的决策,并对更多假设进行测试。

2、企业意识到资料的存在,但不知道具体位置,利用的手段和方法也不足
企业已经建设了很多资料管理系统,知道资料是存在的,但如果组织的资料体系结构或複杂的资料流程起到阻碍作用,那就很难访问资料。如果各个部门都在资料孤岛中工作,并且资料保存在遗留资料存储中,那幺即使是求知慾最强的团队也会徒然碰壁。如果没有制定关于存储和管理所有这些资料的整个企业範围的战略,那幺组织的决策质量仍将受制于内部组织架构和过时的技术。

3、实际利用资料过于昂贵阻碍了资料使用的效果
即使企业已经发现了所需的「暗资料」,通常也必须面对与在遗留系统上处理这些资料相关的一连串成本问题,如资料利用的环节过长。即便他们通过使用Hadoop此类的新软体架构,在价格较低廉的硬体上複製这些资料来努力避免这些成本,但与迁移流程和获取新技能相关联的初始成本对于单个项目而言,通常仍显得过高。这也造成了很多的资料其实仍然是未被充分使用的状态,仍然隐藏在我们的IT系统和日常流程当中。为了充分利用企业已拥有的资料,需要为更现代化的资料体系结构奠定基础,否则,您仍会继续为资料支付巨额费用,却无法承担对其进行分析产生的成本。

4、某些资料存在遵守法律的问题
如金融、电信、医疗等行业的资料量非常多,但无法将某些资料提供给任何人分析,最重要的原因之一是害怕违反法律法规的要求。对于企业而言,要使其拥有的资料具有意义,需要部署明确定义的流程和工具,以保证这些资料的安全性。Informatica 有专门的解决方案,叫做资料脱敏(Data Masking),保证资料隐私不被泄露的情况下充分利用资料。

公开「暗资料」
既然我们面临着非常多的「暗资料」,那幺公开就是它的对立面,叫做资料的透明化,我们期望的结果是企业中所有资料,对企业的任何一个参与者——IT、业务、决策、财务——都是透明的,在他们想分析的时候都能找到所需的资料。

任何企业在发掘资料价值的时候,往往包括三种典型的角色:集成商、IT部门和业务部门。人们常常讨论谁才是资料的主人,一般认为是业务部门,但完成实际操作过程的却是集成商,似乎所有的报表都是集成商来做,所有的分析也是集成商完成。在资料分析资料使用中有一个常常被大家忽略的过程,被称为资料的探索和探查的过程也是由集成商来完成。这其实是业务模式的一个致命弱点,由集成商完成资料探查工作,再根据业务或者IT提的报表分析需求来使用这些资料,使用资料的主体——业务部门并没有参与探索资料,并没有亲身体验分析资料的过程。

业务部门参与资料挖掘对资料价值的实现大小关係密切。如果找集成商来做巨量资料平台可能也叫BIG DATA,但这个「BIG」很小;假如IT部门能充分参与架构设计和资料的探索过程,这个「BIG」会变得大一点;假如业务部门也参与可能使「BIG」变得更大,资料在企业中的流程也会缩短,业务部门会知道资料的存放位置,「暗资料」问题能够更快解决。

业务部门如何才能自我分析资料,实现自助服务?他们需要一个有效的IT支撑手段,需要IT把暗资料透明化,变成透明的资料。实现资料透明化的一个基础是资料标準化,建立标準化平台。暗 数 据存在于不同系统中,需要重新格式化、解析、筛选、标準化、整合以及细 化, 使 其 为 输 入 到 任何分 析 工 具 和 应 用 程 序 中 做 好準备。

真正释放「暗资料」潜能,让资料见光需要一定的策略变化,除了上述的要启动业务部门的自助服务的能力,以及启动IT部门的标準化构建,还有一个关键点是启动可重複利用「暗资料」的流程。大多数公司所犯的最大错误是认为他们只需对其「暗资料」进行一次深入探究,这可不止是一个一次性的流程。资料只会不断增长,无论是规模、多样性还是价值,提供资料的应用程序的数量和类型也会不断变化,因此,与其一遍又一遍地解决单个「暗资料」项目,应该考虑建立一个可重複的流程。这意味着採用所需技术,建立现代化的基础架构,以使您的所有资料随时可供访问并保持一致,使其保持洁凈、安全、互联互通。

「暗资料」并非仅仅表明技术开支效率低下,它还表明企业难以利用其积累起来的丰富知识,「暗资料」是一个有待发掘的潜在金矿。在我国当前新型工业化进程中,提倡巨量资料的前奏叫数字化,数字化能够贯通各个环节,把原来可能隐藏在工业流程当中的资料释放出来,用资料来描述工业流程,这也成为众多领先企业希望征服「暗资料」的原因所在。

opensource开发,类excel设计,全方位异质资料库整合,资料填报、Flash列印、权限控制、行动应用、客制化、交互分析、报表协同作业管理系统——FineReport报表与BI 商业智慧工具免费下载。分享自:机房360

上一篇: 下一篇: