快速演变的数据治理角色
我们所说的数据治理角色已经开始快速演变,究竟是什么意思?其实,在许多方面,数据治理从一 开始就在不断演变,只是我们现在对实践提出的要求迫使它加快转变速度而已。如今,数据规模不断增大且无处不在,同时,人们对于敏捷性和上市速度的要求更是越来越高,这意味着您的企业/ 组织若不具备数据治理能力,在不久的未来,必将失去行业竞争力。
起源
传统数据治理方法通常需要实施一系列控制和限制措施;采取措施主要是为了防止相关人员错误处理数据,并因此给所在组织造成风险。此类工作通常由法规所推动,其目的主要在于遵守特定规则以降低风险,而非创造业务价值。
这种方法的弊端在于它与业务结果脱节,因此只能衡量法规的覆盖范围以及数据治理操作团队的繁忙程度。已完成的工作始终处于孤立状态,未能触及公司其他部门——业务的日常运作几乎未受任何影响。
扩展
随着监管范围的扩大,人们越来越认识到可信数据的价值,这也拓宽了人们对数据治理及其用途的看法。监管范围变得越来越广,涵盖的已不仅仅只有技术观点,意图及其实现过程也成为新的被关注点。与此同时,全世界都开始逐渐意识到,如果数据能够被真正理解,并成为拥有数据的公司的一项资产,那么数据中蕴藏的巨大价值将被发掘。
如今,以监管合规需求来决定数据治理所需工作量显然已经不可取。然而,这一背景提供了实现数据价值进程的机会。“我们必须投入资金来确保合规性,也就是说,我们必须实施数字化转型。”为了实现这一目标,必须调整企业实践:
• 企业理解——需要让许多人参与进来,而不仅仅是少数人
• 互联视图——需要超越数据范畴,以提供相关情境并显示价值
• 推动成果——需要超越“为治理而治理”的单一愿望
智能革命
在这个扩展阶段,基于人工的手动数据管理技术显然已经不足以满足需求。至关重要的是,数据治理可借助自动化进行扩展,通过最大化人力投入来加速取得成果。正如机器在 18 世纪和 19 世纪 开始改变制造实践一样,人工智能和机器学习也已开始改变 21 世纪的数据管理方式。这一时期可 被看作数据智能革命。
• 应该何时采取行动?就是现在!自互联网的爆发将数据推上中心舞台以来,经常有人将数据视为 “新石油”。将数据视为这样一种资产在推动数据智能革命方面发挥了巨大作用。现在行动已经是落后于形势,再不行动的话,情况只会越来越糟。如果可信数据是我们最好的资产,并且到 2025 年全球数据量将增长至 175 泽字节, 则您需要立即采取行动,以便跟上形势。
• 谁需要采取行动?所有人!公司需要数据驱动已被普遍认可,而那些抢先一步行动的公司已经从中受益。全球市值最高的10家公司中有7家将自己的成功归因于数据,苹果公司就是一个很好的例子。它在 2020 年 8 月成为史上首家市值达 2 万亿美元的公司。若再不紧跟形势,迅速转变为数据驱动型公司,那么您将付出惨重代价。
• 如何采取行动?越快越好!要赶超领先企业,仅靠人类的意志和奉献并不够,还需要将意愿与人工智能和机器学习结合起来。不断扩大的规模限制了人工操作可能产生的影响;随着数据规模的扩大,您将需要采用自动化技术以跟上形势。这并不是说机器可以完成所有工作——技巧在于弄清机器在多大程度上可以补充完善当前的人工操作,并继续不断突破这一界限。
智能革命正在通过数据管理实现加速发展,而且与数字世界中的一切事物一样,它正在以前所未有 的速度发生。
• 自动化——自动化在当今的数据治理活动中必不可少。它使简单的人工数据治理操作通过技术自动完成,进而使扫描、剖析、编制索引等操作实现从少量、低效到无限量、高效的巨大飞跃。
• 推断——自动化会在我们的数据治理工具中创建大量信息。如果说自动化有助于我们应对原始资料的巨大规模,那么推断则有助于我们创造意义和价值。至关重要的是能够将这些资料联系起来,形成一个连贯、一致且全面的视图。
• 协调——随着机器学习 (ML) 和人工智能 (AI) 能力的提高,组织将能更全面透彻地了解自己的所 有员工,包括员工做出的贡献和完成本职工作方面所需的支持。动态连接社区和数据/信息以提高性能、效率和创造力的趋势非常明显。
• 协作——随着 AI 和 ML 的不断发展,我们将提高相应软件同行的能力并增加对它们的信任,使其成为重要的合作伙伴,在扩大协作规模的同时,提高协调水平。
什么是智能数据治理?
智能数据治理是数据革命的唯一可行解决方案,是对组织必须管理的不断增长的数据量和数据类型的应对之策。它的智能方面至关重要,因为仅靠人工数据治理方法,根本无法有效管理如此巨 大的数据量和如此繁多的数据类型。本文的这一部分将介绍数据治理计划面临的三个关键挑 战,以及智能数据治理如何帮助您克服这些挑战。
挑战 1:人工操作
在尝试进行现代企业的数据治理时,您将遇到的第一个也是最紧迫的挑战就是,您必须实现大规模操作,但许多员工却对此很抵制。传统意义上,数据治理一直被视为一项非常耗费人力的工作, 公司各部门的人员必须聚集在一起,集思广益、群策群力,但往往收效甚微。
有的公司拥有 5000 多万条记录。光是清点这 5000 多万条记录就要花费数年时间, 更不用说对其进行人工记录了。自动化是处理如此大量数据的唯一方法。
解决方案:可扩展的自动化
如果个人能够看到自己通过参与数据治理可以获得何种益处,那么人工操作的挑战往往都能克服。如果有些工作可以实现自动化,而且自动化的投入产出比很高,人们自然会愿意尽己之力促其实现。因此,克服这一挑战的关键不是要求员工投入大量时间完成最琐碎的工作,而是让员工只做那些真正无法实现自动化的工作。例如,如果某家公司有一名员工是某特定系统的主题专家 (SME),那么传统数据治理方法是让该 员工记录自己所了解的关于该系统中每个领域的一切信息,以尝试创建一部全面的数据字典。另一方面,智能数据治理方法则是让机器先做前期繁重而困难的工作。如今,很多企业/组织都有很 多共同之处,例如几乎所有公司都持有某种个人数据,即姓名、地址、电话号码和信用卡详细信息 等。那么为什么不先让机器帮您识别这些数据呢?在需要 SME 参与进来之前,机器就可以完成常见模式、重复数据类型识别和名称匹配,而这些工作占据了所需处理的信息的很大一部分。等到需 要 SME 参与进来时,SME 只需实施数据管护和微调即可,无需从头开始,因此这种操作模式更具吸引力。这种方法不仅可以节省数百个工时,而且有助于维持 SME 对数据治理计划的参与度和支持度。
挑战 2:复杂性
数据治理的第二大挑战是这项工作的高复杂性,因为我们需要治理空前繁多的数据类型,并将这 些知识跨多个学科用于各种业务结果。某些传统数据治理方法涉及使用一个完全开放的模型来记录资产类型及其相互关系。这在理论上似乎颇具吸引力,因为所应用的定制将让您能够记录任何需要考虑的新数据类型。然而,实际实施情况已经向我们表明,这种方法产生的问题比它解决的问题要多得多,而且增加了数据治理的复杂性,使其变得让人难以应对。
解决方案:一致性
与其向一个不断扩大的框架不断添加新的类别,不如在一个更稳健的整体视图中进行操作,使用类型和关系来获得所需的特异性,而不必白费力气做重复工作。无论行业或用例是什么,任何业务的构成要素(术语表术语、系统、政策、流程等)都是相对一致的。通过分解和连接这些构成要素,您能够准确了解组织的运作方式。
如果自动化和智能对您而言很重要,那么一致性就是重中之重。有些数据治理框架具有无限的定制能力,鼓励每一个客户构建“适合”自己的称手工 具——但如果每一个实例的基础都各不相同,则这些框架又如何实现客户所需的创新和自动化呢?
您能保持的一致性越高,就越能够利用智能、自动化和机器学习。如果我们放任不管,数据管理的复杂性很容易高到让我们难以招架的地步。因此,与其为每一个新的想法创建一个新的资产类型, 不如聚焦于共同之处而不是不同之处。
• 一份报告在本质上是否与另一个列集合完全不同?
• 个人数据类别是否真的不仅仅是将术语组合在一起的术语表域?
• 数据控制者/处理者是否真的不仅仅是一个与流程中的个人数据具有特定关系的法律实体?
• 有些人所描述的依赖于数据资产的业务结果,是否同样可以被视为由这些资产支持的能力?
• 应用程序接口 (API) 与系统之间的接口是否差别大到不能将其视为同一类型的接口?
挑战 3:孤立操作
如今,数据治理计划面临的第三大挑战是,它们与组织更广泛的成功孤立开来。正如在“开始”部 分所讨论的那样,数据治理更多的是创造人工产物,而不是增加价值。因此,它被认为是某个特定团队的职权范围,该团队更有可能缠着您要一个定义,而不是给您任何有助于完成日常工作的建议。随着数据治理方面的需求发生变化,以及数据治理的覆盖范围不断扩大,许多公司都在将数据治理重塑为更宏大的计划,例如:
• 数据卓越
• 数据智能
• 数据策略
• 数据赋能
仅仅改名是不够的,还需要通过不同学科的互联、集成视图来实现治理链接到的业务目标。
解决方案:可扩展模型
到底该如何对抗这种关于数据治理的观点呢?其实,改名不是坏主意,但改变影响才是更好的主 意。数据治理(或数据卓越、数据赋能,或您更喜欢的名称)应该是基于企业理解来执行,而不是仅仅公开它,并且数据治理应该向业务领导者提供他们可以信任的信息。业务领导者如果可以信任这些数据,就可以信任使用这些数据进行的分析和决策。最终目标不应该是能够定期更新定义,而应该是能够影响真正的变化,将不同的学科结合起来,使您的组织能够执行企业数据管理。
智能数据革命后哪些方面将保持不变?
自智能数据革命爆发以来,已经发生了很大变化。我们处理事务和操作流程的方式当然会受到影响,因为我们现在能够将大量最单调的工作交给机器来完成。然而,也有很多方面保持不变,例如我们建立治理计划所遵循的基本原则和框架。在深入探讨不同之处之前,让我们先看看哪些方面始终保持不变。
数据治理的基本原则保持不变
• 参与和采用高于一切
任何数据治理计划最终的成败都取决于人们是否采用它进行实践。您可以建立有史以来最了不起的文档编制系统,但是如果人们不使用它,那么它就毫无用处。此外,并非任何方面都可以实现自动化。举例而言,如果没有定期的人类投稿者,您的文档就无法长期保持“最佳”状态。这一 点并未随智能数据革命的爆发而改变,因为人类的采用和使用仍然至关重要。
• 从大处着眼,从小处着手
正如我们所讨论的,数据治理是一项艰巨的任务,但这并不意味着您必须一次性完成所有这些工作。明智的做法是,首先攻克某个项目或某个特定领域并证明其价值,从而证明推动任务向前发展是有意义的。然而,在从小处着手的同时,有必要牢记最终目标。虽然您一开始专注于某个特定项目,但这并不意味着该项目的利益相关者可以肆意发挥、任性而为——如果最终目标是一 个企业级解决方案,那么明智的做法就是,做事情时顾全大局,以吸引更多的人,而非只是直接利益群体。
• 以实际应用为指导
没有必要在踏上治理之旅之前就做好所有决定。“分析瘫痪”可能会耽误数月的时间;如果要在 “开始”之前就确保一切完美,您可能永远都开始不了。应允许人们一起构建一张知识图表,按照 “缺什么,补什么”的原则来完善知识结构,而不是为了治理而治理一切!如果某个错误的东西正在被使用,您自然会听闻此事,如果某个错误的东西没有被使用,问题也不会很严重。务必根据实际情况来设定优先级。
• 广度先于深度
虽然您不必在第一天就做好所有事情,但在做事之前先拟好行动大纲是个好主意。如果您从拟定行动大纲着手,则那些专门从事相关领域的人员就可以根据需要适时填补空缺。这样一来,人们在行动时便有纲可循,知道该补充哪方面的知识,该就哪方面展开协作,而不是从一开始就纠结于细枝末节。
• 摒弃模型
数据建模在其所属领域的确很有用,但是试图创建一个完美契合企业上下各种需求的严格数据模型必将以失败告终。治理工作应保持适度的灵活性,让人们能够以 99% 的受众都可理解的合理方式进行记录。切勿让严格的规则妨碍实际的进展。推动文化变革仍然至关重要由于数据治理的参与和采用仍然是主要关注点,因此推动组织内的文化变革仍然是一项关键活 动。某种程度上,在自动化的支持下,推动组织内的文化变革应该比以往任何时候都更容易,因为不再需要让贡献者费力地记录自己所知道的一切。
相反,您只需要求人们利用没有存储在任何数据库中的信息(即存在于他们头脑中的日常知识)来补充技术发现的东西即可。为此,您需要将治理实践嵌入到他们的日常生活中,通过以下三个步骤推动整个组织的文化变革:
1. 思想:获得支持
• 确定参与推动因素/阻碍因素
• 吸引各个领域的人
• 为行为改变提供激励
• 直面挑战
2. 身体:做出改变
• 微观变革催生宏观变革
• 多次重复,直到变革成为常态
• 从简单处着手;具有挑战性的活动可以稍后进行
• 支持计划,然后领导计划;实现自我永续
3. 灵魂:坚持下去
• 在不可避免的低谷期保持信心
• 广泛社交,让进步为人所知
• 通过持续激励融入用户日常实践
• 建设社区以增强韧性
• 重新审视并重新验证,以获得持久赞助
问题保持不变
关于数据,您仍需要了解的 25 件事:
数据的含义是什么?
数据是如何构建的?
在哪里可以找到数据?
为什么我会拥有这些数据?
谁将对数据负责?
应该如何使用数据?
数据是如何被使用的?
过去数据是如何被使用的?
数据自创建以来是否发生了变化?
如何更改/更新数据?
谁在对数据进行监管?
数据的质量好吗?
数据是如何在不同存储位置之间移动的?
数据与业务的哪个部分相关?
数据实现了哪些最终目标?
公司内谁有权访问数据?
公司外谁有权访问数据?
数据是在哪里收集的?
数据是否受到适当的保护?
保留数据是否会给公司带来任何合规风险?
数据要遵守哪些法规?
哪些关键流程依赖于数据?
变更数据会给下游带来什么影响?
变更数据前需要通知谁?
存储数据是否能为业务增加价值?
正如您所看到的,在很大程度上,目标是保持不变的。我们仍然希望在企业范围内建立对数据环境的理解和信任,并管理如何将其映射到我们的业务。然而,需要改变的是我们实现这一目标的方式。现在,我们可以利用许多自动化技术来减轻治理工作的负担。下一章将为您介绍如何通过最佳方式利用这些技术,从而最大限度地减少必须由数据管理员完成的工作,并最大限度地增加他们可投入到更有价值的工作中的时间。
治理框架保持不变
需要考虑的最后一个没有改变的因素就是,我们最初用于治理数据的构成要素。虽然我们收集信息的方式在某些方面发生了变化,但这并不意味着我们收集的信息也发生了变化。
我们需要做出哪些转变?如何实施智能数据治理
元数据的自动标记
之前:人工方式
• 谁完成这项工作?系统主题专家
• 如何完成这项工作?在数据库中搜索,查看列标题和其中的数据,以便对特定列包含的数据进行分类
• 为什么这会成为一个问题?这种数据分类需要花费大量时间,而 SME 又无法停下手头的日常工作。因此这类工作通常在后台进行,需要花费数年时间。这项非常枯燥的重复工作,很可能会逼 得 SME 从公司离职。
之后:自动化方式
• 谁完成这项工作?大部分工作都是通过技术中的算法完成的,偶尔需要 SME 实施数据管护和提供专家意见
• 如何完成这项工作?智能治理解决方案使用名称匹配、预定义规则和相似性传播技术,将扫描数据自动标记为业务定义
• 为什么这样的变化具有变革性?大量匹配工作可以根据标准规则自动完成,无需人力投入。SME 通过实施数据管护对此予以补充,花费的时间仅是原来的一小部分,但收效却比原来大很多。
质量的自动化应用
之前:人工方式
• 谁完成这项工作?数据质量技术员
• 如何完成这项工作?为每一次需要测量的数据质量 (DQ) 检查创建新规则
• 为什么这会成为一个问题?即使一家公司仅需检查 1000 个数据点,而每个数据点仅对应 5 条规 则,那也要创建 5000 条规则才行。而实际的数字要大得多,因此所涉及的人工操作其实多到令人难以应对。
之后:自动化方式
• 谁完成这项工作?企业决定他们需要衡量的规模
• 如何完成这项工作?智能质量解决方案使用前面提到的标记数据,在任何发现特定数据概念的地方应用适当的质量检查。
• 为什么这样的变化具有变革性?如果能够保证基线质量所需的工作量几乎为零,那么就证明您为数据的超高质量奠定了极为坚实的基础。消除数据治理中前期所需的人工操作可大幅提升计划的成功率,因为利益相关者在参与时可获得一些重要益处。
自动变更通知
之前:人工方式
• 谁完成这项工作?系统管理员(如有)
• 如何完成这项工作?添加或更改字段时与下游用户进行通信
• 为什么这会成为一个问题?在本地进行的变更通常缺乏针对下游系统中任何文档的更新。而如果进行了文档更新,就意味着需要对所有沿袭进行手动更新。
之后:自动化方式
• 谁完成这项工作?智能扫描工具
• 如何完成这项工作?智能扫描程序不会只运行一次,并假定数据环境将保持不变,它们会定期运行,并将两次扫描之间的增量告知所涉及的利益相关者
• 为什么这样的变化具有变革性?与要添加或变更的列相关的治理活动可以在没有人工干预的情况下触发,这意味着沿袭的当前状态视图不会随着时间的推移而变得过时/不准确。
工作流的自动触发
之前:人工方式
• 谁完成这项工作?数据管理员
• 如何完成这项工作?监控数据治理问题并手动标记问题
• 为什么这会成为一个问题?数据管理员必须定期人工审查所有人工记录的文档,以确保它们符合要求。这导致了大量不必要的繁复工作,但创造的价值却极为有限。
之后:自动化方式
• 谁完成这项工作?智能治理工具将根据需要自动触发工作流。
• 如何完成这项工作?您将决定哪些类型的变更需要/不需要审查,然后应用自动化。
• 为什么这样的变化具有变革性?数据管理员不再需要搜索所有人工记录文档,也不再需要与利益相关者就定义是否已经改变进行对话。现在,权力掌握在利益相关者手中,既提高了他们作为贡献者的参与积极性,同时也确保仍能实现适当的验证和控制。
数据的自动提供
之前:人工方式
• 谁完成这项工作?数据技术员
• 如何完成这项工作?对于每个临时数据访问请求,技术资源都必须收集数据并将其提供给请求者
• 为什么这会成为一个问题?近年来,数据访问请求数量急剧上升,让人难以应对。况且,在有如此多临时请求的情况下,几乎不可能实施良好治理实践。
之后:自动化方式
• 谁完成这项工作?数据所有者
• 如何完成这项工作?他们可以选择发布他们的最佳数据资产以供使用,并在适当的情况下自动提供这些数据
• 为什么这样的变化具有变革性?现在,数据访问请求可以得到适当的集中和跟踪,同时其交付的某些元素可以实现自动化。由于安全限制,这并非在所有情况下都适用,但如果满足适当的条件,那么就可以更加顺利地管理此过程,让数据科学家可以减少花费在数据查找上的时间,而将更多时间投入在数据使用上。
智能数据治理的商业利益是什么?
本文认为,任何企业/组织都不能忽视对智能数据治理的需求。我们已经看到相关实践在以日益加快的速度发展变化,虽然与治理相关的某些原则得以保留,但由于治理现在所涉及的范围,实际的做法已经发生了根本性的转变。然而,这种情况并没有将您置于进退两难的境地,也没有威胁您必须去采取某种行动,而是给您带来了一个极好的机会,让您能够获得一系列巨大的商业利益。
可扩展的自动化数据治理方法使您能够跟上组织的变化速度,同时让权力掌握在企业手中。借助帕兰软件® 自动化解决方案,您能够实时呈现当前状态视图,再也不必费力地记录已经发生的事情并一直处于紧赶慢赶的状态,从数据沿袭整体视图到数据质量整体视图莫不如是。这样一致的数据治理方法使您能够随着时间的推移继续实现创新和自动化。得益于设计和使用数据的一致性,任何拥有标准化框架的组织都可以向自己的客户学习,并继续完善自己的产品。帕兰软件也可以做到这一点,因为我们依赖于一个敏捷但稳健的数据治理框架,而不是鼓励无休止的定制,而您在定制的基础上根本无法实现自动化。
该可扩展的数据治理方法使您能够创建数据、业务和技术环境的通用集中视图,然后根据需要进行深化。帕兰软件平台远远超出治理问题的范畴,让您能够首先了解,然后根据自己的发现采取实际行动,从提高数据的质量和隐私到掌握数据,从而让您最终能够始终如一地信任自己的数据。
结论
智能数据治理不是您可以单独完成的工作。要实现智能数据治理,不仅需要将许多能力集合在一 起,还需要真正理解这些能力是如何协同工作的。要达到我们在本文中讨论的自动化和连接性水平,您需要考虑的不仅仅是单点解决方案。数据治理取决于数据编目、数据质量和数据隐私。虽然没有一种产品可以为您解决所有这些问题,但有一个平台可以支持和赋能您组织中从高管团队到营销团队再到制造团队的各个团队,从而推动生产力、效率的提升和数据的有效利用。