数据治理

内容纲要

什么是数据治理?

Google Cloud

数据治理是在数据生命周期(从获取、使用到处置)内对其进行管理的原则性方法。

每个组织都需要数据治理。随着各行各业中的企业进行数字化转型,数据已迅速成为他们拥有的最有价值的资源。

数据治理是指为确保数据安全、私有、准确、可用和易用所执行的所有操作。它包括人们必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。

数据治理意味着设置适用于收集、存储、处理和处置数据的内部标准,即数据策略。它规定了谁可以访问哪些数据以及哪些数据应受治理。数据治理还涉及遵循行业协会、政府机构和其他利益相关者设定的外部标准。

高级管理人员需要使用准确、及时的数据来做出战略性业务决策。营销和销售专业人员需要使用可靠的数据来了解客户的需求。采购和供应链管理人员需要使用准确的数据来管理库存以及最大程度地降低制造费用。合规人员需要证明数据是按照内部和外部授权书进行处理的。等等。

IBM

数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性。 这些流程确定数据所有者、数据安全措施和数据的预期用途。 总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。

大数据和数字化转型工作是数据治理计划的主要推动力量。 随着来自物联网 (IoT) 技术等新数据源的数据量的增加,组织需要重新考虑其数据管理实践,以扩展其商业智能。 有效的数据治理计划旨在提高数据质量,减少数据孤岛,确保合规性和安全性,并适当地分配数据访问权限。

数据管理的范围比数据治理更广泛。 它可以定义为采集、处理、保护和存储组织数据的实践,然后将其用于制定战略决策以改善业务成果。 这既包括数据治理,也包括数据管理生命周期的其他方面,例如数据处理、数据存储、数据安全等。 由于数据管理的这些其他方面也可能影响数据治理,因此这些团队需要协同工作以执行数据治理策略。 例如,数据治理团队可能会识别不同数据集之间的共性,但如果想要将这些数据集整合起来,他们需要与数据管理团队合作来定义数据模型和数据架构,从而促进这些联系。 再比如数据访问,数据治理团队可以围绕对特定类型数据(例如个人身份信息 (PII))的数据访问设置策略,但数据管理团队将直接提供这种访问权限,或者设置适当的机制以提供这种访问权限(例如,利用内部定义的用户角色来批准访问)。

MicroSoft Azure

数据治理一个进程、策略、角色、指标和标准的集合,用于实现组织的目标。

请务必始终了解谁在控制你的数据 - 了解数据治理以及团队可以如何管理和保护数据资产中的数据资源。

数据治理是流程、策略、角色、指标和标准的集合,可确保有效和高效地使用信息。这还有助于建立数据管理过程,在整个数据生命周期内保持数据安全、私密、准确且可用。

对于使用数据推动业务增长、改进决策并确保在竞争激烈的市场中获得成功的任何组织而言,可靠的数据治理策略至关重要。在收集大量内部和外部数据时,需要制定一种策略来有效管理风险、降低成本和执行业务目标。

HuaWei Cloud

数据治理(Data Governance)是指对数据质量的管理、专注在数据本身。从广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。

过去数十年间,企业的数据面临很多的问题:没有统一的数据标准,各业务系统间数据无法充分共享,关键核心数据无法识别及跨系统无法拉通等。为有效管理企业数据资产,实现数据价值的最大化,急需建立一个完善的数据治理框架体系,为企业数字化转型打下坚实的数据基础。

DAYU数据治理方法论是华为数据管理方法论的精华总结,参考了业界数据治理最佳实践,并结合华为数字化转型成功经验优化而成。DAYU数据治理方法论能有效帮助客户持续完善数据管理体系,沿企业主业务流打通信息链和数据流,提升数据质量,实现数据“清洁”,以支撑运营效率提升和经营结果的真实呈现,实现智慧数据驱动有效增长,充分实现数据资产价值。

DAYU数据治理方法论已经在华为云云服务数据湖治理中心DGC上落地实现,包括流程落地和功能落地。流程落地是指有一套详细的流程规范(需求、设计、实施、验证、发布等阶段)指导用户使用DGC开展数据治理工作;功能落地是指DGC平台提供自动化、智能化的工具帮助用户高效完成数据治理工作。

帮助中心链接:https://support.huaweicloud.com/dgm-dgc/dgc_09_0001.html

数据治理方法论:https://www.huaweicloud.com/product/dayu//methodology.html

产品首页链接:https://www.huaweicloud.com/product/dayu.html

DGC课程链接:https://education.huaweicloud.com:8443/courses/course-v1:HuaweiX+CBUCNXE076+Self-paced/about

DAYU数据治理方法论是华为数据管理方法论的精华总结,旨在帮助客户持续完善数据管理体系,沿企业主业务流打通信息链和数据流,提升数据质量,实现数据“清洁”,以支撑运营效率提升和经营结果的真实呈现,实现智慧数据驱动有效增长,充分实现数据资产价值。

数据治理框架
数据是企业核心资产,企业需要建立起数据字典,有效管理其日益重要的数据和信息资源;同时建立数据持续改进机制,来不断提升数据质量。数据的价值和风险应被有效管理,以支撑企业管理简化、业务流集成、运营效率提升和经营结果的真实呈现。数据准确是科学决策的基础,数据架构和标准的统一是全流程高效运作、语言一致的前提。

方法论流程落地
DAYU数据治理方法论是华为数据管理方法论的精华总结,方法论的流程落地和功能落地均参考了业界数据治理最佳实践,并结合华为数字化转型成功经验优化而成。

华为数据治理实践
以财经为例,在数据治理前存在很多问题,如由于IT系统的烟囱式建设,导致一个角色跨多个IT系统操作,效率低;数据获取难,手工处理多,单一个收入管理需要从5个系统导出数据,

约11个人总共花费50小时完成分析。

通过数据治理,华为可以做到3天月度财务报告出初稿、5天月度财务报告出终稿、11天年度财务报告完成初稿,要把一家业务遍及170多个国家和地区的全球化公司的“总账”算清楚可真不容易。要做到财报的高效、准确、完整,离不开高度集成的全球结账管理系统,更离不开数据治理,通过交易核算自动化、ERP优化、数据调度优化、数据质量监控以及提升数据分析平台的性能,华为实现了全球核算实时可视,

过程可跟踪、可管理。

MBA 智库百科

 数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。

  国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。

  国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。

  数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。

  “数据治理”的概念最早可以追溯到2004年,由H. Watson首先提出。H. Watson研究了数据仓库治理在企业管理中的实践,由此拉开了数据治理研究的帷幕。在早期阶段,数据治理被广泛用于企业管理领域,Otto认为数据治理是“组织中与数据相关事务的决策权及相关职责的分配。

Amazon AWS

数据治理 (DataGovernance),是企业数据治理部门发起并推行的一套持续改善管理机制,通常包括数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、监督及考核等内容,数据治理涉及的 IT 技术主题包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。

Alibaba Cloud

数据治理的目的和意义?

为确保企业数据的安全性和易用性,企业必须从中获取业务价值,最大程度地降低风险并寻求方法进一步开发和利用数据,而这就是数据治理需要完成的工作,数据治理一般来说主要包括以下三部分工作:定义数据资产的具体职责和决策权,应用角色分配决策需要执行的确切任务的决策和规范活动。为数据管理实践制定企业范围的原则,标准,规则和策略,数据的一致。建立必要的流程,以提供对数据的连续监视和控制实践并帮助在不同组织职能部门之间执行与数据相关的决策,以及业务用户类别。

数据治理流程

梳理业务流程,规划数据资源

通过获取流程数据,了解企业相关业务的流程、组织及技术能力,并从相关数据状态中获得更多业务洞察;结合业务实例,实时政策动态、架构等变化因素,有针对性地制定数据治理策略,构建以探索驱动定义的数据治理模式。

ETL 采集、去除异常值

通过记录数据定义、业务背景、分类、关系等内容,使流程更有重点和针对性,结合政策、规则、标准、流程等因素,对数据进行整合,提升数据的准确性,再进行集中存储。

大数据高性能存储及管理

获取流程数据的目标是执行数据治理,基于数据治理的政策、业务规则、流程管理、职能角色等因素,将数据进行分类管理,存储在对应的库里,从而有效提升后续数据的应用效率。

即时查询、智能分析、模型预测

数据的最终目的就是辅助业务进行决策,通过获取并衡量数据治理和管理工作的有效性及价值,监测是否与定义的政策和规则相符,有无异常;使数据资产及其生命周期透明并可审核。

数据治理有哪些好处?

Google Cloud

  • 做出更明智、更及时的决策
    整个组织中的用户都可以获得数据以联系和服务客户、设计和改进产品和服务,并抓住获得新收入的机会。

  • 改善费用控制
    数据可以帮助您更高效地管理资源。 因为您可以消除由信息孤岛产生的数据重复,所以不必过多地购买(也不必维护)昂贵的硬件。

  • 增强合规性
    日益复杂的监管环境使得组织建立健全的数据治理做法变得更加重要。您可以在主动预期新法规的同时避免不合规的风险。

  • 获得客户和提供商更大的信任
    通过可审核地遵从内部和外部数据政策,您将获得客户和合作伙伴的信任,他们相信您会保护他们的敏感信息,因而对与您开展业务充满信心。

  • 更轻松地管理风险
    通过强大的治理,您可以消除以下后顾之忧:将敏感数据暴露给缺乏适当授权的个人或系统、恶意外部人员的入侵,甚至是内部人员访问其无权查看的数据。

  • 允许更多人员访问更多数据
    强大的数据治理功能可以让更多人员访问更多数据,确保这些人员具有相应数据的访问权限,并且数据民主化不会对组织产生负面影响。

IBM

实施数据治理框架可以增加组织内数据的价值。由于数据治理有助于提高整体数据的准确性,它还会影响基于该数据的结果,包括较为简单的日常业务决策以及较为复杂的自动化计划。 一些关键好处包括:

  • 扩大规模和提升数据素养
    组织内有限的数据访问可能会限制创新,并在业务流程中产生对主题专家 (SME) 的依赖。 数据治理实践为跨职能团队创造了一条途径,使他们能够聚集在一起以形成对跨系统数据的共同理解(例如,协调与领域无关的数据差异)。 然后,这种共同理解可以通过数据标准体现出来,其中数据定义和元数据记录在一个集中的位置,例如数据目录。 反过来,这种文档又会成为自助服务解决方案(例如 API)的基础,这些解决方案支持整个组织中的一致数据和对数据的联合访问。

  • 确保安全、数据隐私和合规
    数据治理策略提供了一种方法来满足政府关于敏感数据和隐私的法规要求(例如欧盟通用数据保护条例 (GDPR) 和美国健康保险可移植性和责任法案 (HIPAA))以及行业要求(例如支付卡行业数据安全标准 (PCI DSS))。 违反这些法规要求可能导致高昂的政府罚款和引起公众的不满。 为避免这种情况,企业采用数据治理工具来设置护栏,防止数据泄露和数据滥用。

  • 高质量数据
    数据治理可确保数据完整性、数据准确性、完备性和一致性。 良好的数据可以让企业更好地了解他们的工作流程和客户,以及如何优化他们的整体业务绩效。 然而,绩效指标中的错误可能会将组织引向错误的方向,但数据治理工具可以纠正潜在的不准确之处。 例如,数据沿袭工具可以帮助数据所有者在整个生命周期中跟踪数据;这包括任何来源数据以及在任何 ETL 或 ELT 过程中应用的数据转换。 这样就可以仔细检查任何数据错误的根本原因。

  • 促进数据分析
    高质量的数据为更先进的数据分析和数据科学计划奠定了基础;这包括商业智能报告或更复杂的预测性机器学习项目。 只有当主要利益相关者信任底层数据时,才能对这些数据划分优先级;否则,它们可能不会被采用。

MicroSoft Azure

创建单一事实来源、改进的数据管理、降低的成本,以及所有团队的合规性。

数据治理的一个重要部分是构建一个计划,通过与来自断开连接的业务部门的利益干系人建立协作流程来打破数据孤岛。数据治理计划需要执行繁重的工作,以确保正确使用有组织的数据并将其准确地输入到系统中。实施可靠的数据治理策略有助于确保信息:

  • 已完全审核
  • 已评估
  • 记录
  • 托管
  • 已保护
  • 值得信赖

但首先,IT 团队需要确保你可以提供可靠的数据。具有易于访问且准确的数据的好处是:
具有单一事实来源。所有决策者都在相同的数据集、术语和视图中工作,为内部灵活性提供了更多机会。

  • 改进的数据质量。
    你的团队可以放心,因为所有可用数据都可以安全地使用,而且完成一致。
  • 改进的数据管理。
    帮助制定行为准则和最佳做法,以确保团队立即一致地解决组织需求和问题。
  • 更快且一致的合规性。
    在整个治理过程中进行干净的数据管理意味着过程可以正确生成、处理和保护数据,以保持其处于合规状态。
  • 降低成本和提高利润率润。
    消除基于过时信息的决策可提高日常运营效率、简化审核并减少浪费。
  • 卓越的组织声誉。
    当企业发展稳定可靠时,你会将企业定位为市场中的领导者。

虽然向组织添加数据治理策略有很多好处,但如果团队未为组织实施做好准备,则可能会面临一些挑战。

云中的数据治理

随着云采用速度的加快,不可避免地会出现关于它如何影响数据治理的问题。企业对于以下问题存在顾虑:

数据安全性:企业可能会担心是否应将数据存储在公有云中。他们仍然负责控制其本地系统的数据治理,但需要知道,将数据存储在云中时,云提供商将会保护数据以防泄露或盗窃。

云服务商将遵守法规:负责遵循法规和标准的企业合规人员和数据管理员需要确信其云服务商还将遵循 GDPR、CCPA、PCI DSS、HIPAA 和其他法规,并需要提供相关工具以帮助服务商在云中存储数据时遵守法规。

他们将具有可见性和控制权:公有云服务商知道他们在数据治理方面提供帮助的能力可以获取客户信任并极大地改善客户体验。因此,领先的云服务商会向使用其平台的公司提供数据评估、元数据编目、访问权限控制管理、数据质量和信息安全等工具,作为核心竞争力。

数据治理有哪些用途?

数据治理对于确保数据安全、可靠、私有、易用且符合内部和外部数据政策而言是必要的。您可以借助数据治理设置和执行控制措施,允许对数据进行更多访问,以便从对数据的控制中获得安全性和隐私权。以下是一些常见使用场景:

数据监管

数据治理通常意味着为数据本身以及确保“数据管理员”正确运用数据的过程分配相应的责任和建立问责机制。

数据质量

数据治理还用于确保数据质量,即旨在确保数据适合使用的任何活动或技术。数据质量通常从六个维度进行判断:准确性、完整性、一致性、及时性、有效性和唯一性。

数据管理

这是一个宽泛的概念,涵盖将数据作为企业资产进行管理的各个方面,从收集、存储到使用和监督,确保采用安全、高效、经济实惠的方式使用数据,然后进行处置。

数据治理的挑战

IBM

尽管数据治理的好处显而易见,但数据治理计划要取得成功还需要克服许多障碍。 其中的一些挑战包括:

  • 组织一致性
    在数据治理计划开始时,最大的挑战之一是让整个组织的利益相关者围绕什么是关键数据资产以及它们各自的定义和格式达成一致。 监管政策可以针对基于客户数据的对话制定一些结构,但要对属于主数据管理 (MDM) 范围的其他数据集达成一致可能会更加困难,例如更特定于产品的数据。

  • 缺乏相应的支持
    有效的数据治理计划通常需要两个级别的支持 — 高管级别和个人贡献者级别 首席数据官 (CDO) 和数据管理员对于组织内数据治理的沟通和优先级划分至关重要。 首席数据官可以对数据团队进行监督和实施问责制,确保数据治理策略得到采用。 数据管理员可以帮助提高数据生产者和数据使用者对这些策略的认识,以鼓励整个组织遵守这些策略。

  • 相关数据架构和流程
    如果没有合适的工具和数据架构,企业将难以部署有效的数据治理计划。 例如,团队可能会发现跨不同职能部门的冗余数据,但数据架构师需要开发适当的数据模型和数据架构,以合并和集成跨存储系统的数据。 团队可能还需要采用数据目录来创建整个组织的数据资产清单,或者如果他们已经有了一个清单,他们可能需要建立一个元数据管理流程,以确保底层数据是相关且最新的数据。

MicroSoft Azure

一些组织挑战包括接受、标准化和分配数据权限。

尽管回报巨大,但创建数据治理解决方案可能很困难。其中一些挑战包括:

  • 公司范围内的验收。
    由于数据跨多个部门,因此需要从上到下明确领导,以及跨职能协作。

  • 数据管理不佳。
    如果数据管理的结构是由不完整的数据管理程序构建的,则数据将不受保护、被孤立,并具有未区分的进程,可能导致大规模数据泄露和不合规。

  • 标准化。
    组织需要在治理标准和灵活性之间找到适当的平衡点。

  • 利益干系人对齐。
    你需要努力让利益干系人相信你的数据的价值,例如向利益干系人提供透明度报告更能说服他们投资组织的管理和安全预算。

  • 职责分配。
    决定谁是否应有权访问特定数据段可能会存在困难。创建一个管理谁可以在何时看到什么内容的系统将有助于你和你的团队消除潜在的问题。

公司中的每个人都需要接受数据管理策略 - 包括技术和业务两个方面。为了确保策略成功,需要在数据治理计划中实施最佳做法和原则。

数据治理的类型

(一)应对型治理

  应对型数据治理是指通过客户关系管理(CRM)等“前台”应用程序和诸如 企业资源规划(ERP)等“后台”应用程序授权主数据,例如客户、产品、供应商、员工等。然后,数据移动工具将最新的或更新的主数据移动到多领域MDM系统中。它整理、匹配和合并数据,以创建或更新“黄金记录”,然后同步回原始系统、其它企业应用程序以及数据仓库或商业智能分析系统。

  1、缺点:

  批量集成和应对型数据治理方法引入的时间延迟可能导致业务部门继续操作重复、不完整且不精确的主数据。因此,这会降低多领域MDM方案实现在正确的时间向正确的人员提供正确数据这一预期业务目标的能力。在期望被设定为数据将变得干净、精确且及时之后,批量集成引入的时间延迟让人感到沮丧。应对型数据治理(下游数据管理员小组负责整理、去重复、纠正和完成关键主数据)可能导致让人认为“数据治理官僚化”。

  应对型数据治理还会导致最终用户将数据管理团队看作“数据质量警察”,并产生相应的官僚化和延迟以及主数据仍然不干净的负面认识。这还将使得MDM方案更难实现它的所有预期优势,并可能导致更高的数据管理总成本。此方法的风险是组织可能以“两个领域中的最差”而告终,至少部分上如此–—已在MDM方案中投资,但是只能实现一些潜在优势,即在整个企业内获得干净、精确、及时以及一致的主数据。

  2、改进方法:

  有三个方法可超越应对型数据治理。

  (1)用户将数据直接输入到多领域MDM系统中:用户使用界面友好的前端将数据直接输入到多领域MDM系统中,但是他们的新记录和现有记录的更新留在暂存区域或保留区域,直到数据管理员审核和认证为止。这之后MDM系统才接受插入或更新,以便进行完整的整理、匹配、合并,并将“最佳记录”发布到企业的所有其他应用程序。此方法好过将一个完全不同的应用程序(例如CRM或ERP系统)作为“录入系统”,但是它仍然会出现延迟和效率低下。尽管存在这些缺点,使用暂存区域确实解决了大部分问题,例如不用强制执行重要属性的录入或在创建前不必进行彻底搜索。此外,由于我们并不受传统应用程序或现代CRM或ERP应用程序如何处理数据录入功能的影响,通过不对应对方法进行批量数据移动,我们还大大缩短了时间安排。

  (2)用户输入直接传送到多领域MDM系统中的数据:在外面输入新记录或更新,但是会立即传送到MDM系统,以便自动整理、匹配和合并。异常或例外传送到数据管理员的队列,几个管理员便可支持更多最终用户。这是第一个主动方法的改进,因为我们利用MDM系统的业务规则、数据整理和匹配功能,只要求管理员查看作为整理、匹配和合并流程的例外而弹出的插入或更新。

  (3)用户使用特定于数据治理的前端输入数据:第三个方法是允许最终用户直接录入到多领域MDM系统中,但是应使用专为主动数据治理方法而设计的前端。可专门为最终用户数据录入设定屏幕,您可利用功能齐全的MDM系统允许的自动化、数据整理、业务规则、搜索和匹配等所有功能。因此,不必首先将数据输入到MDM系统的暂存区域中,并且您不需要系统外的单独工作流应用程序。

  (二)主动型治理

  主动数据治理的第一个优势是可在源头获得主数据。具有严格的“搜索后再创建”功能和强大的业务规则,确保关键字段填充经过批准的值列表或依据第三方数据验证过,新记录的初始质量级别将非常高。

  主数据管理工作通常着重于数据质量的“使它干净”或“保持它干净”方面。 如果MDM系统中的数据质量初始级别非常高,并且如果您不会通过从CRM或ERP源系统中传入不精确、不完整或不一致的数据来连续污染系统,则主数据管理的“保持它干净”方面非常容易。  

  主动数据治理还可有效消除新主记录的初始录入和其认证以及通过中间件发布到企业其余领域之间的所有时间延迟。由用户友好的前端支持的主动数据治理可将数据直接录入到多领域 MDM 系统中,可应用所有典型的业务规则,以整理、匹配和合并数据。当初始数据录入经过整理、匹配和合并流程后,此方法还允许数据管理员通过企业总线将更新发布到组织的其它领域。

  主动数据治理方法消除了“数据治理官僚化”这一认识,因为主数据的授权已推给上游的业务用户,使数据管理员处于很少被打扰的角色,他们将不会成为诸如订单管理或出具发票等关键业务流程的瓶颈。

数据治理过程

  从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统(控制理论中趋稳的系统)。从目的来讲,数据治理就是要对数据的获取、处理、使用进行监管(监管就是我们在执行层面对信息系统的负反馈),而监管的职能主要通过以下五个方面的执行力来保证——发现、监督、控制、沟通、整合。

数据治理工具

  • 元数据管理:包括元数据采集、血缘分析、影响分析等功能;
  • 数据标准管理:包括标准定义、标准查询、标准发布等功能;
  • 数据质量管理:包括质量规则定义、质量检查、质量报告等功能;
  • 数据集成管理:包括数据处理、数据加工、数据汇集等功能;
  • 数据资产管理:包括数据资产编目、数据资产服务、数据资产审批等功能;
  • 数据安全管理:包括数据权限管理、数据脱敏、数据加密等功能;
  • 数据生命周期管理:包括数据归档、数据销毁等功能;
  • 主数据管理:包括主数据申请、主数据发布、主数据分发等功能。

数据治理的原则

  • 原则1:关键概念多方共识
    关键概念若涉及多方,比如成交客户的定义,要确保公司内部和客户相关的所有业务人员理解一致。

  • 原则2:某个类型的值经常发生变动,则需要冗余一个通用字段冗余值
    处理过数据的同学都知道,某个指标的实现可能和其它几个关键指标相关,那么该指标的异常排查就需要逐个检查是哪个相关指标出问题了,查找到原因可能2,3天的时间就没了,但如果事先开发人员冗余了一个通用字段代表该类消费指标,那么后续不管业务人员上线多少个消费类型的任务,都不会对原来的指标产生影响。

  • 原则3:每个实体都有唯一、不变的ID,最好没有实际意义
    一是为了实体的唯一性,二是为了表关联或更新时不受业务的影响。

  • 原则4:涉及协作的数据,发现问题要从修改源头做起,保证下一次拿到正确的数据
    协作的数据可以说是一个串联的过程,源头的数据会逐层影响下层的数据,不要为了一时方便,只修改目前发现问题的地方,要从修改源头做起,方便他人即方便自己。

  • 原则5:编写操作清单,操作前请三思
    数据间存在关联,把数据间的关联关系陈列清楚、注意事项标注清楚,操作前一一核对,小数据量验证无错后,大数据量执行。

  • 原则6:系统工程的方法管理数据,尽可能使用系统,监控数据错误并及时修复
    将使用数据的相关方都画在一张系统循环图中,观察数据错误产生于系统哪个环节,如何影响后续各个环节,避免恶性循环的产生。

数据治理原则和最佳做法

MicroSoft Azure

前五项原则包括责任、法规、数据管理、数据质量和透明度。

创建数据管理所需的框架时,需要创建符合组织目标的框架。你需要考虑的是如何正确使用数据、提高数据安全性、创建和强制实施数据分发策略,以及如何遵守所有法规要求。

为了保证实现成功,请关注以下五项数据管理原则:

  • 责任制
    在整个组织中,你需要团队成员来控制你的数据。如果没有人承担该责任,则不存在数据管理。你和你的 IT 团队必须利用所有权,承担责任。与其他部门代表建立数据管理团队,以确保跨组织负责。

  • 法律法规
    你需要数据治理团队制定所有人都要遵守的标准化规则和法规,以实施和创建所有数据使用的条件。

  • 数据管理
    选择专门的数据管理员(也称为数据专员)是制定和确保数据治理提供正确保护的关键。数据专员的职责是向数据治理团队报告并强制实施数据规则和法规,从而确保时刻遵守这些规则和法规。

  • 数据质量
    你需要高质量、干净且可靠的数据来做出明智的业务决策。为此,你的数据专员将创建一组共享标准以提高数据质量。

  • 透明度
    所有数据管理进程都需要尽可能透明。保存所有函数和步骤的永久记录可确保将来的任何审计都能够确定数据使用情况、使用的数据、如何处理数据以及团队使用该数据来源。

随着业务扩展,以及遵守这五项数据管理原则,你还需要适应最新的数据治理做法,并确保你掌握最新技术。

数据管理的五个最佳做法如下:

  • 大处着眼,小处入手。
    记录高级别目标,但务必牢记项目的目标和里程碑。

  • 请任命一位执行发起人。
    此人将向高级主管以及更广泛的组织宣传你的数据管理策略。

  • 生成案例。
    创建业务案例,你将需要证明为何需要尽快实施成功的数据治理计划。

  • 开发正确的指标。
    指标过多或过少都会使你难以理解是否将会达到目标。用户、运算符和团队需要快速确定不需要哪些指标来达成目标。

  • 与所有级别保持通信。
    对此新进程保持开放,特别是鼓励那些对更改有负面影响的进程。你需要为许多可能不了解你的进程及其重要性的用户提供上下文和透明度报告。

HuaWei Cloud

数据治理的挑战

  • 缺乏企业数据体系标准和数据规范定义的方法论,数据语言不统一 ;

  • 缺乏面向普通业务人员的高效、准确的数据搜索工具,数据找不到;

  • 缺乏技术元数据与业务元数据的关联,数据读不懂;

  • 缺乏数据的质量管控和评估手段,数据不可信。

数据运营的挑战

  • 数据运营效率低,业务环境的快速变化带来大量多样化的数据分析报表需求,因为缺乏高效的数据运营工具平台,数据开发周期长、效率低,不能满足业务运营决策人员的诉求。

  • 数据运营成本高,数据未服务化,导致数据拷贝多、数据口径不一致,同时数据重复开发,造成资源浪费

数据创新的挑战

  • 企业内部存在大量数据孤岛,导致数据不共享、不流通,无法实现跨领域的数据分析与数据创新。

  • 数据的应用还停留在数据分析报表阶段,缺乏基于数据反哺业务推动业务创新的解决方案。

数据治理的价值

  • 1、降低业务运营成本
    有效的数据治理能够降低企业IT和业务运营成本。一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本;标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。

  • 2、提升业务处理效率
    有效的数据治理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询到所需的数据,然后即可展开自己的工作,而无须在部门与部门之间进行协调、汇报等,从而有效提高工作效率。

  • 3、改善数据质量
    有效的数据治理对企业数据质量的提升是不言而喻的,数据质量的提升本就是数据治理的核心目的之一。高质量的数据有利于提升应用集成的效率和质量,提高数据分析的可信度,改善的数据质量意味着改善的产品和服务质量。数据质量直接影响品牌声誉。

  • 4、控制数据风险
    有效的数据治理有利于建立基于知识图谱的数据分析服务,例如360°客户画像、全息数据地图、企业关系图谱等,帮助企业实现供应链、投融资的风险控制。良好的数据可以帮助企业更好地管理公共领域的风险,如食品的来源风险、食品成分、制作方式等。企业拥有可靠的数据就意味着拥有了更好的风险控制和应对能力。

  • 5、增强数据安全
    有效的数据治理可以更好地保证数据的安全防护、敏感数据保护和数据的合规使用。通过数据梳理识别敏感数据,再通过实施相应的数据安全处理技术,例如数据加密/解密、数据脱敏/脱密、数据安全传输、数据访问控制、数据分级授权等手段,实现数据的安全防护和使用合规。

  • 6、 赋能管理决策
    有效的数据治理有利于提升数据分析和预测的准确性,从而改善决策水平。良好的决策是基于经验和事实的,不可靠的数据就意味着不可靠的决策。

数据治理的挑战

  • 1、组织
    数据治理需要一种开放的企业文化,例如,可以实施组织变更,即使这仅意味着命名角色和分配职责。结果,数据治理成为一个政治问题,因为这最终意味着分配,授予和撤消责任与能力。这里需要一种敏感的方法。

  • 2、接受与沟通
    数据治理需要通过合适的员工在正确的地方通过各方之间的有效通信来接受。项目经理尤其需要了解技术和业务方面的术语,术语,最好是公司的总体概念图。

  • 3、预算和利益相关者
    通常仍然很难说服组织中的利益相关者对数据治理计划的需求并获得预算。另外,变更通常会因根深蒂固而受到阻碍,但是业务部门中不直接可见的资源可以弥补正常运行的过程和信息处理中的不足。

  • 4、标准化和灵活性
    企业需要灵活应对快速变化的需求。但是,至关重要的是,要根据每个公司的业务需求在灵活性和数据治理标准之间寻求适当的平衡。

相关产品和服务

Google Cloud

Google 提供了许多工具来实现组织中的数据治理,包括有助于提高数据发现能力、进行元数据管理的 Dataplex,以及允许将敏感数据与容器中的其他数据分开的数据类别层级的控制机制。

Data Catalog

扩缩能力极强的全代管式数据发现和元数据管理服务。

BigQuery

伸缩能力极强且经济实惠的无服务器云数据仓库,提升您的业务敏捷性。

数据泄露防护

可以帮助您发现、分类和保护最敏感数据的全代管式服务。

Cloud IAM

精确的访问权限控制和透明的信息,帮助您集中管理云端资源。

IBM

IBM Cloud Pak for Data

使用基于数据架构构建的平台,更快地预测结果。 无论数据位于何处,都可以收集、组织和分析数据。

IBM Cloud Pak for Data 利用微服务及其领先的数据和 AI 功能,实现分布式系统数据智能集成的自动化,为企业提供全面的业务绩效视图。 这有助于更快地收集、组织和洞察企业数据,支持企业进行大规模决策。 数据管理团队相信,具有竞争优势的 IBM 安全框架能够保护他们的数据安全,确保遵守监管政策,降低合规性风险。 了解 IBM Cloud Pak® for Data 和 IBM Streams 如何帮助您了解和管理企业跨多个环境的数据治理。

了解有关 IBM Cloud Pak for Data 的更多信息

IBM Watson Knowledge Catalog

在主动元数据和策略管理的支持下,通过智能编目为 AI 和分析激活业务就绪数据。

MicroSoft Azure

云数据治理框架

什么是云数据治理框架?
云数据治理框架是:一组预先确定的规则,用于管理数据流并帮助实现业务目标。

将数据移动到云存储对增长至关重要。你的云数据治理框架将充当蓝图,并为数据策略在云中存储的方式打下基础。Microsoft Purview 等产品可帮助你的团队探索数据流(入站和出站),同时治理集成了有关如何在云存储中安全管理和控制数据流的规则、责任、过程和流程。

全球行业委员会 EDM 委员会创建了云数据管理功能(CDMC),规定了数据管理应封装的框架。这包括:

  • 数据编目和发现 - 以统一的方式对数据资产进行自动标识和物理记录,以启用组织数据的逻辑搜索、描述和发现。

  • 数据分类 - 使用适当的信息、隐私或其他敏感度分类标记数据,以确保继续使用和保护。

  • 数据所有权 - 确保数据由组织内负责任且获得授权的代理拥有数据以实现保护、描述、访问和质量。

  • 数据安全 - 确保数据已加密、模糊、标记化,或者根据数据分类使用合适的安全措施。包括捕获安全应用程序证据和管理数据丢失防护。

  • 数据主权和跨界数据共享 - 确保根据管辖规则和禁令存储、访问和处理数据。

  • 数据质量 - 根据数据质量的核心度量值(准确性、完整性、一致性、有效性、相关性和及时性)来确保数据符合目的。

  • 数据生命周期管理 - 确保按照数据法律、法规和隐私生命周期要求对数据进行溯源、存储、处理、访问和处置,这些要求通常在保留计划中定义。

  • 数据权利和访问跟踪 - 只有打算访问数据的人员才能访问数据。审核此访问权限是证明和确保控制的重要部分。

  • 数据世系 - 确保可以确定数据的来源、数据的步骤以及在粒度和相关频率下使用的地方。

  • 数据隐私 - 定义一个框架,用于保护数据主体的隐私,该框架应反映贵组织适用的监管和隐私方面的法律。请确保使用进程和技术来确保积极应用了该隐私框架。

  • 可靠来源管理和数据协定 - 大型组织可能具有源自多个源或通过多个源处理的类似数据。标识和管理受信任的源并定义使用数据协定对于确保数据来自认可的真实源,以及正在有效管理整个数据体系结构非常重要。

  • 合乎道德的使用和目的 - 数据的合乎道德使用受到隐私法和数据主体权利之外的质疑。随着人工智能和机器学习的使用增加,请务必确保以客户期望的方式根据你所在公司的道德准则处理数据。

  • 主数据管理 - 主数据是组织内最常用的重复数据。这类数据通常描述了公司的核心运营方面(例如产品、客户、员工和公司结构)。请确保此数据具有单一一致性视图,这是准确可靠使用数据的基础。

请务必了解,不能仅依靠技术解决方案来完成数据治理,在混合和多云世界中,集成数据管理体系结构将成为所有解决方案中更为重要的部分。

数据治理工具、软件和资源
虽然并不存在适用于每个企业的数据治理策略,但基于云的可缩放解决方案(如 Azure)将帮助组织适应未来需求,同时提高成本效益。此外,无论选择哪种工具,请确保其有助于:

  • 通过验证、清理和扩充提高数据质量。

  • 通过发现、分析和基准测试捕获和理解数据。

  • 管理数据以跟踪具有端到端世系的数据集成。

  • 记录数据以提高相关性、可搜索性、可访问性等。

  • 随时主动查看和监视数据。

  • 助力员工充分理解数据。

此外,查找包括 AI、机器学习、信息生命周期和内容管理,以及企业元数据管理(EMM)的软件功能。

Azure 治理和管理是管理和治理云解决方案的完美示例,该解决方案具有高级功能,可在整个 IT 生命周期中帮助管理数据。借助此数据治理,你可以跟踪组织端到端的数据流,以确保所有适当人员无论何时都能够访问所需的可靠、准确的数据。

其他资源

浏览

k

解决方案创意
指南
网络研讨会

Huawei Cloud - 数据治理中心 DataArts Studio

数据治理中心(DataArts Studio)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。

功能描述

  • 数据集成
    支持批量数据迁移、实时数据集成和数据库实时同步,支持20+异构数据源,全向导式配置和管理,支持单表、整库、增量、周期性数据集成

  • 数据治理
    提供智能数据规划、数据质量监控、数据标准化等功能,统一管理数据模型、数据标准,并落地数据模型和数据标准,用于改善数据质量,有效支撑决策

  • 资产管理
    提供企业级的元数据管理,厘清信息资产。通过数据地图,实现数据资产的数据血缘和数据全景可视,提供数据智能搜索和运营监控

  • 数据研发
    大数据开发环境,降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作,轻松完成整个数据的处理分析流程

  • 智能服务
    标准化的数据服务平台,提供一站式数据服务开发、测试部署能力,实现数据服务敏捷响应,降低数据获取难度,提升数据消费体验和效率,最终实现数据资产的变现

  • 全场景可视
    数据治理运营过程可视,拖拉拽配置,无需编码;处理结果可视,更直观,便于交互和探索;数据资产管理可视,支持钻取、溯源等

  • 统一调度
    全面托管的调度,支持按时间、事件触发的任务触发机制,支持分钟、小时、天、周和月等多种调度周期

  • 统一运维
    可视化的任务运维中心,监控所有任务的运行,支持配置各类报警通知,便于责任人实时获取任务的情况,保证业务正常运行

  • 数据安全
    统一的数据安全保护中心,提供敏感数据识别及分类,安全隐私保护,细粒度权限控制,数据风险识别及合规审计等能力,帮助用户增强整体安全防护能力,建立安全预警机制,让数据使用安全、合规

应用场景


业务痛点

  • 业务部门间相互隔离,数据无法共享,信息孤岛情况严重

  • 来自不同数据源的数据格式繁多,无法融合建模分析

  • 数据与应用深度耦合,新应用开发困难,通用性差

核心需求

  • 业务部门间,数据互联互通,信息共享共治

  • 数据权限管理,不同用户提供不同数据访问权限

  • 完善的安全方案防止数据泄露

优势

  • 建设统一数据平台,打破数据孤岛,统一技术规范,统一数据标准,统一访问接口,通过智能数据湖实现数据共享共治

  • 统一数据安全体系,数据确权脱敏,数据密级管理,数据申请权限管理。

DataArts Studio架构和方法论

产品优势

  • 一站式数据运营平台
    贯穿数据全流程一站式开发运营平台,提供全域数据集成、标准数据规范架构研发、连接并萃取数据价值、统一数据资产管理、数据智能分析与可视化、数据开放服务,帮助企业构建完整数据中台解决方案

  • 可复用行业知识库
    提供垂直行业可复用的领域知识库,涵盖行业数据标准、行业领域模型、行业数据主题库、行业算法库和行业指标库,支持智慧政务、智慧税务、智慧园区等行业企业快速定制数据运营端到端解决方案

  • 丰富的数据开发类型
    支持多人在线协作开发,脚本开发可支持SQL、Shell在线编辑、实时查询;作业开发可支持CDM、SQL、MR、Shell、MLS、Spark等多种数据处理节点,提供丰富的调度配置策略与海量的作业调度能力

  • 全链路数据治理管控
    数据全生命周期管控,提供数据规范定义及可视化的模型设计,智能化的帮助用户生成数据处理代码,数据处理全流程质量监控,异常事件实时通知

  • 统一数据资产管理
    全局资产视图、快速查看、智能管理、数据溯源和数据开放共享,从业务视角管理和查看数据,定义业务架构、业务分类和业务术语,统一管理资产访问权限

  • 统一数据安全管理
    数据全生命周期的安全管控,提供事前,事中,事后数据安全管理能力,帮助用户增强整体安全防护能力,建立安全预警机制,让数据使用安全、合规

主题库

  • 园区主题库
    通过华为云DataArts Studio平台的园区主题库,更加有效地连事、物、人。主要包括住宅社区、企业园区、教育园区、会展文化中心、产业园区、商业中心和政府公建,华为云聚焦安全、效率、体验和成本 ,支撑合作伙伴打造智能化、标准化的智慧园区。

  • 教育主题库
    通过华为云DataArts Studio平台的教育主题库,更加有效地连接家、校、人,通过物联网实现校园数据实时采集,提升工作效率。支持听说读写等交互方式,多终端综合应用,让教育场景更加智能化,高效化

  • 机场主题库
    通过梳理主题域的概念和实体关系,构建全面覆盖机场数据使能需求的数据模型,从而指导数据运营的全过程,促进数据资源向数据资产的转变。

  • 地产业主题库
    定义覆盖地产企业研发、项目投拓、工程施工、销售和后期运营全价值链的业务主题域,提供一套地产行业通用的标准数据模型,快速构建企业级数字化运营平台。打通全业务信息链条,实现全领域运营精细化管理。利用数据驱动市场需求的360洞察,辅助企业优化产品和服务,实现精准营销。

  • 制造业主题库
    定义覆盖离散制造企业运营全场景的研发、采购、生产、销售、人力、财务、基础设施等各大主题域,提供一套离散制造行业通用的标准数据模型。帮助制造企业快速构建数字化运营平台,使能各类业务进行前瞻性预测,快速响应业务需求及智慧应用创新。

亚马逊云科技数据治理相关产品

Amazon FSx for Lustre

快速、可扩展的共享存储,可为您的计算工作负载提供支持
了解 Amazon FSx for Lustre

Amazon FSx for Windows

在 Windows Server 上构建的完全托管的文件存储
了解 Amazon FSx for Windows

Amazon Elastic File System

简单、无服务器、一劳永逸的 Elastic File System
了解 Amazon Elastic File System

Amazon Glacier

云中的低成本归档存储
了解 Amazon Glacier

Alibaba Cloud 大数据开发治理平台 DataWorks

DataWorks数据治理中心可自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及数据安全等维度存在的待治理问题,并通过健康分模型进行量化评估,从全局、工作空间、个人等多个视角,以治理报告及治理排行榜的形式呈现治理成果,帮助您有效推动解决治理问题达成治理目标。在成本治理方面,数据治理中心提供任务资源消耗明细、资源消耗整体趋势、单任务费用预估等丰富功能,可帮助您对各类资源使用费用进行有效的优化控制。

什么是DataWorks
DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注

close
arrow_upward