DataOps

内容纲要

一、介绍

DataOps 是一套实践、流程和技术的结合,它将数据的整合和面向流程的视角与来自敏捷软件工程的自动化和方法相结合,以提高数据分析领域的质量、速度和协作,并促进持续改进的文化。虽然 DataOps 最初是一套最佳实践,但现已成熟,成为数据分析的一种新的独立方法。DataOps 适用于整个数据生命周期,从数据准备到报告,并认识到数据分析团队与信息技术运营的相互关联性。

DataOps 结合了敏捷方法论,以缩短分析开发的周期时间,并与业务目标保持一致。

DevOps 专注于通过利用按需 IT 资源并自动化测试和软件部署来实现持续交付。这种软件开发和 IT 运营的融合提高了软件工程和部署的速度、质量、可预测性和规模。借鉴 DevOps 的方法,DataOps 旨在将这些改进带到数据分析中。

DataOps 利用统计过程控制(SPC)来监控和控制数据分析管道。通过 SPC,流经操作系统的数据不断被监测和验证,以确保其正常运行。如果出现异常,数据分析团队可以通过自动化警报得到通知。

DataOps 并不依赖于特定的技术、架构、工具、语言或框架。支持 DataOps 的工具促进了协作、编排、质量、安全、访问和易用性。

二、历史

DataOps 一词最初由 Lenny Liebmann,InformationWeek 的特约编辑,在 2014 年 6 月 19 日于 IBM 大数据与分析中心的博客文章“3个原因说明 DataOps 对大数据成功至关重要”中首次提出。

此后,这个术语由 Tamr 的 Andy Palmer 和 Steph Locke 进一步推广。

DataOps 是“数据运营”(Data Operations)的简称。

2017 年对于 DataOps 来说是一个重要的年份,期间发生了显著的生态系统发展、分析师关注、关键词搜索增加、调查、出版物和开源项目的增长。

加特纳(Gartner)在 2018 年的数据管理炒作周期(Hype Cycle for Data Management)中提到了 DataOps。

三、目标和哲学

据 IDC 预测,到 2025 年,数据量将以 32% 的复合年增长率增长至 180 ZB(Zettabytes)。

DataOps 旨在提供工具、流程和组织结构,以应对这一显著的数据增长。

自动化简化了管理大型集成数据库的日常需求,使数据团队能够以更高效、更有效的方式开发新的分析。

DataOps 旨在提高数据分析的速度、可靠性和质量。

它强调数据科学家、分析师、数据/ETL(提取、转换、加载)工程师、信息技术(IT)以及质量保证/治理之间的沟通、协作、集成、自动化、测量和合作。

四、实践

Blue Hill Research的Toph Whitmore为信息技术部门提供了以下数据运营领导原则:

  • 在数据流的每个阶段建立进展和绩效度量。在可能的情况下,基准数据流循环时间。
  • 定义抽象语义层的规则。确保每个人都在“使用相同的语言”并对数据(和元数据)是什么和不是什么达成一致。
  • 通过“目测测试”进行验证:包括以持续改进为导向的人类反馈循环。消费者必须能够信任数据,这只能通过逐步验证实现。
  • 尽可能自动化数据流的各个阶段,包括商业智能、数据科学和分析。
  • 使用基准的绩效信息,识别瓶颈,然后针对这些瓶颈进行优化。这可能需要投资于通用硬件,或者自动化以前由人类完成的数据科学步骤。
  • 建立治理纪律,特别关注双向数据控制、数据所有权、透明度以及通过整个工作流程的全面数据血统跟踪。
  • 为增长和可扩展性设计流程。数据流模型必须设计为适应数据的容量和多样性。确保使能技术的定价能够负担得起,以便与企业数据增长相匹配。

五、事件

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注

close
arrow_upward