《企业级数据与AI项目成功之道》
AIOps与之前讨论的MLOps不同,它涉及使用机器学习和人工智能以及大数据,来利用数据驱动的洞见来自动执行信息技术运营决策制定。
AIOps使用机器学习来检测实体之间的关系并处理数百万个事件以检测可能与操作异常相关的模式和序列。
AIOps可用于提高生产率并帮助降低运营成本。例如,基于具有业务影响的重复事件的顺序,AIOps可以检测到重复模式并预测在给定的时间点可能会发生业务中断。由于信息技术环境可能具有分散在公共云和私有数据中心(云计算)之间的动态工作负载,因此机器学习和人工智能技术适合处理各种运营活动。
图6-7显示了一些对于AIOps至关重要的增量式构件。
图6-7 AIOps的构件
AIOps可以包括以下类型的活动:
- 从数据源收集数据和遥测信息,包括性能指标、日志警报、故障凭单等。数据应该可以被访问,以建立信息技术环境的准确和实时视图,该环境包括云、雾和霭计算节点上的所有地形层。
- 由于信息技术环境的动态特性,自动化数据发现进程可以帮助跨所有基础设施和应用程序域收集数据,包括本地计算、虚拟计算和云部署的数据。
- 数据必须是相关的,以确定应用程序及其基础架构之间以及业务交易与应用程序之间的任何关系。
- 数据必须以易于使用的可视化格式呈现,以帮助查明需要采取纠正措施的问题。
- 发现问题的根本原因是AIOps的一项必要能力,这也是确定重复发生的模式和预测未来事件的必要能力。AIOps旨在利用监督式和非监督式学习模型来确定时间序列事件的模式。
- 当检测到异常时,应执行一系列补救措施来解决这种情况。
- 自动对未来进行预测,例如用户流量在给定时间点可能发生的变化,然后以适当的方式做出反映。
- 为了充分支持运营,必须及时对所发出的任何警报进行处理。
- 在进行闭环补救时,使用自动化优于使用人工操作。
- 机器学习模型用于检测来自预期行为和阈值的异常,并预测中断和信号潜在性能问题。
- AIOps有助于自动化运营性信息技术任务,通过减少维修时间来帮助提高客户满意度,这是一项维护指标,用于衡量对故障设备、网络或应用程序进行故障排除和维修所需的平均时间。作为计算,修复的平均时间用于反映组织对计划外的故障或失败的响应速度。
AIOps的功能可以跨前面描述的创建、执行和运行流描述的一般进程。
- 创建:将确定潜在的数据源,并计划通过近实时数据发现,收集这些数据源,以便能够发现可用作洞见的模式。发现算法的设计应该具有从基础架构元素中提取有意义的数据的能力,以及从虚拟机、容器和管理程序中提取应用关系的能力。
- 执行:需要跨关键运营域构建编制服务,这些运营域可能包括多云环境,并涉及资产管理、变更管理和事件管理。通过利用环境和环境状态的配置信息,可以构建AIOps来更新配置管理数据库。
- 运行:AIOps应使用机器学习,来以自动化方式清理日志文件、释放空间或在必要时重新启动应用程序。自动化也可以用于例如根据需要更改路由器上的应用程序流量策略。
在支持云计算的复杂多云环境中,应对不断发展的信息技术生态系统,就需要使用机器学习和人工智能来切实帮助信息技术运营,尤其是必须将信息技术基础架构视为高度动态的基础设施。通过认识到人工智能在业务应用程序中的使用只会不断增长,DataOps的使用填补了DevOps留下的以数据为中心的空白。所以这三个xOps(DevOps/MLOps、DataOps、AIOps)是人工智能成功的基础,并且必须在信息架构中予以考虑。
自适应的变化可能很难处理,因为它可能与恐惧有关。改变恐惧症是一种承认对变化的恐惧症。DevOps/MLOps、DataOps和AIOps都基于持续性的变化,这种变化将成为我们日常工作的一部分。由于自动化是xOps的核心部分,因此使用强大的工具和经过定义的进程,应该有助于解决与团队成员可能经历的不断变化相关的恐惧症。