企业级大数据平台智能运维好帮手——星环科技多模数据平台监控软件Aquila Insight

动图封面

Aquila Insight介绍

Aquila Insight是星环科技推出的一款多模数据平台监控软件,为企业运维团队提供了一套统一、完整、便捷的智能化运维解决方案。通过丰富的仪表盘管理、告警与通知管理、实时和历史查询语句运行分析、计算和存储引擎的统一监控、完整的日志收集过滤与检索等功能,实现高效智能运维的目标,充分保证集群稳定高效的运作。

业务痛点

企业在应对业务部门的扩张以及数据融合创新时,通常会针对不同的项目场景引入不同的数据模型以及大数据产品。这些产品和模型为企业解决了海量多源异构数据的存储管理难题,但与此同时,产品服务的可靠性问题也为企业带来了挑战。服务需要持续高效、稳定、可靠的运作,对于企业运维团队来说需要做到有问题及时发现,资源不够及时扩容,出现故障迅速修复,以防止出现服务器长时间宕机、业务长时间中断、数据丢失等问题。

企业如果采用了大量分布式架构的大数据组件,那么运维人员需要掌握每一款大数据产品的相关知识,极大的增加了企业的运维成本以及运维人员的学习成本。并且由于缺乏统一的运维入口,传统的查询运维难以完成指标数据的可视化,极易缺乏或遗漏关键监测指标。在数据碎片化、监控对象粒度庞大的情况下,自动化监控难以实现,无法保障企业及时发现故障异常并进一步排除业务隐患。

基于多年以来在大数据运维方面积累的丰富经验,星环科技推出的Aquila Insight多模数据平台监控软件具备高安全性、高易用性的特点,可以及时帮助企业发现问题并解决问题,为用户提供平台级大数据系统的交互式运维解决方案,保障产品可靠稳定的高性能运转。

Aquila Insight架构图

产品功能

Aquila Insight将星环全线产品的运维数据集成起来,打通跨产品、跨服务、跨集群的运维窗口,提供一站式自动化的运维分析、完备的功能配置,满足不同的运维场景需求。通过可视化的系统监控平台,运维人员可以对系统负载,平台运行状况等指标进行统一管理与监控。多方面多维度的集群监控、预警、分析以及状态检查机制充分赋予了运维人员解决系统异常的能力,对于潜在的严重问题,Aquila Insight预置的告警通知设置能够及时预警,实现事前预警、事中告警、事后分析的全阶段运维

全线产品,一站式监控,开箱即用

Aquila Insight预置了大量的运维规则,提供54个预置仪表盘,124条告警规则,用户可以根据自身运维场景来设置不同的运维模块组合,对产品的可用性、性能、业务负载等进行全方位监控。

分布式集群监控

丰富的告警规则设置,全方位监控预警

Aquila Insight基于指标和日志数据进行实时运算,帮助用户及时感知平台健康状态,搭配丰富的告警规则可以满足用户大量场景化的告警预警。

  • 审计告警:支持监测安全侵害事件,如越权操作、非法入侵;
  • 状态告警:支持对用户活动带来的异常状态告警,如慢查询过多、在线事务过多、连接数过多等;支持对数据库异常状态告警,如锁超时、相关服务不可用等;
  • 资源预警:支持对资源情况预警,通过摘要模板,精确显示具体的告警对象,如某服务内存不足、某中间件CPU占用过高等;

用户可以在告警查询页面中方便地管理告警信息,进行故障排查。系统提供基于告警规则,历史告警记录的查询,用户可以更高效的追溯历史事件,进行问题回顾。同时,系统汇集了不同系统来源的告警,将基于不同告警规则生成的告警通知以邮件或者Webhook的形式分派给对应的运维人员,进一步提升告警功能的易用性与告警处理效率。此外,Aquila Insight也支持告警分组,静默,告警抑制等功能,可有效避免告警风暴, 凸显关键告警。

规则定制

日志管理与分析

Aquila Insight预置了平台以及租户级别的日志搜索规则,开箱即用。为了帮助用户更高效的追溯故障发生的上下文并迅速定位故障原因,Aquila Insight支持星环大数据产品的日志收集,导入导出,查询,为用户提供了丰富的筛选条件,如:关键词、参数、上下文等查询方式。并且系统支持审计日志的检索与报表展示,可以使用日志搜索检测安全侵害事件、操作不合规行为以及其他与数据库或SQL相关的问题。平台预置了搜索过滤器,用户可以选择保存搜索条件,便于后续复用搜索。为了提高告警效率,平台还支持一键告警,通过与告警功能联动,用户可以直接根据日志搜索结果进行告警设置。

日志上下文展开

高效的计算引擎监控、SQL监控与告警

Insight Server的可视化页面支持用户查看server以及executor的健康状态以及指标信息,如CPU、内存、GC等情况。除此之外,用户也可以查看实时、历史、每天/每小时的TOP SQL查询,以及根据查询的特征进行实时告警,告警历史查询等等。

SQL查询

运维人员在SQL运行效率慢或卡住的情况时,通常需要通过查看计算引擎的server、executor的jstack来排查此时引擎正在执行什么任务,卡在了哪行代码,定位线程长时间停顿的原因。虽然有一些性能分析工具可以帮助运维人员去排查问题,但是这类工具通常会给用户展示大量的细节信息和数据,需要花费大量时间跟精力来优化可能并不重要的地方。

Insight Server引入了火焰图(Flame Graphs),火焰图以一个全局的视野列出所有可能导致性能瓶颈的调用栈,可以快速帮助运维人员查看函数执行的频繁程度、哪些函数经常阻塞以及分析程序的性能瓶颈等等。

查看或下载执行器的jstack

数据库管理功能

Aquila Insight 支持用户查看当前集群中有哪些类型的数据库和表,更直观的为用户实时展示当前数据库与指定表的统计信息。并且针对部分组件(如ArgoDB,Slipstream、TimeLyre),Aquila Insight 提供完备的监控信息展示与统计,如支持流任务状态查看和管理、任务指标查看、库表信息查看、存储健康状态、读写情况展示、事务与锁的情况等等。

当多个事务都需要对某一资源进行锁定时,默认情况下会发生阻塞。被阻塞的请求会一直等待,直到原来的事务释放相关的锁。因此,监控SQL事务至关重要,通过精准定位到导致阻塞的SQL任务,用户可以有针对性的对其进行监控,从而解决阻塞问题。

如下图所示,Aquila Insight提供给了用户一个可视化的事务监控图,每个方块代表一个PLSQL,其中a指向b,则表示SQL a涉及的事务在等待SQL b的事务。两个橙色的节点表示导致整个SQL事务等待的关键SQL,由于耗时较久因此后面的事务被阻塞,用户仅需针对这两个SQL进行优化,即可解决其他事务阻塞的问题。

SQL事务监控

全栈覆盖 跨级群统一监控运维

在多集群的场景下,如多云, 数据库两地三中心,Aquila Insight支持用户对多个集群进行统一监控运维。通过对接多个数据源,系统能够将多个集群的运维数据汇总到一起,然后进行统一存储,统一分析以及统一展示。

运维数据源管理

操作演示示例

为了方便您进一步了解Aquila Insight,以下从场景角度进行操作视频演示:

演示场景:

  • 如何进入SQL监控页面?
  • 如何查看正在运行、已完成、失败的SQL?
  • 如何知道一个SQL更详细的运行状态?
  • 如何查看当前有哪些类型的数据库和表?
  • 如何查看系统资源(CPU、内存、网络)使用情况?
  • 如何查看更多的指标?
  • 如何自定义仪表盘、面板?

//transwarp-ce-1253207870.cos.ap-shanghai.myqcloud.com/%E6%93%8D%E4%BD%9C%E6%BC%94%E7%A4%BA%E8%A7%86%E9%A2%91.mp4

此外,近期推出的Aquila Insight 9.1版本做了全新优化并新增了许多用户友好的新功能,例如事件自动处理机制,规则与事件页面支持10+规则触发事件,系统自动执行指定动作例如alarm、kill等等,欢迎您上手操作体验。

规则页面

Tags: