Skip to content

重新选型评估:告警与通知 #259

@chendelin1982

Description

@chendelin1982

在软件可观测性(Observability)领域,传统上将 Metrics(指标)、Logs(日志) 和 Traces(分布式追踪) 称为三大核心数据类型。这些类型共同提供系统的全面视图,帮助诊断问题、优化性能和确保可靠性。

Events(事件):有时被视为第四个或 Logs 的子集

需求

  • 监控驱动的告警事件
  • 业务驱动的告警事件
  • 通知渠道

组件

术语

  • 事件(Event):表示系统中发生的任何可观察的变化或动作,通常包含时间戳、来源等
  • 告警(Alert/Alarm):告警是事件的一种处理结果,旨在通知相关人员或系统采取行动

重要解决方案

  • pkg/event 发布事件,而数据收集(如写入 InfluxDB)由独立的收集器处理,避免耦合

FAQ

  1. InfluxDB 是否支持 logs/events?
  2. 事件保留多长时间?
  3. 事件与指标的区别?
  4. 事件与错误返回的区别?错误可以触发事件,但事件不一定是错误(e.g., 成功登录也是事件)
  5. 告警规则的触发机制与监控数据存储关系?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions