概述

OpenSRE 是一个开源的 AI SRE(站点可靠性工程)Agent 框架,能够帮助你构建属于自己的 AI 运维助手。它能够连接 60+ 常用工具,自动进行生产故障调查、根因分析,并生成结构化的调查报告。

项目地址:GitHub - Tracer-Cloud/OpenSRE

当前状态:Public Alpha,核心工作流可用,API 和集成仍在积极演进中。

核心特性

flowchart LR
A[故障告警] --> B[OpenSRE]
B --> C[拉取日志/指标/链路]
B --> D[跨系统推理分析]
B --> E[生成根因分析报告]
B --> F[建议修复方案]
B --> G[推送总结到 Slack/PagerDuty]
  • 🔍 结构化事故调查 — 跨信号源的关联根因分析
  • 📋 Runbook 感知推理 — 自动读取并应用你的 Runbook
  • 🔮 预测性故障检测 — 在告警触发前捕捉异常
  • 🔗 证据驱动根因 — 每个结论都链接着背后的数据
  • 🤖 全 LLM 灵活支持 — 支持 Anthropic、OpenAI、Ollama、Gemini、OpenRouter、NVIDIA NIM 等

安装

macOS / Linux

# 方式一:一键安装脚本(推荐)
curl -fsSL https://install.opensre.com | bash

# 安装 main 分支最新构建
curl -fsSL https://install.opensre.com | bash -s -- --main

# 方式二:Homebrew
brew tap tracer-cloud/tap
brew install tracer-cloud/tap/opensre

Windows(PowerShell)

# 一键安装
irm https://install.opensre.com | iex

开发者模式(源码安装)

# 前提:Python 3.12+、Git、uv
git clone https://github.com/YOUR_USERNAME/opensre.git
cd opensre

# 安装 uv(macOS/Linux)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装 uv(Windows PowerShell)
irm https://astral.sh/uv/install.ps1 | iex

# 安装依赖
make install
# 或无 Make:uv sync --frozen --extra dev
# uv run python -m app.analytics.install

# 验证安装
make lint && make format-check && make typecheck && make test-cov

快速上手

1. 初始化配置

opensre onboard

启动交互式向导,配置以下内容:

  • LLM 提供商 — 选择你使用的 AI 模型(Anthropic、OpenAI、Ollama 等)
  • API Key — 输入对应提供商密钥
  • 集成服务 — 连接 Grafana、Datadog、Slack、AWS、Sentry 等工具

2. 交互式 Shell

不带任何参数启动 OpenSRE,进入交互式探索模式(需 TTY):

opensre

支持斜杠命令:

命令 功能
/help 查看帮助
/status 查看当前状态
/clear 清屏
/reset 重置会话
/trust 信任模式
/effort low|medium|high|xhigh|max 设置推理深度(OpenAI/Codex 提供商)
/exit 退出

提示:Ctrl+C 可取消正在进行的调查,不会丢失会话状态。

3. 单次调查

直接传入告警文件执行一次性调查:

opensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.json

4. 常用命令

# 更新 OpenSRE
opensre update

# 卸载(清除所有本地数据)
opensre uninstall
opensre uninstall --yes # 跳过确认

部署方案

方案一:LangGraph Platform(官方推荐)

适用于生产环境部署:

flowchart LR
A[GitHub 仓库] --> B[LangGraph Platform]
B --> C[LLM Provider]
B --> D[Postgres + Redis]
B --> E[集成服务]
C --> F[Anthropic/OpenAI/Gemini...]
  1. 在 LangGraph Platform 中创建新部署,连接该仓库
  2. 保留根目录的 langgraph.json 配置文件
  3. 配置环境变量:
    LLM_PROVIDER=anthropic
    ANTHROPIC_API_KEY=your-api-key-here
  4. 添加集成所需的环境变量并部署

方案二:Railway(自托管)

# 前提:已创建 Railway 项目并配置 Postgres 和 Redis
opensre deploy railway --project <project> --service <service> --yes

需要设置以下环境变量:

  • DATABASE_URI — Railway Postgres 实例地址
  • REDIS_URI — Railway Redis 实例地址

集成能力

OpenSRE 连接 60+ 工具和服务,涵盖以下类别:

类别 支持的工具
AI/LLM Anthropic · OpenAI · Ollama · Gemini · OpenRouter · NVIDIA NIM · Bedrock
可观测性 Grafana · Datadog · Prometheus · CloudWatch · Honeycomb · Coralogix · Sentry
云基础设施 AWS (EC2/ECS/Lambda) · Kubernetes · Azure · ArgoCD
数据处理 Kafka · Flink · Airflow · ClickHouse
告警/事件 PagerDuty · Alertmanager · Opsgenie
协作 Slack · Discord · Google Docs
协议 MCP · ACP · OpenClaw

与 OpenClaw 集成

OpenSRE 原生支持通过 MCP 协议与 OpenClaw 协同工作:

1. 添加 MCP Server

在 OpenClaw 的 Settings → MCP Servers 中添加:

{
"mcpServers": {
"opensre": {
"command": "opensre-mcp",
"args": []
}
}
}

如果 opensre-mcp 不在 PATH 中:

{
"command": "uv",
"args": ["run", "opensre-mcp"]
}

2. 运行测试调查

opensre investigate -i tests/fixtures/openclaw_test_alert.json

3. 可选:OpenSRE 调用 OpenClaw

export OPENCLAW_MCP_MODE=stdio
export OPENCLAW_MCP_COMMAND=openclaw
export OPENCLAW_MCP_ARGS="mcp serve"

验证集成:

opensre integrations verify openclaw

总结

OpenSRE 为 AI 驱动的运维提供了一个强大的开源框架。无论是作为个人开发者的调查助手,还是作为团队的生产环境故障排查平台,它都能显著缩短 MTTR(平均故障修复时间)。

适合场景

  • 个人开发者 — 本地安装,快速定位开发环境问题
  • 运维团队 — 部署到生产环境,自动响应告警
  • SRE 团队 — 结合现有可观测性栈,提升根因分析效率

参考链接