概述
OpenSRE 是一个开源的 AI SRE(站点可靠性工程)Agent 框架,能够帮助你构建属于自己的 AI 运维助手。它能够连接 60+ 常用工具,自动进行生产故障调查、根因分析,并生成结构化的调查报告。
项目地址:GitHub - Tracer-Cloud/OpenSRE
当前状态:Public Alpha,核心工作流可用,API 和集成仍在积极演进中。
核心特性
flowchart LR A[故障告警] --> B[OpenSRE] B --> C[拉取日志/指标/链路] B --> D[跨系统推理分析] B --> E[生成根因分析报告] B --> F[建议修复方案] B --> G[推送总结到 Slack/PagerDuty]
|
- 🔍 结构化事故调查 — 跨信号源的关联根因分析
- 📋 Runbook 感知推理 — 自动读取并应用你的 Runbook
- 🔮 预测性故障检测 — 在告警触发前捕捉异常
- 🔗 证据驱动根因 — 每个结论都链接着背后的数据
- 🤖 全 LLM 灵活支持 — 支持 Anthropic、OpenAI、Ollama、Gemini、OpenRouter、NVIDIA NIM 等
安装
macOS / Linux
curl -fsSL https://install.opensre.com | bash
curl -fsSL https://install.opensre.com | bash -s -- --main
brew tap tracer-cloud/tap brew install tracer-cloud/tap/opensre
|
Windows(PowerShell)
irm https://install.opensre.com | iex
|
开发者模式(源码安装)
git clone https://github.com/YOUR_USERNAME/opensre.git cd opensre
curl -LsSf https://astral.sh/uv/install.sh | sh
irm https://astral.sh/uv/install.ps1 | iex
make install
make lint && make format-check && make typecheck && make test-cov
|
快速上手
1. 初始化配置
启动交互式向导,配置以下内容:
- LLM 提供商 — 选择你使用的 AI 模型(Anthropic、OpenAI、Ollama 等)
- API Key — 输入对应提供商密钥
- 集成服务 — 连接 Grafana、Datadog、Slack、AWS、Sentry 等工具
2. 交互式 Shell
不带任何参数启动 OpenSRE,进入交互式探索模式(需 TTY):
支持斜杠命令:
| 命令 |
功能 |
/help |
查看帮助 |
/status |
查看当前状态 |
/clear |
清屏 |
/reset |
重置会话 |
/trust |
信任模式 |
/effort low|medium|high|xhigh|max |
设置推理深度(OpenAI/Codex 提供商) |
/exit |
退出 |
提示:Ctrl+C 可取消正在进行的调查,不会丢失会话状态。
3. 单次调查
直接传入告警文件执行一次性调查:
opensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.json
|
4. 常用命令
opensre update
opensre uninstall opensre uninstall --yes
|
部署方案
适用于生产环境部署:
flowchart LR A[GitHub 仓库] --> B[LangGraph Platform] B --> C[LLM Provider] B --> D[Postgres + Redis] B --> E[集成服务] C --> F[Anthropic/OpenAI/Gemini...]
|
- 在 LangGraph Platform 中创建新部署,连接该仓库
- 保留根目录的
langgraph.json 配置文件
- 配置环境变量:
LLM_PROVIDER=anthropic ANTHROPIC_API_KEY=your-api-key-here
|
- 添加集成所需的环境变量并部署
方案二:Railway(自托管)
opensre deploy railway --project <project> --service <service> --yes
|
需要设置以下环境变量:
DATABASE_URI — Railway Postgres 实例地址
REDIS_URI — Railway Redis 实例地址
集成能力
OpenSRE 连接 60+ 工具和服务,涵盖以下类别:
| 类别 |
支持的工具 |
| AI/LLM |
Anthropic · OpenAI · Ollama · Gemini · OpenRouter · NVIDIA NIM · Bedrock |
| 可观测性 |
Grafana · Datadog · Prometheus · CloudWatch · Honeycomb · Coralogix · Sentry |
| 云基础设施 |
AWS (EC2/ECS/Lambda) · Kubernetes · Azure · ArgoCD |
| 数据处理 |
Kafka · Flink · Airflow · ClickHouse |
| 告警/事件 |
PagerDuty · Alertmanager · Opsgenie |
| 协作 |
Slack · Discord · Google Docs |
| 协议 |
MCP · ACP · OpenClaw |
与 OpenClaw 集成
OpenSRE 原生支持通过 MCP 协议与 OpenClaw 协同工作:
1. 添加 MCP Server
在 OpenClaw 的 Settings → MCP Servers 中添加:
{ "mcpServers": { "opensre": { "command": "opensre-mcp", "args": [] } } }
|
如果 opensre-mcp 不在 PATH 中:
{ "command": "uv", "args": ["run", "opensre-mcp"] }
|
2. 运行测试调查
opensre investigate -i tests/fixtures/openclaw_test_alert.json
|
3. 可选:OpenSRE 调用 OpenClaw
export OPENCLAW_MCP_MODE=stdio export OPENCLAW_MCP_COMMAND=openclaw export OPENCLAW_MCP_ARGS="mcp serve"
|
验证集成:
opensre integrations verify openclaw
|
总结
OpenSRE 为 AI 驱动的运维提供了一个强大的开源框架。无论是作为个人开发者的调查助手,还是作为团队的生产环境故障排查平台,它都能显著缩短 MTTR(平均故障修复时间)。
适合场景
- 个人开发者 — 本地安装,快速定位开发环境问题
- 运维团队 — 部署到生产环境,自动响应告警
- SRE 团队 — 结合现有可观测性栈,提升根因分析效率
参考链接