OpenSRE 安装与使用指南

概述

OpenSRE 是一个开源的 AI SRE（站点可靠性工程）Agent 框架，能够帮助你构建属于自己的 AI 运维助手。它能够连接 60+ 常用工具，自动进行生产故障调查、根因分析，并生成结构化的调查报告。

当前状态：Public Alpha，核心工作流可用，API 和集成仍在积极演进中。

核心特性

flowchart LR
    A[故障告警] --> B[OpenSRE]
    B --> C[拉取日志/指标/链路]
    B --> D[跨系统推理分析]
    B --> E[生成根因分析报告]
    B --> F[建议修复方案]
    B --> G[推送总结到 Slack/PagerDuty]

🔍 结构化事故调查 — 跨信号源的关联根因分析
📋 Runbook 感知推理 — 自动读取并应用你的 Runbook
🔮 预测性故障检测 — 在告警触发前捕捉异常
🔗 证据驱动根因 — 每个结论都链接着背后的数据
🤖 全 LLM 灵活支持 — 支持 Anthropic、OpenAI、Ollama、Gemini、OpenRouter、NVIDIA NIM 等

安装

macOS / Linux

# 方式一：一键安装脚本（推荐）
curl -fsSL https://install.opensre.com | bash

# 安装 main 分支最新构建
curl -fsSL https://install.opensre.com | bash -s -- --main

# 方式二：Homebrew
brew tap tracer-cloud/tap
brew install tracer-cloud/tap/opensre

Windows（PowerShell）

# 一键安装
irm https://install.opensre.com | iex

开发者模式（源码安装）

# 前提：Python 3.12+、Git、uv
git clone https://github.com/YOUR_USERNAME/opensre.git
cd opensre

# 安装 uv（macOS/Linux）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装 uv（Windows PowerShell）
irm https://astral.sh/uv/install.ps1 | iex

# 安装依赖
make install
# 或无 Make：uv sync --frozen --extra dev
#            uv run python -m app.analytics.install

# 验证安装
make lint && make format-check && make typecheck && make test-cov

快速上手

1. 初始化配置

opensre onboard

启动交互式向导，配置以下内容：

LLM 提供商 — 选择你使用的 AI 模型（Anthropic、OpenAI、Ollama 等）
API Key — 输入对应提供商密钥
集成服务 — 连接 Grafana、Datadog、Slack、AWS、Sentry 等工具

2. 交互式 Shell

不带任何参数启动 OpenSRE，进入交互式探索模式（需 TTY）：

opensre

支持斜杠命令：

命令	功能
`/help`	查看帮助
`/status`	查看当前状态
`/clear`	清屏
`/reset`	重置会话
`/trust`	信任模式
`/effort low\|medium\|high\|xhigh\|max`	设置推理深度（OpenAI/Codex 提供商）
`/exit`	退出

提示：Ctrl+C 可取消正在进行的调查，不会丢失会话状态。

3. 单次调查

直接传入告警文件执行一次性调查：

opensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.json

4. 常用命令

# 更新 OpenSRE
opensre update

# 卸载（清除所有本地数据）
opensre uninstall
opensre uninstall --yes  # 跳过确认

部署方案

方案一：LangGraph Platform（官方推荐）

适用于生产环境部署：

flowchart LR
    A[GitHub 仓库] --> B[LangGraph Platform]
    B --> C[LLM Provider]
    B --> D[Postgres + Redis]
    B --> E[集成服务]
    C --> F[Anthropic/OpenAI/Gemini...]

在 LangGraph Platform 中创建新部署，连接该仓库
保留根目录的 langgraph.json 配置文件

配置环境变量：

LLM_PROVIDER=anthropic
ANTHROPIC_API_KEY=your-api-key-here

添加集成所需的环境变量并部署

方案二：Railway（自托管）

# 前提：已创建 Railway 项目并配置 Postgres 和 Redis
opensre deploy railway --project <project> --service <service> --yes

需要设置以下环境变量：

DATABASE_URI — Railway Postgres 实例地址
REDIS_URI — Railway Redis 实例地址

集成能力

OpenSRE 连接 60+ 工具和服务，涵盖以下类别：

类别	支持的工具
AI/LLM	Anthropic · OpenAI · Ollama · Gemini · OpenRouter · NVIDIA NIM · Bedrock
可观测性	Grafana · Datadog · Prometheus · CloudWatch · Honeycomb · Coralogix · Sentry
云基础设施	AWS (EC2/ECS/Lambda) · Kubernetes · Azure · ArgoCD
数据处理	Kafka · Flink · Airflow · ClickHouse
告警/事件	PagerDuty · Alertmanager · Opsgenie
协作	Slack · Discord · Google Docs
协议	MCP · ACP · OpenClaw

与 OpenClaw 集成

OpenSRE 原生支持通过 MCP 协议与 OpenClaw 协同工作：

1. 添加 MCP Server

在 OpenClaw 的 Settings → MCP Servers 中添加：

{
  "mcpServers": {
    "opensre": {
      "command": "opensre-mcp",
      "args": []
    }
  }
}

如果 opensre-mcp 不在 PATH 中：

{
  "command": "uv",
  "args": ["run", "opensre-mcp"]
}

2. 运行测试调查

opensre investigate -i tests/fixtures/openclaw_test_alert.json

3. 可选：OpenSRE 调用 OpenClaw

export OPENCLAW_MCP_MODE=stdio
export OPENCLAW_MCP_COMMAND=openclaw
export OPENCLAW_MCP_ARGS="mcp serve"

验证集成：

opensre integrations verify openclaw

总结

OpenSRE 为 AI 驱动的运维提供了一个强大的开源框架。无论是作为个人开发者的调查助手，还是作为团队的生产环境故障排查平台，它都能显著缩短 MTTR（平均故障修复时间）。

适合场景

个人开发者 — 本地安装，快速定位开发环境问题
运维团队 — 部署到生产环境，自动响应告警
SRE 团队 — 结合现有可观测性栈，提升根因分析效率

沉鱼的博客