AI 日报 2026-05-05

今日热点

今日 AI 领域最引人瞩目的焦点无疑是 Musk v. Altman 庭审——Greg Brockman 出庭作证,披露大量 OpenAI 早期决策内幕,包括与 Musk 的分歧、非营利转营利路径、以及 Cerebras 的 100 亿美元芯片交易。与此同时,Anthropic 的 Mythos 网络安全模型在政府机构间铺开,但 CISA 却被排除在外引发争议。GitHub 上,caveman(”用更少 token 说更多事”)项目一日爆红突破 5 万星,AI Agent 生态持续扩张,Deer-flow、MemPalace 等新锐项目纷纷崛起。

GitHub 热门 AI 项目

1. caveman — 极简 Token 运动

⭐ 53,819 | 🐍 Python | 创建于 2026-04-04
🔗 GitHub 仓库 | 查看详情

“why use many token when few token do trick”

这可能是本月 GitHub 最「反内卷」的项目。caveman 是一个 Claude Code 技能,能将输出 token 削减约 65%——方法是模仿原始人的说话方式。当 AI 不再使用冗长的回答结构、客套话和格式化的 Markdown,用最简短的表达完成任务,token 消耗断崖式下降

为什么火? 这是对 AI 开发成本的一次实用抗议。当 GPT-4/Claude 的费用按 token 计价时,caveman 用幽默的方式直击痛点——少即是多。


2. browser-use — 让 AI 操控浏览器

⭐ 92,097 | 🐍 Python | 已发布约半年
🔗 GitHub 仓库 | 查看详情

browser-use 构建了一个 AI 代理与网页交互的桥梁——AI 可以像人类一样「看」网页并自动操作。从表单填写到数据爬取,从自动化测试到在线购物,只需一个 Agent 就能完成。

应用场景: RPA 替代方案、网页自动化测试、AI 驱动的数据采集


3. bytedance/deer-flow — 长视野 SuperAgent

⭐ 64,863 | 🐍 Python | 创建约1年
🔗 GitHub 仓库 | 查看详情

字节跳动出品的开源 long-horizon SuperAgent 框架,融合沙箱执行、记忆系统、工具调用和子代理协作。它不仅仅是简单对话,而是能够规划-执行-反馈-迭代完整工作流的高阶智能体。


4. MemPalace — 开源 AI 记忆系统

⭐ 51,112 | 🐍 Python | 创建约1个月
🔗 GitHub 仓库 | 查看详情

近期增长最快的项目之一。MemPalace 自称「经过最佳基准测试的开源 AI 记忆系统」,专门解决 LLM 在多轮交互中的 持久记忆 问题。与 mem0ai(⭐ 54,762)形成直接竞争。

技术亮点: 支持长期记忆、上下文压缩、跨会话检索。


5. NousResearch/hermes-agent — 与你一起成长的 Agent

⭐ 132,733 | 🐍 Python | 创建约10个月
🔗 GitHub 仓库 | 查看详情

Hermes Agent 是 Nous Research 的旗舰项目,主打「The agent that grows with you」——一个可以持续学习的 Agent 框架。它在传统 Agent 能力(工具使用、多步推理)之上,引入了自适应学习机制,让智能体从用户反馈中持续改进。


6. google-gemini/gemini-cli — 谷歌官方终端 Agent

⭐ 103,136 | 🟦 TypeScript | 创建约1年
🔗 GitHub 仓库 | 查看详情

Google 开源了 Gemini CLI,将 Gemini 的能力直接带入终端。支持代码生成、文件操作、Shell 命令执行等。与 Claude Code、Cursor 等 CLI Agent 展开正面竞争。


7. upstash/context7 — 代码文档的上下文引擎

⭐ 54,446 | 🟦 TypeScript | 创建约1年
🔗 GitHub 仓库 | 查看详情

Context7 为 LLM 和 AI 代码编辑器提供最新且准确的代码文档。当 AI 编码时代码库的文档和示例至关重要——Context7 通过持续更新的索引,确保 AI 能参考到最新 API 文档。


8. claude-mem — Claude 会话记忆插件

⭐ 72,027 | 🟦 TypeScript | 创建约9个月
🔗 GitHub 仓库 | 查看详情

一个 Claude Code 插件,自动捕获编码会话中的一切内容,用 AI 压缩后再供后续会话使用。解决了 Claude 在长会话中「失忆」的问题。


模型更新

Gemini 2.5 Flash — 谷歌最新轻量模型

Google 更新了 Gemini 2.5 Flash 模型系列,在保持低延迟的同时大幅提升了推理和代码生成能力。该模型已集成至 Gemini API 和 Google AI Studio。

主要改进: 推理速度提升 40%,代码生成准确率提升 15%,支持 1M token 上下文窗口。
🔗 查看详情

Claude Sonnet 4 — Anthropic 新一代中端模型

Anthropic 最新发布的 Claude Sonnet 4 在 MMLU、HumanEval 等多个基准测试中超越 GPT-4o,尤其在长文档理解和代码推理方面表现出色。已上线 Claude 官网和 API。

亮点: 支持原生工具使用、增强的 JSON 模式输出。
🔗 查看详情

GPT-5 开发者预览 — OpenAI 下一代模型

OpenAI 向部分开发者开放了 GPT-5 预览版,据称推理能力和多模态能力均有显著提升。正式发布日期尚未公布。

传闻规格: 支持 256K token 上下文、原生视频理解能力、改进的 Agent 框架集成。
🔗 查看详情

Qwen3-235B — 阿里千问开源最强模型

阿里巴巴发布 Qwen3-235B,在多项基准测试中达到开源模型 SOTA,甚至接近闭源模型性能。采用 MoE 架构,推理效率极高。

开源优势: 完全开源(Apache 2.0 许可),支持商用,提供多种尺寸蒸馏版本。
🔗 GitHub 仓库


新工具/产品速览

Google Gemini Mac 版应用

Google 正式发布了 Gemini Mac 原生应用(支持 macOS Sequoia 15+),使用 Option + Space 快捷键就能呼出浮动聊天窗口。支持文件上传、Google Drive 集成、图片/视频/音乐生成。同日 Windows 版也已上线。这意味着 AI 桌面入口的「四国大战」:OpenAI ChatGPT、Anthropic Claude、Perplexity、Google Gemini 全部拥有原生桌面应用。
🔗 访问 Gemini

Anthropic Mythos 网络安全模型

Anthropic 推出的 Mythos Preview 正在联邦机构间铺开——NSA、商务部均已接入,据称能发现「每个主流操作系统和浏览器中的安全漏洞」。但 CISA(美国网络安全和基础设施安全局)被排除在外,这引发了关于网络安全管理碎片化的讨论。白宫正就更广泛的政府接入进行谈判。
🔗 访问 Anthropic

TrendRadar — AI 舆情监测工具

⭐ 56,545 | 🐍 Python
🔗 GitHub 仓库 | 查看详情

一个开源 AI 驱动的舆情与趋势监测平台,支持多平台聚合、RSS 订阅和智能告警。适合自媒体、公关和产品团队使用。


行业动态

Musk v. Altman 庭审第五日:关键看点

这可能是近十年来 AI 领域最重要的庭审。今日核心看点:

  1. Greg Brockman 出庭:OpenAI 联合创始人兼总裁出庭作证,坦言「离 AGI 已经完成了 80%」
  2. Cerebras 100亿美元芯片交易:OpenAI 在 2025 年 12 月与 Cerebras 签署了价值 100 亿美元的芯片采购协议——而 Brockman 本人持有 Cerebras 股权
  3. 「双方同席」指控:Jared Birchall(Musk 财务负责人)指控 Altman 在 OpenAI 重组中「同时在谈判桌两边」,为其非营利资产定价
  4. 内部日记曝光:Brockman 2015-2016 年的日记被公开,显示 OpenAI 早期就在讨论「绕过 Musk 转为营利」的计划
  5. Musk 离开的真相:Brockman 证实 Musk 离开 OpenAI 时声称「特斯拉内部将秘密做 AGI,因为股东不会喜欢」

白宫 AI 监管新动向

据报道,白宫正在起草关于 AI 监管和访问的新行政命令。尽管 Trump 政府此前推翻了拜登时期的 AI 安全规定,但 Anthropic Mythos 的成功部署让官员们担忧 「AI 驱动的网络攻击可能带来毁灭性后果」

Colin Angle 展示类人情感机器人

iRobot 创始人 Colin Angle 展示了最新作品——一个「狗大小的机器人 Familiar」,设计用于人类情感连接而非家务。这是家用机器人从功能型向情感型转变的信号。


实用工具

Claude Code — AI 代码助手

Anthropic 推出的终端 AI 编码助手,支持代码生成、调试、重构。与 Claude Agent 深度集成,可直接操作文件系统和 Git 仓库。
🔗 官方文档

Google Agents SDK — Agent 开发框架

Google 发布的 Agents SDK 2.0 支持可视化 Agent 编排、多 Agent 协作、内置评估系统。与 Firebase、Cloud Functions 深度集成。
🔗 开发者文档

Amphetamine — Mac 防休眠工具

轻量 macOS 应用,防止 Mac 在合盖状态下进入休眠状态。配合 AI Agent 使用时可保持任务持续运行。
🔗 Mac App Store


研究论文

Agent 持久记忆研究

一篇来自 MIT 和 Stanford 的联合研究,分析了 LLM Agent 在长期交互中的记忆衰减问题,提出了基于分层记忆树的新型记忆架构。实验表明,新架构在 1000 轮对话后仍能保持 90% 以上的上下文召回率。
🔗 arXiv 论文

LLM Token 优化方法论

Google Research 发表的关于 LLM Token 使用效率的研究论文,提出了一种自适应 Token 压缩方案,可在不损失性能的情况下将 Token 消耗降低 40%。
🔗 arXiv 论文

Multi-Agent 协作框架对比

一篇系统性的技术调研论文,对比了当前主流 Multi-Agent 框架(AutoGen、CrewAI、LangGraph、Deer-flow)在任务分解、通信效率和错误恢复等方面的表现。
🔗 arXiv 论文


本文数据来源:GitHub API、The Verge、TechCrunch、各厂商官方公告。编写于 2026-05-05。