AGI Needs an Operating Stack: Compute, Power, Agents, and Safety Cases

TL;DR

AGI 研究的重点正在从单个模型能力，转向算力、电力、Agent 权限、安全评估和组织治理共同组成的操作系统。
本文关注的核心变量是：有效算力、Agent 权限、安全案例、电力约束。
如果这些变量不能转化为行为、预算、留存或基础设施变化，主题热度就需要被下修。
未来 90 天建议重点观察：frontier training compute、agent task horizon、data-centre power、safety eval coverage、incident response time。

Executive Summary

AGI 研究的重点正在从单个模型能力，转向算力、电力、Agent 权限、安全评估和组织治理共同组成的操作系统。

这篇文章把 AGI 看成一个需要被部署、审计和约束的工业系统，而不是一次发布会事件。这不是一篇快讯，也不是把新闻标题改写成长文。它的目标是建立一个可复盘的研究框架：先确认这个主题为什么重要，再拆解控制点、成本结构、失败模式和行动路径。前沿主题最容易犯的错误，是在概念最热的时候把所有变量都解释成利好；真正稳健的研究需要同时保存乐观、怀疑和更新机制。

Research Thesis

AGI 研究的重点正在从单个模型能力，转向算力、电力、Agent 权限、安全评估和组织治理共同组成的操作系统。

本周资料来源

Situational Awareness - AGI decade-ahead framework, compute OOMs, unhobbling, security and state capacity
Stanford HAI AI Index 2026 - AI capability, adoption, investment and governance gap signals
Epoch AI Trends - frontier training compute, algorithmic efficiency and scaling constraints
IEA Energy and AI - AI data centre electricity demand and power-system planning

Deep Dive

研究类型

每个分类一篇的周度深度文章

有效算力

核心变量

本篇最重要的控制点

90 天

验证周期

用三个月复盘 thesis 是否成立

研究来源

用于交叉验证的一手/高质量资料

为什么现在重要

这篇文章把 AGI 看成一个需要被部署、审计和约束的工业系统，而不是一次发布会事件。当前阶段值得重视，是因为它已经不只是一个单点话题，而是开始和组织预算、基础设施、用户行为、政策边界或生活方式产生连接。一个主题真正进入深度研究视野，通常不是因为它声音最大，而是因为它开始改变资源配置方式。

第一，注意力正在从“有没有突破”转向“突破能不能进入系统”。AGI 需要电力和安全案例，量子需要容错和 HPC 集成，聚变需要材料和整厂净电力，游戏需要玩家信任，数字游民需要预算和签证，美股需要现金流证明。每个分类看起来不同，但底层问题都相似：能力必须通过成本、风险和复用性检验。

第二，市场开始要求更高质量的证据。过去一个概念出现，可能只需要愿景就能推动估值或热度；现在资金、用户和开发者更谨慎，都会追问：谁真正付费，谁持续使用，谁承担风险，谁获得长期收益。越是前沿主题，越不能只看单次突破，因为单次突破往往只证明“可能”，不证明“可复制”。

第三，未来几个月会出现更多分化。强主题会从新闻进入预算和产品路线，弱主题会停留在营销语言。我们需要提前写清楚哪些指标会提高置信度，哪些信号会降低置信度。这样后续复盘才不会变成给旧观点找借口。

核心机制

有效算力

有效算力是本篇的第一控制点。它决定了这个主题能否从表层叙事进入真实系统。如果这个变量没有改善，其他利好大多只是短期情绪；如果它持续改善，即使市场一开始没有完全理解，也会逐渐改变参与者行为。研究这类变量时，不能只看绝对值，还要看变化速度、稳定性、成本和外部约束。

Agent 权限

Agent 权限决定了价值能否被持续捕获。许多趋势在早期都显得很强，但最后失败在复用成本太高、组织摩擦太大、监管不清、用户不愿长期留下。一个真正有价值的趋势，必须让某些流程变得更便宜、更快、更可靠，或者让某些过去无法完成的事情变得可操作。

安全案例

安全案例代表风险边界。研究不是只写机会，也要写清楚什么情况下我们会看错。前沿科技、Web3、健康、游戏、职业和数字游民都有一个共同点：它们的短期故事很容易很漂亮，但长期执行会暴露很多细节。风险边界写得越清楚，后续判断越不容易被情绪绑架。

电力约束

电力约束是把 thesis 转化为行动的桥。只要这个变量不能被观测、比较和复盘，研究就会停在观点层。好的深度文章不一定要给出确定答案，但必须给出下一步怎么观察、怎么验证、怎么调整仓位或行动计划。

结构变化

维度	旧框架	新框架
判断方式	看热点、看标题、看单点突破	看控制点、成本结构和行为变化
价值来源	叙事扩散和短期注意力	可复用系统、现金流、留存或基础设施
风险来源	价格波动或短期失败	组织摩擦、合规边界、成本和不可复现
研究方法	追新闻	建立 dashboard 并持续复盘

结构变化的核心，是从“讲故事能力”转向“系统交付能力”。在这个阶段，最会传播的参与者不一定是最终赢家，真正有优势的是能把复杂问题拆成流程、指标、权限、成本和责任的人。无论是 AI、电力、量子、聚变，还是游戏、游民、课程、职业，最后都要回答同一个问题：它能不能让真实世界的某个系统运行得更好。

情景推演

Base case： 未来 90 天，这个主题继续获得关注，但不会立刻完成大规模商业化或制度化。头部参与者会先把能力做成流程，尾部参与者继续追随叙事。这个情景下，最合理的策略是保持研究和小规模投入，不要用确定性过高的语言描述未来。

Upside case： 如果建立 Agent 权限矩阵。，并且后续指标连续改善，这个主题会从“值得关注”升级为“值得配置”。真正的 upside 不来自更多文章讨论，而来自预算迁移、用户留存、开发者迁移、财报确认、监管放行或基础设施建设。只要这些信号出现，市场通常会逐步重新定价。

Downside case： 如果把 benchmark 当成 AGI。，短期热度会先退潮，然后进入更长消化期。这个阶段最危险的不是承认看错，而是不愿意更新模型。研究者需要提前写好退出条件：什么数据出现时降低置信度，什么事件发生时暂停行动，什么变量改善时再重新加权。

风险框架

把 benchmark 当成 AGI。
让 Agent 获得过大权限但没有审计。
忽视电力和数据中心交付周期。

这些风险不是为了否定主题，而是为了防止我们把兴趣误认为结论。越是喜欢一个方向，越要认真写它的失败路径。失败路径清楚，行动才会更稳；失败路径模糊，研究就会变成信仰。

90 天行动计划

建立 Agent 权限矩阵。
用任务时长而不是单题分数跟踪能力。
把安全评估写进部署门槛。

行动计划的重点不是“马上重仓”，而是建立复盘节奏。第一阶段先建立基线，第二阶段观察行为变化，第三阶段判断是否扩大投入。对个人来说，投入可以是学习时间、写作、项目、城市选择、职业方向；对投资者来说，投入可以是研究权重、观察仓位、行业比较和风险预算。

Monitoring Dashboard

frontier training compute
agent task horizon
data-centre power
safety eval coverage
incident response time

dashboard 的作用，是把观点从脑子里拿出来，放到可观察世界里。每个指标都不完美，但组合起来能减少自欺。下周复盘时，不需要重新写一篇完整文章，只需要问：这些指标有没有变化，变化是否足够重要，是否改变 thesis 的权重。

研究笔记

本篇主要参考 Situational Awareness、Stanford HAI AI Index 2026、Epoch AI Trends、IEA Energy and AI。资料来源不是为了堆砌权威，而是为了交叉验证。官方路线图适合确认时间表和目标，财报适合确认收入和资本开支，行业报告适合观察中长期变量，市场数据适合观察短期情绪。不同来源的盲区不同，组合起来才更接近真实世界。

研究前沿主题时，我会特别警惕四种误判。第一，把科学信号当成商业信号；第二，把短期增长当成长期留存；第三，把 demo 当成工作流；第四，把个人偏好当成客观判断。只要这四个误判没有被控制，文章越长，可能越像自我说服。

更好的方法是承认不确定性，同时提高观察质量。我们不需要假装自己知道所有答案，但需要知道下一个证据应该在哪里出现。只要证据越来越硬，就提高置信度；只要证据越来越虚，就降低权重。研究不是一次性表态，而是连续校准。

结论

AGI 研究的重点正在从单个模型能力，转向算力、电力、Agent 权限、安全评估和组织治理共同组成的操作系统。这个判断不会因为本周一篇文章就结束。接下来真正重要的是：frontier training compute、agent task horizon、data-centre power 是否继续改善，以及这些改善是否进入真实行为和真实预算。前沿变化从来不是直线，它通常先以噪音出现，再以局部验证出现，最后才变成共识。

综合评分

9.0

Research Confidence / 10

⭐

AGI 的核心变量已经从模型本身扩展到基础设施和治理系统。