两年过去，LLM 测试时计算缩放仍被忽视

Noam Brown@polynoamial

2026-06-09 23:35·5天前

AI 摘要

自 @OpenAI o1 以来，我们就知道 LLM 测试时计算缩放。然而两年后，实验室仍在报告模型的标量评测；安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶；而 RSP 在决定关键阈值时仍忽略推理预算。

We've known about LLM test-time compute scaling since @OpenAI o1. Yet 2 years later labs still report scalar evals for models； safety orgs are still surprised when a scaffold does better via 100x inference； and RSPs still ignore inference budget when deciding critical thresholds.

Noam Brownhttp://x.com/i/article/2057694226981257216

OpenAI大佬观点安全/对齐评测/基准

在 X 查看原推

Noam Brown@polynoamial · X

2026-06-09 23:35·5天前

AI 摘要

Noam Brownhttp://x.com/i/article/2057694226981257216

OpenAI大佬观点安全/对齐评测/基准

在 X 查看原推x.com