新玩法！Karpathy周末手搓“大模型智囊团”应用：各大LLM同台互评，代码已开源

发布时间：2026-04-28 来源：乱七八遭网作者：咯样这就那

Andrej Karpathy又在周末整活了，为了跟进之前的推文（昨天的文章），他通过Vibe Coding手搓了一个名为 llm-council（大模型议会）的Web应用，目的是为了好玩和获取更好的答案。多个模型像顾问一样提供建议，你可以把它理解为个人的“智囊团”

这个应用界面看起来和ChatGPT一模一样，但背后的运行机制完全不同。你的每一次查询，都会通过OpenRouter分发给“委员会”中的多个大模型成员。

以目前的配置为例，成员包括：

• OpenAI/GPT-5.1

• Google/Gemini-3-pro-preview

• Anthropic/Claude-sonnet-4.5

• x-AI/Grok-4

具体的工作流是这样的：

第一步，查询被分发给上述所有模型。

第二步，所有模型都能看到彼此（匿名化处理后）的回复，然后它们会对这些回复进行审阅和排名。

第三步，一位 “大模型主席”（Chairman LLM）会获取所有上下文信息，并生成最终的回复。

“智囊团”的运行效果

Karpathy表示，在同一个查询下并排看到多个模型的结果非常有趣。更逗的是，看它们互相评估和排名的过程。

结果显示，模型们通常非常乐意承认其他LLM的回答优于自己。这也让这种方法成为一种颇具意思的模型评估策略

实测案例

在今天用“大模型委员会”阅读书籍章节的测试中：

模型们的共识：一致推选 GPT-5.1 为最佳、最有洞察力的模型；同时一致认为 Claude 的表现最差，其他模型介于两者之间

Karpathy的体感：并不完全认同模型的评判。定性来看，他觉得 GPT-5.1 有点过于啰嗦和铺陈；Gemini 3 则更加凝练和经过处理；而在该领域下，Claude 的回答确实太简短了

Karpathy认为，“大模型智囊团”的数据流设计空间非常广阔，目前关于LLM集成的构建似乎还处于探索不足的阶段。

目前，该项目代码已开源。

项目地址：

https://github.com/karpathy/llm-council