设为首页加入收藏
  • 首页
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
    • 当前位置:首页>新疆>新玩法!Karpathy周末手搓“大模型智囊团”应用:各大LLM同台互评,代码已开源

      新玩法!Karpathy周末手搓“大模型智囊团”应用:各大LLM同台互评,代码已开源

      发布时间:2026-04-28 来源:乱七八遭网作者:咯样这就那

      Andrej Karpathy又在周末整活了,为了跟进之前的推文(昨天的文章),他通过Vibe Coding手搓了一个名为 llm-council(大模型议会)的Web应用,目的是为了好玩和获取更好的答案。多个模型像顾问一样提供建议,你可以把它理解为个人的“智囊团”

      这个应用界面看起来和ChatGPT一模一样,但背后的运行机制完全不同。你的每一次查询,都会通过OpenRouter分发给“委员会”中的多个大模型成员。

      以目前的配置为例,成员包括:

      • OpenAI/GPT-5.1

      • Google/Gemini-3-pro-preview

      • Anthropic/Claude-sonnet-4.5

      • x-AI/Grok-4

      具体的工作流是这样的:

      第一步,查询被分发给上述所有模型。

      第二步,所有模型都能看到彼此(匿名化处理后)的回复,然后它们会对这些回复进行审阅和排名。

      第三步,一位 “大模型主席”(Chairman LLM)会获取所有上下文信息,并生成最终的回复。

      “智囊团”的运行效果

      Karpathy表示,在同一个查询下并排看到多个模型的结果非常有趣。更逗的是,看它们互相评估和排名的过程。

      结果显示,模型们通常非常乐意承认其他LLM的回答优于自己。这也让这种方法成为一种颇具意思的模型评估策略

      实测案例

      在今天用“大模型委员会”阅读书籍章节的测试中:

      模型们的共识:一致推选 GPT-5.1 为最佳、最有洞察力的模型;同时一致认为 Claude 的表现最差,其他模型介于两者之间

      Karpathy的体感:并不完全认同模型的评判。定性来看,他觉得 GPT-5.1 有点过于啰嗦和铺陈;Gemini 3 则更加凝练和经过处理;而在该领域下,Claude 的回答确实太简短了

      Karpathy认为,“大模型智囊团”的数据流设计空间非常广阔,目前关于LLM集成的构建似乎还处于探索不足的阶段。

      目前,该项目代码已开源。

      项目地址:

      https://github.com/karpathy/llm-council

      • 上一篇:{loop type="arclist" row=1 }{$vo.title}