产品思考一页纸 · Product Thinking

Hivemind Forward — 前向、零泄露的多 agent 市场预测器

一群有信念、资本、信息差的 LLM「投资者」,订单撮合出涌现价格;每天预测、第二天用真实结果打分。现做股票,方法可迁移 polymarket / 调查。
作者 _____2026-06-05github.com/luanrj-ai/hivemind-forwardv01 已上线
所有「AI 选股」都在回测上很赚——但 LLM 记得历史,那是泄题。我们只测「做出时还不存在的未来」:预测明天、次日对账。抹掉训练数据里的答案后还剩的命中率,才可信。

1方向 · 为什么 · 证据

方向:异质多 agent 模拟 → 集合竞价撮合出涌现价 → 前向打分。

场景:需要「比裸 LLM / 小样本 / 人工猜更准、且带诚实置信区间」的预测——polymarket、品牌 / 政策调研。

痛点:全领域在 backtest 报「准」,但 LLM 有训练截止 → 记得结果 → 分不清真 edge 还是背答案。可验证 = 只能前向。

证据 · ① LLM 训练数据污染是公认问题;out-of-sample / walk-forward 是金融 ML 标准。② 前向初跑:市场出清 80% > 群体平均 56% > 时序基准 60%(n 小、未显著,但装置产出可复现的诚实数)。

2竞品 · 差异化 · 有效性

裸 LLMAgent-survey本项目
前向防泄露
价格形成(非平均)
信息异质化
多基准诚实打分
  • 前向零泄露 harness:预测明天、次日打分 → 灭训练数据污染
  • 价格从订单流涌现(集合竞价):资本加权、对分布敏感,非观点平均
  • 信息异质化:散户/机构看不同信息,建模真实信息不对称
  • 多基准对照 + 置信区间:群体 / 市场 / 时序基准各自打分
论文支撑 · 多 agent 涌现真实市场特征:Lux & Marchesi (1999)、Generative Agents (Park 2023)、StockAgent (arXiv:2407.18957);LLM 逼近真人群:Argyle (2023)「silicon sampling」与民调高相关;时序基准:TimesFM (Das, ICML 2024)。诚实说:这些只证明组件成立,没一篇证明本组合已超真实调查——那正是前向 harness 要持续回答的。

核心差异 / 护城河

市面都在比「谁的 agent 模拟更花哨」;我们是唯一把「抹掉训练数据答案后还剩多少」量出来的那个。

3做了什么 · 指标 · 测试

已上线:150 个独一 LLM persona × 5 股 / 天,分层信息 + 有符号影响力网络 + 集合竞价定价 + 每日 live 打分 + 逐 agent 可交互看板。全链自动 cron。

指标(全前向零泄露):方向命中率(Wilson CI)· 95% 区间校准 · MAE。跑法:walk-forward,每交易日自动跑、次日评分,累积 ~10 个观测。

56%
群体共识 命中
80%
市场出清(#3)命中
60%
时序基准 命中
100%
落入 95% 区间

说明:早期信号「价格形成 > 观点平均」,且修波动率校准后区间 100% 命中。但 n 太小、命中 CI 仍横跨 50% → 不显著。诚实结论:还不能说更准,但已有①可复现的诚实装置 ②值得追的早期方向信号——比「回测很赚」的不可验证结论更有价值。

4质疑 · 应对(已自我压测)

踩坑 & 解法(面试加分项)

缓存把过期数据 memoize、污染整次运行 → 兜底数据不再 memoize、加重试,后续调用重新取最新。
95% CI 用「意见分歧度」窄到失真(几乎必出界)→ 改锚定真实日波动率,区间校准从 ~0 升到 100%。
claude 配额装不下 1500 调用 / 天 → 信息分层 + 换 haiku + 跨配额窗口限速,稳进单窗口。
价格只会「平均观点」、不像市场 → 加集合竞价撮合(#3),让价格从订单流涌现,资本加权。