产品思考一页纸 · Product Thinking

Hivemind Forward — 前向、零泄露的多 agent 市场预测器

一群有信念、资本、信息差的 LLM「投资者」,订单撮合出涌现价格;每天预测、第二天用真实结果打分。现做股票,方法可迁移 polymarket / 调查。

作者 _____2026-06-05github.com/luanrj-ai/hivemind-forwardv01 已上线

所有「AI 选股」都在回测上很赚——但 LLM 记得历史,那是泄题。我们只测「做出时还不存在的未来」:预测明天、次日对账。抹掉训练数据里的答案后还剩的命中率,才可信。

1方向 · 为什么 · 证据

方向:异质多 agent 模拟 → 集合竞价撮合出涌现价 → 前向打分。

场景:需要「比裸 LLM / 小样本 / 人工猜更准、且带诚实置信区间」的预测——polymarket、品牌 / 政策调研。

痛点:全领域在 backtest 报「准」,但 LLM 有训练截止 → 记得结果 → 分不清真 edge 还是背答案。可验证 = 只能前向。

证据 · ① LLM 训练数据污染是公认问题;out-of-sample / walk-forward 是金融 ML 标准。② 前向初跑:市场出清 80% > 群体平均 56% > 时序基准 60%(n 小、未显著,但装置产出可复现的诚实数)。

2竞品 · 差异化 · 有效性

	裸 LLM	Agent-survey	本项目
前向防泄露	○	○	●
价格形成(非平均)	○	○	●
信息异质化	○	◐	●
多基准诚实打分	○	○	●

前向零泄露 harness:预测明天、次日打分 → 灭训练数据污染
价格从订单流涌现(集合竞价):资本加权、对分布敏感,非观点平均
信息异质化:散户/机构看不同信息,建模真实信息不对称
多基准对照 + 置信区间:群体 / 市场 / 时序基准各自打分

论文支撑 · 多 agent 涌现真实市场特征:Lux & Marchesi (1999)、Generative Agents (Park 2023)、StockAgent (arXiv:2407.18957);LLM 逼近真人群:Argyle (2023)「silicon sampling」与民调高相关;时序基准:TimesFM (Das, ICML 2024)。诚实说:这些只证明组件成立,没一篇证明本组合已超真实调查——那正是前向 harness 要持续回答的。

★核心差异 / 护城河

市面都在比「谁的 agent 模拟更花哨」;我们是唯一把「抹掉训练数据答案后还剩多少」量出来的那个。

价格从订单流涌现 ≠ 观点平均:供需曲线非线性交叉、资本加权——早期数据它就打过了平均(80% vs 56%)。
难复制点:前向零泄露的诚实纪律 + 信息异质 + 撮合定价三者合一,且每日自动累积可复现的真实轨迹——不是一次性 demo。

3做了什么 · 指标 · 测试

已上线:150 个独一 LLM persona × 5 股 / 天,分层信息 + 有符号影响力网络 + 集合竞价定价 + 每日 live 打分 + 逐 agent 可交互看板。全链自动 cron。

指标(全前向零泄露):方向命中率(Wilson CI)· 95% 区间校准 · MAE。跑法:walk-forward,每交易日自动跑、次日评分,累积 ~10 个观测。

56%

群体共识命中

80%

市场出清(#3)命中

60%

时序基准命中

100%

落入 95% 区间

说明:早期信号「价格形成 > 观点平均」,且修波动率校准后区间 100% 命中。但 n 太小、命中 CI 仍横跨 50% → 不显著。诚实结论:还不能说更准,但已有①可复现的诚实装置 ②值得追的早期方向信号——比「回测很赚」的不可验证结论更有价值。

4质疑 · 应对(已自我压测)

「n 太小,80% 是噪声」 → 同意,重点不是这个数,是 harness 的可验证 + 持续累积;我明确标「不显著」、不夸大。
「股票近随机游走,选错标的」 → 同意收益方向难,所以也报风险 / 分布校准,且方法可迁信噪更高的 polymarket / 调查。
「和 silicon sampling 区别?」 → 它们平均观点且回测;我们撮合定价 + 前向打分 + 信息异质 + 逐 agent 可展示。
「怎么商业化?」 → 一个可验证的预测 / 调研引擎:对 polymarket、品牌、政策,给「比小样本更准、带诚实 CI」的低成本前置预测。

＋踩坑 & 解法(面试加分项)

缓存把过期数据 memoize、污染整次运行 → 兜底数据不再 memoize、加重试,后续调用重新取最新。

95% CI 用「意见分歧度」窄到失真(几乎必出界)→ 改锚定真实日波动率,区间校准从 ~0 升到 100%。

claude 配额装不下 1500 调用 / 天 → 信息分层 + 换 haiku + 跨配额窗口限速,稳进单窗口。

价格只会「平均观点」、不像市场 → 加集合竞价撮合(#3),让价格从订单流涌现,资本加权。