你是否也相信,OpenAI 那一万亿美元的估值意味着通用 AI 会吞噬整个经济?如果你这么想,那可能需要重新审视一下了。最近读到 Nikhil Davar 和 Byrne Hobart 的一篇深度分析,彻底改变了我对 AI 应用竞争格局的看法。他们提出了一个极具颠覆性的观点:真正能够捕获巨大经济价值的,可能不是那些试图成为"万能路由器"的通用 AI 平台,而是那些深耕在特定垂直领域、位于经济活动边缘的专业化 AI 应用。
而他们用来证明这个观点的案例更是让人震惊:OpenEvidence,一家医疗领域的 AI 公司,最近以 120 亿美元的估值完成融资,比去年 10 月的 60 亿美元估值翻了一倍。更惊人的是,他们的广告收入年化已经达到 1.5 亿美元,并且以每月 30% 的速度增长,毛利率高达 90%。一家成立不到几年的公司,已经聚合了美国 50% 以上的医生,每天使用时长平均 14 分钟。上一次有技术产品被医生群体如此快速采用,还是 Google 出现的时候。
这个案例让我开始深入思考一个问题:在 AI 时代,通用平台和垂直应用之间的竞争格局,到底会如何演变?为什么一个专注医疗领域的 AI 应用,能够在 OpenAI、Anthropic 和 Google 这些巨头的包围下,不仅生存下来,还能建立起几乎不可撼动的护城河?
Router 的本质是什么
Davar 和 Hobart 在几个月前提出了一个非常有意思的概念框架,叫做"Routers, Apps, AGI"。他们的核心观点是:AI chatbot(聊天机器人)的真正价值,不在于它能回答多少问题,而在于它能把查询路由到任何可以回答这些问题的工具上——可能是另一个模型,可能是第三方服务,可能是服务提供商的结账页面,也可能是需要雇佣的顾问的联系方式。本质上,这是一个 Hayekian(哈耶克式)的愿景:最大的问题是通用的信息传输。
我对这个观点的理解是:每当世界上任何地方发生变化,都会以不可预测的方式改变人们的最优行为。你需要某种系统将这些信息传递给目标接收者,同时不会用琐碎信息淹没他们。价格机制是一种优雅的解决方案,但按需智能可以在更多维度上运作。换句话说,AGI(通用人工智能)不是数据中心里的诺贝尔奖得主,而是一种超人类的协调技术,代表着经济本身的某种高保真模拟。
想象一下,如果我们都戴着 Google Glasses,或者更进一步,拥有某种脑机接口,那么 Google 独家访问这些高保真的实时传感器,就能通过组织世界上所有高熵信息来协调大量经济活动,而且是在信息创建的那一刻就开始组织。OpenAI 大约一万亿美元的估值,就是在押注 OpenAI 能够在更大的经济份额上应用这种路由过程,或者比任何其他公司更精确地做到这一点。
但我认为这个愿景有一个关键假设:通用 router(路由器)能够获得足够的传感器数据,并且能够建立足够的信任,让用户愿意通过它来完成各种任务。而 Davar 和 Hobart 的文章恰恰指出了这个假设的问题所在:有太多经济上有价值但难以识别的"暗物质",是中心化的大型实验室看不到的。而那些更专注的垂直应用,已经在看到这些经济上有价值的问题,并且会在相当长一段时间内继续这样做。
OpenEvidence 如何建立不可复制的护城河
OpenEvidence 的案例之所以引人入胜,是因为它清晰地展示了垂直 edge router(边缘路由器)如何在巨头的夹缝中不仅生存,还能茁壮成长。他们的策略可以总结为三个词:信任、独家性和复合效应。
医生可能是世界上最看重资质认证的群体之一,部分原因是他们整个成年早期都在赚取一个人为稀缺的资质。一个技术取代资质、取代人类专业知识的可识别信号、取代专家机构的世界,会让医生感到非常不舒服。Davar 和 Hobart 提到了一个很生动的建议:下次你去看医生时,问问他们关于你在 Google 或 ChatGPT 上找到的某些健康建议,观察他们的面部表情和反应。我自己也试过类似的情况,医生的反应通常是介于怀疑和不屑之间。
OpenEvidence 深刻理解了这一点,并实施了一套完整的可信度策略。他们明确地与那些在开放互联网上训练的实验室进行对比定位。那些实验室的训练数据包括健康博客、社交媒体等等——任何用"医生讨厌这个奇怪技巧"来营销的疗法都会出现在广泛的训练数据集中。OpenEvidence 则训练了一套专门的模型集合,完全基于 3500 万份同行评审的来源,最初是从 FDA、CDC、PubMed 等公共领域材料开始的。他们的模型在训练或推理期间与公共互联网完全没有连接。
这意味着他们早期系统的幻觉风险明显低于 o1 之前的推理范式 LLM,而且产品是免费的,所以医生开始病毒式地采用它。这里有一个非常聪明的地方:那些早期采用者中,恰好有一些人是最负盛名的医学期刊编辑委员会的高级成员。这导致了下一个关键环节:OpenEvidence 能够锁定与 JAMA、NEJM、NCCN、美国医学会、所有 11 种 JAMA 专科期刊、美国家庭医师学会、美国急诊医师学院等的独家内容合作伙伴关系。
这里有一个特别有意思的细节。OpenEvidence 的 CEO Daniel Nadler 提供了一些背景信息:一些资金雄厚的 AI 公司向 NEJM 投入了大量资金,但他们拒绝了。如果 NEJM 是一家私营公司,他们可能会同意,但他们是非营利组织,所以他们拒绝了,因为马萨诸塞州医学会作为非营利组织,更关心作为非营利组织使命的神圣性和纯洁性,而不是只想获得某种快速商业合同。事实上,是 NEJM 主动联系 OpenEvidence,而不是相反:"在我们的案例中,我们没有出现在他们门口。新英格兰医学杂志编辑委员会中有很多高级人物是 OpenEvidence 的重度用户,他们希望他们的内容出现在他们正在使用的东西中。"
我认为这个案例揭示了一个深刻的洞察:在某些垂直领域,资质认证和信任不仅仅是营销手段,它们是产品本身的核心组成部分。通用 AI 平台无法复制这一点,因为它们的价值主张本质上是通用性和便利性,而不是在特定领域的深度专业性和可信度。
Dark Matter 的概念:无法被发现只能被创造的价值
Davar 和 Hobart 文章中最让我震撼的部分,是关于"dark matter"(暗物质)的讨论。这不是物理学上的暗物质,而是指那些在经济上极具价值但难以识别的上下文信息。OpenEvidence 所创造的暗物质,是医生基于高熵、特殊患者情况的临床不确定性。
这里有一个关键的认知转变:这种暗物质不是被发现的,而是被创造的。它之所以被创造,完全是因为信任的存在。中心化路由器无法通过提供更优越的通用智能来复制这一点,因为医生不会为他们不信任的平台生成上下文。你可以将医生向 OpenEvidence 询问或透露的内容集合,建模为他们非常犹豫向 ChatGPT 询问的确切内容集合:缺乏信任会创造极高的验证成本,而不验证不受信任的输出带来的不对称下行风险,意味着有价值的上下文根本不会被生成。
我对这一点的理解是:这完全颠覆了关于上下文和 AI 的常见假设。默认的心智模型是一种发现模型:有价值的信息存在于世界上某个地方,传感器的工作就是去找到它,抓取它,然后将其传回路由器。但 OpenEvidence 的服务更接近于销售对知情猜测的确认,加上支持它的文档。
医生的思维轨迹——将关于患者症状、诊断结果、病史的实时数据流以及他们所有先前的知识和直觉归结为临床假设,特别是他们对假设的怀疑("临床不确定性")——此前在任何其他系统中都不存在,无论是本地、云端、纸上,哪里都没有。也许当医生向另一个他们信任的医生询问特定患者场景的建议时,它作为电波存在过。没有人能够大规模实时地调查医生的诊断不确定性;最好的医生不会填写调查问卷,即使他们填了,填写调查问卷的行为在质量上也不同于从真实、新颖患者案例的持续流中,在真实的压力和不确定性下透露的上下文。
Mercor、Surge 和 Scale 这些公司正在试图为大型实验室复制这一点,但质量不一样,大量的体面输入也无法弥补最佳输入的质量:那些雇佣医生为通用 AI 工具提供和评价答案的公司,雇佣的是那些没有通过使用专用 AI 工具赚大钱的医生,而且可能会受到负面选择。这很难改变,因为存在货币的时间价值。Mercor、Surge、Scale 等公司付钱让你训练一个模型,而该训练的输出在未来某个时间点会有价值。患者或保险公司今天就在为医生的输出付费,而这些输出对他们来说(至少在理论上)今天就极具价值。
这个洞察让我重新思考了 AI 应用的竞争优势来源。不是谁拥有更大的模型,不是谁拥有更多的计算资源,而是谁能够创造出一个环境,让用户愿意在其中透露他们最有价值的思考和不确定性。这种价值创造是关系性的,是交互性的,无法通过简单的数据抓取或模型升级来复制。
垂直 Edge Router 的五个价值维度
Davar 和 Hobart 提出了一个非常有用的框架来理解 router 的价值。他们认为,router 的价值超越了原始智能,是以下几个因素的某种乘法函数:解决问题的绝对人数、这些人的经济价值、为他们解决的问题的相对经济价值、用户浮现的解决问题所需信息的比例,以及你能够多完整地解决这些问题。
OpenEvidence 在所有这五个维度上都极具优势。他们为医生解决问题(美国收入最高的专业人士),而且为很多医生解决:截至上个月,美国 50% 以上的医生,即 60 万人,正在使用 OpenEvidence,平均每天使用 14 分钟。他们解决的是医生面临的经济价值最高的问题:临床决策,也就是在不确定性和实时情况下对患者的实际诊断和治疗。而且他们是迄今为止最完整的解决方案:基于最负盛名的医学期刊的证据,在 USMLE(美国医师执照考试)上得分 100%,帮助医生将患者匹配到可能挽救生命的临床试验,建议最有可能解决患者问题并帮助医生完成工作的上下文感知治疗路径、药物、医疗设备等等。
我特别欣赏这个框架的地方在于,它强调了"完整性"的重要性。很多 AI 应用只是提供信息或建议,但无法真正执行或完成任务。OpenEvidence 则在不断扩展它的"actuator"(执行器)能力。他们今天的主要执行器是提供广告(将医生的注意力路由到制药公司),但临床试验匹配是一个完全不同的、更有价值的执行器(将患者路由到试验)。下一个逻辑执行器可能是事前授权自动化(路由付款),很难看到这会在哪里停止:每个新执行器都扩展了 OpenEvidence 可以访问和执行的解决方案集合,同时对中心化路由器保持上下文的暗化。
这让我想到,AI 应用的真正护城河可能不在于 AI 技术本身,而在于它能够建立的完整价值链。从信息到建议,从建议到执行,从执行到结果验证,每一步都在深化与用户的关系,创造更多的暗物质,吸引更多的解决方案提供商。这是一个自我强化的飞轮,而通用 AI 平台很难在所有垂直领域同时建立这样的飞轮。
为什么通用 AI 无法赢者通吃
这篇文章给我最大的启发,是它挑战了"通用 AI 将赢者通吃"的主流叙事。OpenAI、Anthropic 和 Google 都推出了医疗保健产品,那么为什么 OpenEvidence 还能有持久性?答案归结为复合信任以及这种信任所带来的能力。
文章中提到了一个深刻的认识论失败模式,我觉得值得深入思考。大型实验室的整个智能理论都预设:更多数据和更多计算在所有领域产生更有能力、经济上更有价值的系统。他们的商业模式、资本支出策略和投资者叙事都迫切希望这是真的。OpenEvidence 的成功是一个非常好的反例:它使用在少得多的数据上训练的专门模型创造了巨大的经济价值。大型实验室不容易承认,在最具经济价值的领域之一,正确类型的较少数据优于每种类型的更多数据。
在某种程度上,承认这一点会质疑他们的整个策略,或者至少表明他们可能在问错误的问题。这也意味着,与其从更好的模型中获得一次大胜利,不如在所有有足够训练数据产生专门模型的 N 个主题上获得 N 次大胜利,其中没有一个完全值得成为头条新闻。在这一点上,他们的业务更接近 Bloomberg 或 FactSet 的业务:收集和清理数据仍然有很多收入(和利润!),但它不像通用智能产品那样扩展。
我认为这个观察非常深刻。它暗示了 AI 的未来可能不是一个统一的通用智能平台统治一切,而是无数个垂直专业化的 AI 应用,每个都在自己的领域建立深度护城河。这些应用的总价值可能远远超过任何单一通用平台的价值,因为它们能够更深入地渗透到经济活动的各个角落,创造和捕获那些通用平台无法触及的暗物质。
飞轮效应:信任如何创造不可复制的优势
OpenEvidence 的成功可以概括为一个强大的飞轮:独家的 credentialed ground truth(有资质认证的基础真相)使传感器值得信任 → 信任使潜在暗物质变得可识别(50% 以上的美国医生每天透露他们的临床不确定性,因为他们信任传感器)→ 可识别的暗物质在不泄露给中心化路由器的情况下私下货币化(制药公司为访问医生最高意图时刻支付 70-150 美元的 CPM)→ 越来越多的解决方案,从临床试验患者招募到事前授权再到医疗设备发现等,不断接入,并复合暗物质的生成和捕获。
随着越来越多的边缘/领域特定问题被识别并通过越来越大的解决方案账本准确、完整地解决,一个新的信号被创建并复合:领域中经过验证的结果。这些经过验证的结果(某些匹配解决某些问题的效果如何)可以通过强化学习来改进边缘路由器。这是一个失控的优势,如果没有前面的步骤以及让这个过程成熟所需的时间,是很难复制的。
我特别想强调的是时间维度的重要性。这不是那种可以通过投入更多资源快速复制的优势。信任需要时间建立,独家合作关系需要时间积累,用户行为数据需要时间沉淀,结果验证需要时间观察。即使 OpenAI 明天决定全力进军医疗领域,他们也无法在短期内获得 NEJM 的独家合作,无法让医生群体立即信任他们,无法快速积累 60 万医生每天 14 分钟使用时长所产生的暗物质。
这让我想到了投资中的复利概念。OpenEvidence 每天都在复利他们的优势:更多的使用产生更多的数据,更多的数据吸引更多的合作伙伴,更多的合作伙伴提供更好的解决方案,更好的解决方案吸引更多的用户。这个飞轮一旦转起来,就会产生巨大的动能,很难被打破。
临床试验匹配:Actuator 扩展的典型案例
文章中提到的一个具体例子特别能说明问题:OpenEvidence 刚刚推出了临床试验匹配和患者招募功能。制药公司目前每年向 CRO(临床研究组织)支付数十亿美元来招募患者进行临床试验并运行这些试验,非常缓慢且低效。如果 OpenEvidence 能够比 CRO 更快地填充三期试验,并且匹配更好的患者,制药公司将受益匪浅。招募期越快,试验开始得越快,患者越好,试验成功的可能性就越高。
一个更快、成功可能性更高的试验意味着药物在专利保护下获得垄断利润的时间更长。具体来说,平均制药公司目前每年仅在患者招募上就花费约 20 亿美元(每位患者约 4 万美元),80% 的试验延迟。每延迟一天,根据药物不同,损失的收入在 60 万到 800 万美元之间。对于重磅药物(如 GLP、Keytruda 等),专利保护下的单日价值约为 800 万美元。制药公司愿意支付远高于 70-150 美元 CPM 的价格来加速这一过程。
这个例子让我深刻理解了 actuator(执行器)扩展的概念。OpenEvidence 今天的主要执行器是提供广告,但临床试验匹配是一个完全不同的、更有价值的执行器。下一个逻辑执行器可能是事前授权自动化,很难看到这会在哪里停止。每个新执行器都扩展了 OpenEvidence 可以访问和执行的解决方案集合,同时对中心化路由器保持上下文的暗化。
我认为这揭示了垂直 AI 应用的一个关键优势:它们可以沿着价值链自然扩展,因为它们深度嵌入在特定的行业生态系统中。通用 AI 平台可能能够在表面层面提供类似的功能,但无法像垂直应用那样深入到行业的核心流程和决策环节中。
中间游戏:Edge Router 的时代
Davar 和 Hobart 使用了"middle game"(中间游戏)这个术语来描述当前的状态。从理论上讲,随着时间的推移,实验室和中心化的经济世界模型应该能够获得一切,但存在一个中间游戏,非常值得深入考虑——特别是因为游戏规则正在逐渐揭示。
我对这个"中间游戏"的理解是:我们正处在一个过渡期,通用 AI 的愿景尚未完全实现,但垂直 AI 应用已经在创造实实在在的价值。这个过渡期可能会持续很长时间,长到足以让那些在垂直领域建立了强大护城河的公司,成长为难以撼动的巨头。
文章的结尾部分提出了一个一般化的论点,我觉得非常有说服力:无论哪里存在两个(或更多)经济上有价值但难以识别的上下文池,而中心化路由器无法桥接(或不被信任桥接),边缘路由器都有机会创建受信任的传感器,生成并捕获暗物质,并使其对愿意付费的市场参与者可识别。
这个框架可以应用到很多其他垂直领域。法律领域有没有类似的暗物质?金融领域呢?教育领域呢?制造业呢?我认为答案是肯定的。在每个这样的领域,都存在着只有深度嵌入该领域的专业化 AI 应用才能捕获的价值。
我的反思:通用与专业的辩证法
读完这篇文章,我对 AI 应用的竞争格局有了全新的认识。过去我倾向于相信"通用 AI 将统治一切"的叙事,但现在我意识到这可能过于简化了。现实可能更接近于一个多层次的生态系统:通用 AI 平台提供基础能力,但真正的价值捕获发生在垂直应用层。
OpenEvidence 的案例让我特别深刻地意识到,在某些领域,信任和专业性不是可以通过更强大的技术能力来弥补的东西。医生不会仅仅因为 ChatGPT 更聪明就开始向它透露他们的临床不确定性。同样,律师不会仅仅因为通用 AI 能够理解法律文本就开始依赖它来做关键决策。在这些高风险、高专业性的领域,建立信任需要的不仅是技术能力,还需要领域专业性、合规性、与行业标准和实践的深度整合。
我也开始思考这对创业者意味着什么。如果你正在构建 AI 应用,也许不应该试图成为下一个 OpenAI,而应该找到一个足够大、足够有价值的垂直领域,在那里建立深度护城河。关键是找到那些存在大量"暗物质"的领域——那些有价值但难以被通用平台捕获的上下文信息。
从投资角度看,这也改变了我对 AI 公司估值的看法。OpenEvidence 120 亿美元的估值,在传统软件公司的标准下可能显得过高,但如果你理解了他们所建立的飞轮效应和护城河的深度,这个估值就开始显得合理了。他们不仅仅是一个软件工具,而是医疗决策生态系统中的一个关键节点,能够创造和捕获其他任何人都无法触及的价值。
最后,我想说的是,这篇文章最有价值的地方,不是它预测了未来会发生什么,而是它提供了一个清晰的框架来思考 AI 应用的竞争优势来源。无论你是创业者、投资者还是从业者,理解"edge router"的概念、"dark matter"的本质、以及信任和专业性在某些垂直领域的不可替代性,都会帮助你在这个快速演变的领域中做出更好的判断。
AI 的未来可能不是一个赢家通吃的游戏,而是一个既有通用平台又有无数垂直应用的生态系统。在这个生态系统中,真正的价值捕获可能发生在那些能够在特定领域建立深度信任、持续创造和捕获暗物质、并不断扩展其执行器能力的垂直应用身上。这是一个令人兴奋的时代,因为它意味着机会不仅仅属于那些资源最雄厚的科技巨头,也属于那些能够深刻理解特定领域需求、建立真正信任关系的专业化团队。

