29个人,估]值120亿,一个估值过两亿

  更新时间:2026-01-19 18:27   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

美国AI初创公司LMArena宣布完成A轮融资LMSYS Org的华人含量非常高指责LM Arena帮助部分AI公司操纵排名

<p id="48KFVT9L">近日,(美国AI初创?公司LMArena宣布完成A轮融资,融资额为1.5亿美元,投后估值达17亿美元(约120亿人民币)。该轮融资由Felicis Ventures和加州大学伯克利分校旗下的投资基金UC Investments领投,A16Z、光速创投、The House Fund、LDVP、Kleiner Perkins等美国知名VC跟投。</p> <p id="48KFVT9M">这笔融资之所以有意思,主要有三点:</p> <p id="48KFVT9N">首先是LMArena的估值蹿升非常快。它的上一轮融资是2025年5月份的种子轮,由A16Z领投,当时估值是6亿美元。也就是说,估值在七个月内翻了三倍,快速晋升独角兽。</p> <p id="48KFVT9O">其次是LMArena团队规模极小。根据PitchBook等数据平台截至2026年初的记录,该公司员工总数仅有29人,相当于每个人估值四个亿。</p> <p id="48KFVT9P">最后,LMArena的产品看起来没啥技术含量,很多人都觉得“我上我也行”。严格来说,LMArena并不是一家AI公司,它只是一个给大模型打分、做排名的网站,可以理解为大模型版的安兔兔。</p> <p id="48KFVT9Q">在各家大模型卷生卷死的时候,没想到是一个大模型“跑分”工具最先赚的盆满钵满。</p> <p id="48KFVT9R"><strong>无心插柳而来的独角兽</strong></p> <p id="48KFVT9S">LMArena能成为独角兽,其实是无心插柳的结果。</p> <p id="48KFVT9T">LMArena起源于一个开源学术组织LMSYS Org,该组织由一些来自加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等名校的学生、教授发起,核心使命是通过开发开源模型、系统和数据集,使大模型的使用和评估变得平民化。</p> <p id="48KFVT9U">值得一提的是,LMSYS Org的华人含量非常高,伯克利的博士Lianmin Zheng、UCSD 的助理教授Hao Zhang、伯克利的研究员Wei-Lin Chiang等人都是核心成员。</p> <p id="48KFVT9V">2023年3月,LMSYS Org发布了一款名为Vicuna的开源模型,性能可媲美ChatGPT。但是,他们发现当时市面上并没有可靠的测试方法,可以真正区分出模型的好坏。于是,研究团队在2023年4月推出了一个名为Chatbot Arena的开放测试平台。没想到,这个平台在AI圈内越来越火。2024年9月,Chatbot Arena平台正式更名为LMArena,目前已是全球大模型最权威的大模型评测平台之一。</p> <p id="48KFVTA0">LMArena的核心理念非常简单,就是“匿名对战”四个字。</p> <p id="48KFVTA1">进入LMArena的网站之后,系统会要求你任意输入一段提示词,随后系统会随机挑选两个AI模型生成对这段提示词的输出。用户在不知道模型身份的情况下,对比两个输出的质量,选择哪个模型胜出。胜出的模型加分,败北的模型减分。经过数十万、上百万次这样的对战之后,就能得出每一个模型的最终得分。</p> <p id="48KFVTA2">这一打分机制虽然简单,却用非常直接的方式,解决了大模型评测的核心痛点。</p> <p id="48KFVTA3">传统的大模型评测方式一般是“刷题”,比如MMLU(大规模多任务语言理解)、GSM8K(小学数学)和 HumanEval(代码生成)。然而,随着大模型的发展,这些评测正面临三大致命挑战:饱和、污染与脱节。</p> <p id="48KFVTA4">首先是饱和。随着大模型的“刷题”能力越来越强,已经逼近人类上限,这类测试的区分度越来越小。如果大家都是90分甚至95分以上,考试就没有了意义。</p> <p id="48KFVTA5">再来说说污染。由于测试的考题通常在互联网上公开,大模型也就可以预先进行针对性的训练,使得测试结果被污染。</p> <p id="48KFVTA6">最难以解决的问题是脱节。考题与用户的真实使用场景是不一样的,会做题的大模型不一定能解决真实问题,“高分低能”的情况在大模型中同样存在。</p> <p id="48KFVTA7">而LMArena则通过收集真实的人类偏好,把大模型的评价方式从“考场考试”改成“竞技场决斗”,一举解决了上述这三大问题。</p> <p id="48KFVTA8">现在,LMArena的排名已经被AI行业广泛接受为最权威的“人类偏好”风向标,已经有400多个大模型被LMArena打分和排名,每月有数百万个独立用户参与评测。无论是OpenAI、谷歌还是国内的各大AI公司,每次发布新模型都会送去LMArena打个榜,一旦拿到高分,一定会在发布会上大吹特吹一番。</p> <p id="48KFVTA9"><strong>“打分”工具商业化,会被大厂“包养”吗?</strong></p> <p id="48KFVTAA">2025年初,LMArena正式注册为公司,开始从学术项目转向商业化发展。</p> <p id="48KFVTAB">一说到“跑分”,很容易让人联想到国内曾经大行其道的安卓跑分工具。这类工具通常有用户、知名度和流量,但很难找到商业化变现的方式。最后的结局往往是被大厂“包养”,渐渐失去公信力,最后被用户抛弃。LMArena是否也会面临这样的问题?</p> <p id="48KFVTAC">答案当然是肯定的,LM Arena虽然尚未直接接受AI大厂的投资,但包括A16Z在内的VC机构重金投资了很多AI公司,间接的利益相关性也不容忽视。</p> <p id="48KFVTAD">LM Arena在公信力上遭受的最大质疑,当属2024年初在AI圈内闹得沸沸扬扬的Meta“作弊”事件。</p> <p id="48KFVTAE">2025年4月,Cohere、斯坦福大学、麻省理工学院等多家AI公司、高校的研究人员联合发表了一篇文章,指责LM Arena帮助部分AI公司操纵排名。</p> <p id="48KFVTAF">文章指出,Meta在发布Llama 4之前,私底下在LM Arena的平台上测试了27个模型变体,但最终只公开了表现最好的一个模型的得分,以达到在排行榜上名列前茅的目的。另外,文章还认为,LM Arena偏向性的增加了包括Meta、OpenAI和谷歌在内的大厂的模型的“对战”次数,使这些公司的模型排名获得了不公平的优势。</p> <p id="48KFVTAG">对于这些指责,LM Arena回应是“一些说法与事实不符”,并表示公布预发布模型的分数本身就是毫无意义的。</p> <p id="48KFVTAH">为了维持透明度,LM Arena会开源部分代码,并定期发布对战数据集供研究者分析。但公正性的争议恐怕会一直伴随LM Arena的商业化。</p> <p id="48KFVTAI"><strong>要做AI时代的产品“认证官”</strong></p> <p id="48KFVTAJ">那么,如果不以牺牲公正性为代价,LM Arena还有哪些更好的商业化手段呢?</p> <p id="48KFVTAK">2025年9月,LMArena正式推出第一个商业化产品AI Evaluations。AI Evaluations主要面向开发AI大模型的企业或研究机构,为它们提供模型评估服务。AI Evaluations在2025年12月的ARR(年度经常性收入,最近一个月收入乘以12)已达到了3000万美元。</p> <p id="48KFVTAL">考虑到AI Evaluations上线不到四个月,这样的成绩还算不错。但它显然还不足以撑起17亿美元的估值。投资AI Evaluations的一众硅谷VC,还看到了AI Evaluations的哪些潜力?</p> <p id="48KFVTAM">在领投LMArena的种子轮融资后,A16Z曾发文解释自己的投资逻辑,其核心观点大致有三条:</p> <p id="48KFVTAN">首先,A16Z认为LMArena的打分已经在“事实上”成为了评价AI大模型性能的标准,是AI产业发展的“关键基础设施”。</p> <p id="48KFVTAO">第二,LMArena打造了一个简单而成功的飞轮机制:用更多模型吸引更多用户,从而产生更多的偏好数据,进而吸引更多模型加入。显然,这个飞轮一旦形成就是难以复制的壁垒。</p> <p id="48KFVTAP">第三,A16Z认为中立、持续的评测,未来将是AI大模型监管的刚需。</p> <p id="48KFVTAQ">A16Z预测了LMArena未来几种可能的业务场景,其中最重要的一个就是为受监管行业提供合规性支持,比如医院或其它关键基础设施。对于这些行业来说,AI的可靠性不是依赖AI公司的承诺,而必须通过透明、持续的评测来保证。A16Z畅想,“LMArena认证”未来将成为AI产品的“绿色认证”。LMArena平台上的用户评测次数,未来将不是数百万次,而是数十亿次。</p> <p id="48KFVTAR">2025年初,LMArena推出了Inclusion Arena产品,直接通过API和SDK的方式将测试嵌入到真实的AI应用中,以收集生产环境中的反馈数据。截至2025年7月,该产品已收集了超过50万次的真实对战记录。其价值不仅在于极大地增强了排行榜的参考价值,还事实上构建起了一个“AI的持续集成/持续部署管道”。</p> <p id="48KFVTAS">A16Z承认LMArena面临“在商业压力下保持中立性”的巨大挑战,但是,能够让AI变得“可靠、可预测且值得信赖”的公司,未来将创造出最大的价值。</p>

编辑:Ivan G