斯坦福大学“急了”

新闻资讯2024-08-07 16:20小乐

斯坦福大学“急了”

虎秀科技集团出品

作者于洋

编辑苗正清

头图视觉中国

6月4日消息,斯坦福大学AI团队轮流研究了国内AI明星公司Wallface Intelligence的开源产品MiniCPM模型,引发了HuggingFace社区网友的广泛讨论。话题主要围绕斯坦福大学AI团队涉嫌抄袭的问题。

这并不是中国模式第一次被国外抄袭。不过,这起事件涉及斯坦福大学这样的知名院校。引起关注的同时,也暴露了人工智能领域的知识产权保护和学术诚信问题。

更值得思考的是,MiniCPM模型为何会引起斯坦福大学的关注?这是否意味着国产大车型“出圈”了?

事件始于斯坦福团队声称可以以不到500 美元(折合人民币约3650 元)的成本训练出性能超过GPT-4V 的大型SOTA 多模态模型。这一公告很快引起了广泛关注,但不久之后,社区中开始出现对Llama3-V的质疑,指责其抄袭MiniCPM-Llama3-V 2.5的面墙智能。

网友Magic Yang发现Llama3-V项目有很多与MiniCPM-Llama3-V 2.5类似的内容,包括模型结构和配置文件高度相似,但变量名称不同。

除了社区网友列出的证据外,面墙智能团队的验证表明,Llama3-V不仅能够像MiniCPM一样识别战国古文字“清华简”,而且两个模型甚至能够识别战国古文字“清华简”。犯了同样的错误。这个结果来自于面壁情报团队逐字逐句扫描浩瀚的清华大学纸条,然后对数据进行一一注释。经过几个月的努力,它被集成到模型中。这进一步证实了Llama3-V模型的抄袭行为。行为。

MiniCPM模式有何魔力?

今年2月,Facewall Intelligence发布了20亿参数开源端到端模型MiniCPM。在多个主流评测榜单中,该模型的中英文成绩均超过了Mistral-7B开源模型,甚至优于Llama 2-13B。

这种名为MiniCPM的开源模式的价值增长点是什么?

3月31日,在虎秀科技集团主办的“2024人工智能内部参与大会”上,面壁智能CTO曾国阳、极客科技副总裁、TGO鲲鹏俱乐部总经理杨攀作为嘉宾。与会者曾对开源模型的价值提出疑问,即该模型相对于其他增量模型有什么优势?

在内参会上,曾国阳的回答是这样的:这是一个“更高效的模型”,就是在有限的资源内让模型变得更好。

“如果我们简单地增加模型参数的大小,它确实会随着缩放定律而改善,但它的单维改善是低效的。当我们开发出更优化的方法后,我们实际上可以随着参数的扩大而导致模型爆炸增长更加明显。”曾国阳说。

换句话说,开发人员可以使用它在固定的资源预算内匹配模型的最佳大小,例如额定的GPU 数量、训练数据量或训练持续时间,而无需经过昂贵的试错。这无疑很大程度上提高了研发效率。我们推测这可能是开源型号Llama3-V被仿冒的原因。

对于此事,面墙智能CEO李大海表示遗憾,并呼吁构建开放、合作、信任的社区环境。

目前,Llama3-V模型已从Hugging Face等开源平台下架。在社交媒体上,Llama3-V 团队的两位作者Siddharth Sharma 和Aksh Garg 正式向MiniCPM 团队道歉。

斯坦福大学是世界顶尖的学术机构之一。这一事件使其声誉受到拷打,尤其是在人工智能研究领域。未来对学业成绩的审核肯定会更加严格。

因此,面向墙壁的智能是因祸得福。在国际关注度大幅提升的背景下,其商业价值也在聚光灯下被无限放大,这意味着更多的合作伙伴和投资者。然而,人工智能领域的知识产权保护和学术诚信问题仍然任重而道远。

该内容为作者独立意见,不代表虎秀立场。禁止任何未经许可的复制。授权请联系hezuo@huxiu.com

正在改变、想要改变世界的人就在虎秀APP

猜你喜欢