斯坦福大学“急了”

新闻资讯2024-08-07 16:20小乐

斯坦福大学“急了”

虎秀科技集团出品

作者于洋

编辑苗正清

头图视觉中国

6月4日消息，斯坦福大学AI团队轮流研究了国内AI明星公司Wallface Intelligence的开源产品MiniCPM模型，引发了HuggingFace社区网友的广泛讨论。话题主要围绕斯坦福大学AI团队涉嫌抄袭的问题。

这并不是中国模式第一次被国外抄袭。不过，这起事件涉及斯坦福大学这样的知名院校。引起关注的同时，也暴露了人工智能领域的知识产权保护和学术诚信问题。

更值得思考的是，MiniCPM模型为何会引起斯坦福大学的关注？这是否意味着国产大车型“出圈”了？

事件始于斯坦福团队声称可以以不到500 美元（折合人民币约3650 元）的成本训练出性能超过GPT-4V 的大型SOTA 多模态模型。这一公告很快引起了广泛关注，但不久之后，社区中开始出现对Llama3-V的质疑，指责其抄袭MiniCPM-Llama3-V 2.5的面墙智能。

网友Magic Yang发现Llama3-V项目有很多与MiniCPM-Llama3-V 2.5类似的内容，包括模型结构和配置文件高度相似，但变量名称不同。

除了社区网友列出的证据外，面墙智能团队的验证表明，Llama3-V不仅能够像MiniCPM一样识别战国古文字“清华简”，而且两个模型甚至能够识别战国古文字“清华简”。犯了同样的错误。这个结果来自于面壁情报团队逐字逐句扫描浩瀚的清华大学纸条，然后对数据进行一一注释。经过几个月的努力，它被集成到模型中。这进一步证实了Llama3-V模型的抄袭行为。行为。

MiniCPM模式有何魔力？

今年2月，Facewall Intelligence发布了20亿参数开源端到端模型MiniCPM。在多个主流评测榜单中，该模型的中英文成绩均超过了Mistral-7B开源模型，甚至优于Llama 2-13B。

这种名为MiniCPM的开源模式的价值增长点是什么？

3月31日，在虎秀科技集团主办的“2024人工智能内部参与大会”上，面壁智能CTO曾国阳、极客科技副总裁、TGO鲲鹏俱乐部总经理杨攀作为嘉宾。与会者曾对开源模型的价值提出疑问，即该模型相对于其他增量模型有什么优势？

在内参会上，曾国阳的回答是这样的：这是一个“更高效的模型”，就是在有限的资源内让模型变得更好。

“如果我们简单地增加模型参数的大小，它确实会随着缩放定律而改善，但它的单维改善是低效的。当我们开发出更优化的方法后，我们实际上可以随着参数的扩大而导致模型爆炸增长更加明显。”曾国阳说。

换句话说，开发人员可以使用它在固定的资源预算内匹配模型的最佳大小，例如额定的GPU 数量、训练数据量或训练持续时间，而无需经过昂贵的试错。这无疑很大程度上提高了研发效率。我们推测这可能是开源型号Llama3-V被仿冒的原因。

对于此事，面墙智能CEO李大海表示遗憾，并呼吁构建开放、合作、信任的社区环境。

目前，Llama3-V模型已从Hugging Face等开源平台下架。在社交媒体上，Llama3-V 团队的两位作者Siddharth Sharma 和Aksh Garg 正式向MiniCPM 团队道歉。

斯坦福大学是世界顶尖的学术机构之一。这一事件使其声誉受到拷打，尤其是在人工智能研究领域。未来对学业成绩的审核肯定会更加严格。

因此，面向墙壁的智能是因祸得福。在国际关注度大幅提升的背景下，其商业价值也在聚光灯下被无限放大，这意味着更多的合作伙伴和投资者。然而，人工智能领域的知识产权保护和学术诚信问题仍然任重而道远。

该内容为作者独立意见，不代表虎秀立场。禁止任何未经许可的复制。授权请联系hezuo@huxiu.com

正在改变、想要改变世界的人就在虎秀APP

斯坦福大学“急了”

猜你喜欢