斯坦福大学人工智能实验室主任克里斯托弗·曼宁(Christopher Manning) 周二在X 上发表评论称,“‘先假后真’是硅谷的一个不光彩的产物。”剽窃中国清华大学等机构成果的大学。
5月29日,斯坦福大学研究团队发布了名为Llama3-V的大型模型,声称其预训练成本仅为500美元,就能达到与GPT-4V等大型模型相同的效果。该消息在社交媒体和人工智能学术界广泛传播。
不过,很快业内人士就怀疑斯坦福团队抄袭了清华大学等中国机构发布的MiniCPM-Llama3-V 2.5大模型。
Llama3-V和MiniCPM-Llama3-V 2.5大模型都是基于开源的Llama3大模型。尽管如此,清华大学的团队还是进行了独特的训练,包括使用“清华竹简”(一种可以追溯到战国时期(公元前475-221 年)的竹简中文文本集)来训练模型认识古汉字。
测试表明,斯坦福大学团队发布的模型也能识别“清华简”。
清华大学计算机系终身副教授刘志远表示,“我们非常确定斯坦福团队抄袭了我们的大模型研究成果”。
“我们从‘清华简’中逐字扫描和注释的数据从未公开过,而Llama3-V已经表现出与‘清华简’相同的识别能力,甚至错误示例都是一样的, ”同为清华大模特团队成员的刘说。
刘说,随着质疑的增加,斯坦福团队删除了数据库和互联网上的推广文章,并补充说,“从证据和他们的反应来看,抄袭的性质已经相对确定。”
在曼宁提出批评后,斯坦福大学团队的两名成员阿克什·加尔格(Aksh Garg)和悉达思·夏尔马(Siddharth Sharma)在社交媒体上正式道歉。
他们说:“我们已经删除了所有有关Llama3-V 的内容,对于可能造成的不便,我们再次表示歉意。”
“中国的人工智能研究影响力越来越大,”刘说,并指出抄袭事件反映出“我们的创新成果正在引起国际关注。”
总体来看,中国的整体研究水平与美国还有较大差距,但在人工智能创新等一些具体领域,中国已迅速成长为重要的推动者。
目前对于大型模型的“抄袭”还没有明确的定义。中国80%以上的大模型数据来自Meta的Llama系列以及国内外搜索引擎和互联网平台数据的训练。知识产权与法定权利的界限相对模糊。
构建开源大模型和社区的首要目的是促进技术的共享和交流,从而加速人工智能的发展。在此基础上结合开源模型基本上是可以接受的;然而,斯坦福大学和其他一些人的执行方式并不聪明。
一位业内专家告诉钛媒体,使用开源项目主要有两个考虑因素。首先,必须注明原作者,指定正在使用哪个项目,并遵守开源项目的许可和作者声明,不得修改或删除。其次,评估项目是否适合商业化至关重要。有的开源项目明确允许商业使用,有的则禁止商业化或二次开发,需要开发者进行相应的沟通和评估。
微智资本董事总经理黄威廉指出,“现在很多初创公司在后端连接ChatGPT,为前端设计UI,然后在Apple Store上架后声称自己从事AIGC业务。”他认为这些AIGC项目只是炒作,没有坚实的商业逻辑和技术基础。
美国人工智能产业与中国之间存在差距。周一,人工智能巨头NVIDIA 首席执行官黄仁勋在演讲中展示了NVIDIA ACE(一套通过生成式AI 赋予数字人类生命的技术)的全球布局图,显示中国已不再包含在NVIDIA 未来的基础设施区域中。
因此,开源模式已成为中美之间人工智能技术协调和合作的最佳选择,也可能是唯一的选择。这种方法需要开发者更多的耐心和理解,而不是批评。这种批评对该行业没有产生任何积极影响。 “从错误中吸取教训”的教训不仅适用于斯坦福大学,也适用于中国的大型示范企业。