OR 新媒|oror.vip跨平台阅读首选
2024-06-04 18:55
科技

斯坦福AI团队抄袭中国大模型?背后还有更值得关注的信息

斯坦福团队抄袭中国开源大模型,事件曝光后连夜删库跑路。
中国AI人工智能企业创造性压低模型成本
科工力量


斯坦福团队抄袭中国开源大模型,事件曝光后连夜删库跑路。

对这条新闻,恐怕不少人第一反应和科工力量一样,有种一吐胸中郁闷的感受。此前很长一段时间,从美国朝野锁死中国AI研究能力的叫嚣,到中文网络上对国产大模型怪话连篇的调侃,让很多人对中国AI产业的发展倍感焦虑,而通过这次事件,这样的焦虑恐怕可以得到相当程度的纾解。

经过近两天的发酵,这起事件本身毫无疑问已经“实锤”,不仅Llama3-V团队发布道歉声明,作为被抄袭方的面壁智能,也由CEO李大海透露了核查结果,Llama3-V和MiniCPM-Llama3-V-2.5这两个模型即便在高斯扰动验证后,在正确和错误表现方面都高度相似。

不过继续挖掘信息的话可以发现,其实所谓的斯坦福团队只是两个印度裔本科生自己攒的局,闯祸后,他们还第一时间把锅甩给了实际干活的枪手,声称自己是被阿拉伯裔码农描绘的多模态架构忽悠了,他们实际只是在社交媒体平台帮着后者宣传推广。

而扛下了所有的码农“枪手”Mustafa Aljadery,也是个妙人,根据其网上简历,目前同时写了三份全职工作,除了两个自己注册的小微企业,还包括量化投资大厂Citadel“即将入职的暑期实习生”。

总之,这个“斯坦福团队”里的卧龙凤雏,倒是让人见识到了美国科技产业最底层的一个微观切片,相互忽悠攒项目、海投注水论文“抽奖”、绞劲脑汁包装履历,湾区大学生的求职“内卷”也着实不容易。

Aljadery之所以抄上MiniCPM-Llama3-V-2.5,很可能是因为这个模型前一段时间在HuggingFace趋势榜上连续霸榜,性能表现非常亮眼,OpenCompass性能基准榜单上平均得分65.1,甚至超过了GPT-4V、Gemini Pro 这些主流商用模型,而开发者在美国似乎又没有什么关注度,所以他们认为抄过来交差应该没什么风险。但这次东窗事发之后,几个年轻人恐怕都会面临“偷鸡不成蚀把米”的后果。

在科工力量看来,这次事件背后,还有着更值得关注和探讨的信息。

自从ChatGPT亮相以来,有关国内AI产业发展的讨论中,已逐渐形成了所谓的技术派和市场派分野,前者以入局企业为代表,往往用“相当于GPT-x.x”来衡量技术能力,力求追上乃至反超美国巨头,而后一派则以PE/VC投资人为代表,认为OpenAI等企业连续不断的突破已经说明,国内没有可能也没有必要继续在基础大模型上苦苦追赶,应该利用开源大模型成果,聚焦于挖掘场景应用价值。基于这样的认识,甚至有人喊出了“不会投场上任何一家中国大模型公司”。

在过去一两年内,这样的争论或许是各有理据的,不过今天的中国毕竟不同于技工贸和贸工技只能二选一的年代了,我们所拥有的基础和资源,已经足以支撑“成年人不做选择”。

所以我们会看到,一方面,技术派的突破在2024年已经有加速态势,像月之暗面Kimi、幻方DeepSeek这些产品,近期在美国业界引发广泛关注;而另一方面,就像这次事件所展现的,国内基于开源大模型的派生模型开发水平也越来越高,像MiniCPM-Llama3-V 2.5是基于SigLip-400M和Llama3–8B-Instruct构建,而开发者面壁智能最新发布的开源大模型Eurux-8x22B,则是基于Mixtral-8x22B,号称早于Llama3、比肩Llama3、推理超越Llama3,刷新开源大模型推理性能SOTA。

这些进展当然令人欣喜,不过无论技术派还是市场派,未来要走的路还很长。比如,国内基础大模型开发者在实现GPT-4o乃至未来GPT-5的技术能力后,如何培育开发工具链和应用生态,仍将是一大挑战;而对于聚焦场景与领域应用落地的企业,则有必要回答这样一个追问:开源大模型是否永远是免费的午餐?

诚然,目前开源大模型社区,尚未受到地缘因素的明显干扰,但即便没有人兴风作浪“拖后腿”,长期安于使用别人的基础模型成果,也意味着将制高点拱手让给他人。

更值得注意的是,在开源大模型原始创新上,欧洲、特别是法国正占据不容忽视的地位,AI大模型的美中法“三国杀”格局已隐约可见。

具体来看,上文提到的Mixtral-8x22B,就来自于法国初创企业Mistral AI;至于Llama系列,尽管名义上是美国巨头Meta的产品,但其开发团队则主要位于法国,相关人才和知识自然也主要在法国流动。

可资参照的是,在斯坦福大学编制的《AI指数报告2024》中,主要机器学习模型的“原产地”排名上,美、中、法已分别占据前三排名;欧盟加英国合计,更是已超越中国。

这样的格局中,蕴含着不言自明的威胁性,如果国内AI产业界继续对开源基础模型秉持“拿来主义”,长此以往则可能进一步增强欧洲在产业竞争中的主动性,毕竟在基础模型之外,欧洲获得高端算力的便利性也远强于国内。

总体而言,以这一事件为标志,随着中国AI大模型产业的迅速成长,其对美国产业生态的“反作用力”也会越来越频繁而显著,能否在多边博弈中稳中求进,离不开每一个产业人的共同努力。

■ 
                                                                                         
读者评论
MORE +

热门排行榜
OR
+
中国AI人工智能企业创造性压低模型成本
2024-06-04 18:55
科技

斯坦福AI团队抄袭中国大模型?背后还有更值得关注的信息

斯坦福团队抄袭中国开源大模型,事件曝光后连夜删库跑路。
科工力量


斯坦福团队抄袭中国开源大模型,事件曝光后连夜删库跑路。

对这条新闻,恐怕不少人第一反应和科工力量一样,有种一吐胸中郁闷的感受。此前很长一段时间,从美国朝野锁死中国AI研究能力的叫嚣,到中文网络上对国产大模型怪话连篇的调侃,让很多人对中国AI产业的发展倍感焦虑,而通过这次事件,这样的焦虑恐怕可以得到相当程度的纾解。

经过近两天的发酵,这起事件本身毫无疑问已经“实锤”,不仅Llama3-V团队发布道歉声明,作为被抄袭方的面壁智能,也由CEO李大海透露了核查结果,Llama3-V和MiniCPM-Llama3-V-2.5这两个模型即便在高斯扰动验证后,在正确和错误表现方面都高度相似。

不过继续挖掘信息的话可以发现,其实所谓的斯坦福团队只是两个印度裔本科生自己攒的局,闯祸后,他们还第一时间把锅甩给了实际干活的枪手,声称自己是被阿拉伯裔码农描绘的多模态架构忽悠了,他们实际只是在社交媒体平台帮着后者宣传推广。

而扛下了所有的码农“枪手”Mustafa Aljadery,也是个妙人,根据其网上简历,目前同时写了三份全职工作,除了两个自己注册的小微企业,还包括量化投资大厂Citadel“即将入职的暑期实习生”。

总之,这个“斯坦福团队”里的卧龙凤雏,倒是让人见识到了美国科技产业最底层的一个微观切片,相互忽悠攒项目、海投注水论文“抽奖”、绞劲脑汁包装履历,湾区大学生的求职“内卷”也着实不容易。

Aljadery之所以抄上MiniCPM-Llama3-V-2.5,很可能是因为这个模型前一段时间在HuggingFace趋势榜上连续霸榜,性能表现非常亮眼,OpenCompass性能基准榜单上平均得分65.1,甚至超过了GPT-4V、Gemini Pro 这些主流商用模型,而开发者在美国似乎又没有什么关注度,所以他们认为抄过来交差应该没什么风险。但这次东窗事发之后,几个年轻人恐怕都会面临“偷鸡不成蚀把米”的后果。

在科工力量看来,这次事件背后,还有着更值得关注和探讨的信息。

自从ChatGPT亮相以来,有关国内AI产业发展的讨论中,已逐渐形成了所谓的技术派和市场派分野,前者以入局企业为代表,往往用“相当于GPT-x.x”来衡量技术能力,力求追上乃至反超美国巨头,而后一派则以PE/VC投资人为代表,认为OpenAI等企业连续不断的突破已经说明,国内没有可能也没有必要继续在基础大模型上苦苦追赶,应该利用开源大模型成果,聚焦于挖掘场景应用价值。基于这样的认识,甚至有人喊出了“不会投场上任何一家中国大模型公司”。

在过去一两年内,这样的争论或许是各有理据的,不过今天的中国毕竟不同于技工贸和贸工技只能二选一的年代了,我们所拥有的基础和资源,已经足以支撑“成年人不做选择”。

所以我们会看到,一方面,技术派的突破在2024年已经有加速态势,像月之暗面Kimi、幻方DeepSeek这些产品,近期在美国业界引发广泛关注;而另一方面,就像这次事件所展现的,国内基于开源大模型的派生模型开发水平也越来越高,像MiniCPM-Llama3-V 2.5是基于SigLip-400M和Llama3–8B-Instruct构建,而开发者面壁智能最新发布的开源大模型Eurux-8x22B,则是基于Mixtral-8x22B,号称早于Llama3、比肩Llama3、推理超越Llama3,刷新开源大模型推理性能SOTA。

这些进展当然令人欣喜,不过无论技术派还是市场派,未来要走的路还很长。比如,国内基础大模型开发者在实现GPT-4o乃至未来GPT-5的技术能力后,如何培育开发工具链和应用生态,仍将是一大挑战;而对于聚焦场景与领域应用落地的企业,则有必要回答这样一个追问:开源大模型是否永远是免费的午餐?

诚然,目前开源大模型社区,尚未受到地缘因素的明显干扰,但即便没有人兴风作浪“拖后腿”,长期安于使用别人的基础模型成果,也意味着将制高点拱手让给他人。

更值得注意的是,在开源大模型原始创新上,欧洲、特别是法国正占据不容忽视的地位,AI大模型的美中法“三国杀”格局已隐约可见。

具体来看,上文提到的Mixtral-8x22B,就来自于法国初创企业Mistral AI;至于Llama系列,尽管名义上是美国巨头Meta的产品,但其开发团队则主要位于法国,相关人才和知识自然也主要在法国流动。

可资参照的是,在斯坦福大学编制的《AI指数报告2024》中,主要机器学习模型的“原产地”排名上,美、中、法已分别占据前三排名;欧盟加英国合计,更是已超越中国。

这样的格局中,蕴含着不言自明的威胁性,如果国内AI产业界继续对开源基础模型秉持“拿来主义”,长此以往则可能进一步增强欧洲在产业竞争中的主动性,毕竟在基础模型之外,欧洲获得高端算力的便利性也远强于国内。

总体而言,以这一事件为标志,随着中国AI大模型产业的迅速成长,其对美国产业生态的“反作用力”也会越来越频繁而显著,能否在多边博弈中稳中求进,离不开每一个产业人的共同努力。

■ 
                                                                                         
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......