OR 新媒|oror.vip跨平台阅读首选
2023-06-22 21:47
科技

中国大模型发展面临六大挑战

国内的人工智能大模型已具备一定基础;大模型正引发新一轮智能革命浪潮。
ai Chat GPT中国大模型发展面临六大挑战
李瑞祥

■随着ChatGPT问世,全球掀起AI巨浪,就连中国也不例外,各式各样的大模型发布会一波接着一波,让人应接不暇。 最近两个月,中国企业陆续发布的大模型已经超过10个。百度 抢先发布文心一言,成为第一个吃螃蟹的人,阿里巴巴、京东等互联网大厂,华为、商汤科技、昆仑万维等科技公司也纷纷推出自家大模型,之后是内容平台知乎发布了“知海图AI”,科大讯飞发布了星火大模型。

目前,国内的人工智能大模型已具备一定基础。6月9日智源研究院发布了全面开源的悟道3.0,这是被微软总裁Brad Smith点名过的机构。他在最近的一次采访中提到,“目前,国际上有三家机构在AI领域处在前沿地位,微软的深度合作伙伴OpenAI,谷歌,以及BAAI,”BAAI即智源研究院。从技术能力来看,复旦大学MOSS系统负责人邱锡鹏表示,包括谷歌在内的模型距离OpenAI的GPT4仍存在很大的差距。

除此之外,最值得关注的产品还有,一是百度自主研发的文心大模型,参数规模达2600亿,已在能源、金融、制造等领域发布了11个行业大模型;二是阿里达摩院推出10万亿参数的多模态M6大模型;三是华为与鹏城实验室合作开发的盘古大模型,是首个全开源2000亿参数中文预训练语言模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。

看好未来发展,创业者们摩拳擦掌。美团联合创始人王慧文振臂一呼,直接“all in”;搜狗创始人王小川创立百川智能,旨在打造中国版OpenAI;创新工场董事长兼CEO李开复也在朋友圈发文表示,他正在亲自筹组Project AI 2.0,一个致力打造 AI 2.0全新平台和 AI-first 生产力应用的全球化公司。

AI大模型群雄逐鹿,正如阿里巴巴CEO张勇所说,“面对AI时代,所有产品都值得用大模型重做一次。”

大模型正引发新一轮智能革命浪潮。这就意味着以 大模型+RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)为核心的技术落地,意味着人工智能开启AI新范式。当前,已进入以AGI(通用人工 智能)为发展目标的全新通用智能时代。伴随着AI技术升级和大模型成熟,生成式AI应用场景正在加速落地。

比如,在泛交通领域,人工智能能够在自动驾驶、智能座舱、运行管理优化等多个方面为汽车行业创造价值;在医疗方面,人工智能可提高疾病检测的效率以及医学影像领域的智能分析。

通过数据交互和任务反馈,大模型的应用边界得到不断拓宽,大模型能够向外赋能,包括通过API(应用程序接口)的形式,降低AI应用开发门槛,提高落地部署的效率和精度等,进而降低AI规模化部署的成本,满足各行业场景的应用需求。

然而,国内大模型的发展,仍面临着六个方面的挑战。

第一个挑战是算力。这是大模型最终能运行起来的关键,尤其对训练算力的需求将是一个巨大的挑战。当下,主流市场上多采用英伟达的A100和H100作为训练算力的相关设备,因此衡量算力大小的指标是英伟达A100芯片的张数。根据OpenAI 关于ChatGPT的公开数据显示,它的整个训练算力消耗,在考虑互联损失的情况下,需要一万张A100作为算力基础。

去年8月,美国发布政策,禁止英伟达将A100、H100两款 AI芯片售往中国。为了绕过封锁,英伟达对这两款芯片进行了降频和封锁部分传输通路的处理,最终两款阉割版的H800和 A800芯片被单独出口到中国。这两款芯片的功力只有原版的六成左右。

当前,国内企业使用综合性能只有6至7成的简配版芯片来部署大模型,意味着需要为相应的模型配备超过20%-30%的芯片和服务器,才能达到美国企业水平。要命的是,受限于产能,如今阉割版的芯片也很快进入了有价无市的状态。

百度、阿里巴巴和华为都已经在各自的大模型基础层部署了自家研发的GPU或者AI芯片。百度的昆仑芯片,已经有英伟达A100超过8成的能力;阿里的含光800专用AI芯片,2019年就已经出世,而且在阿里自身架构基础上,这颗芯片能超过英伟达同期GPU芯片4颗并行的水平;而华为AI芯片昇腾910已经做到接近A100水平,下半年要发布的920业内普遍预计会超过A100。

更关键的是,这些大平台的芯片都与其系统和技术深度捆绑,可以发挥100%的性能,这是最适合它们建设大模型的基础。

即便如此,核心挑战在于算法和数据能否真 正产生智能。从技术能力来看,复旦大学MOSS 系统负责人邱锡鹏表示,包括谷歌在内的模型距离OpenAI的 GPT4仍存在很大的差距。AI算法科学家杨志明则认为,国内大模型与OpenAI之间大约存在1-2代的代差,涉及整个模型层的技术、学习的知识和能力等方面的差距。ChatGPT背后是文本/跨模态大模型、多轮对话、强化学习等多技术的融合创新,而国内大部分科技企业、科研院所多聚焦垂直应用,缺乏多技术融合创新能力。从落地应用来看,国内头部企业均表示 已开展相关技术研发或部分模型进入内测阶段,但仍未出现与 ChatGPT抗衡的大模型产品。加之大模型的训练成本较高,技术应用面临着亿元级研发投入和海量训练试错,国内企业投入严重不足,研发推广和产业落地整体落后于海外。

第二个挑战是数据。训练大模型需要数据,这些数据的来源在哪里?数据要求高质量,还要合理合法。而且这个量级的数据,不仅要有极高复杂度ETL(Extract-Transform[1]Load,数据仓库技术),还需要配备大量算力,最后还要考虑将大模型部署到线上保证性能。

以OpenAI的ChatGPT为例,GPT-1使用了约7000本书籍训练语言模型;GPT-2收集了Reddit平台(功能类似于国内的 百度贴吧)800多万个文档的40GB文本数据;GPT-3使用维基 百科等众多资料库的高质量文本数据,数据量达到45TB,是GPT-2的1150倍。

GPT-3模型训练需要的语料75%是英文,3%是中文,还有一些西班牙文、法文、德文等语料集,这些学习语料可通过公开数据(如维基百科、百度百科、微博、知乎等)、开源数据集、网页爬取(训练GPT-3爬取了31亿个网页,约3000亿词)、私有数据集(如OpenAI的WebText数据集,收集了Reddit平台上的800万篇高赞文章,约150亿词)等方式获取。这些语料中,英文语料公开数据更多、质量更高。中文开源高质量数据少,特别是构建通用领域大模型的百科类、问答类、图书文献、学术论文、报纸杂志等高质量中文内容。同时,国内专业数据服务还处于起步阶段,可用于人工智能模型训练的经过加工、清洗、标注的高质量数据集相对匮乏。缺少高质量训练数据已成为国内大模型训练的核心痛点。

第三个挑战是应用场景,即训练出来的大模型在哪里能用得上。这一点,大厂的核心优势是自带场景。例如,百度会把问答和搜索集成,就像New Bing一样,在搜索问题后会直接给出答案结果,而不是像Google搜索那样给出一系列链接列表。还有微信的场景——它是自然语言驱动的、整个中国互联网大模型落地的最佳场景;微信会植入一个类似个人助理的AI,用户提问、订机票、点外卖都可以完成。阿里已经宣布了第一批集成大模型的产品天猫精灵和钉钉。字节的飞书也是类似。华为To B落地场景为了服务云计算,To C的落地场景主要是华为手机。

相比较而言,小厂缺场景,尤其是创业公司的痛苦就在于此,没有落地场景你的技术就没法迭代,没法持续优化形成数据网络效应。

第四个挑战是高精尖人才团队不足。GPT的成功是庞大顶尖人才团队集思广益和共同努力的结果。OpenAI的绝大多数成员都拥有斯坦福大学、麻省理工学院等世界顶尖名校教育背景,以及谷歌、苹果、英特尔等世界顶尖科技企业工作经历。这为GPT模型能持续迭代直至成功,奠定了重要的人才基础。

但很明显,“我国的大模型人才总量是稀缺的。”中国科学技术信息研究所所长赵志耘指出,“这个领域的门槛比较高,需要高素质AI人才,目前国内各地的人才数量都不充足。”

第五个挑战是研发力量的相对分散。人工智能大模型具有长周期、重投入、高风险等特点。国内企业、高校在“大模 型”“大数据”“大算力”等方面各有侧重,研发力量分散,资源缺乏整合,没有与OpenAI技术实力对标的企业。

最后一个挑战则是资金投入不足,企业受盈利压力很难长期维持高投入。政府项目的支持力度与所需投入相比仍显乏力,决策周期长。

人工智能大模型具有重要的战略意义,是未来科技竞争的制高点,也是重要的智能基础设施。需从战略高度重视 ChatGPT引发的新一轮人工智能革命,从算法、算力、数据等方面加快布局和突破,构建包容创新的监管环境,积极应对新一轮人工智能科技竞争。■                                                                                               
读者评论
MORE +

热门排行榜
OR
+
ai Chat GPT中国大模型发展面临六大挑战
2023-06-22 21:47
科技

中国大模型发展面临六大挑战

国内的人工智能大模型已具备一定基础;大模型正引发新一轮智能革命浪潮。
李瑞祥

■随着ChatGPT问世,全球掀起AI巨浪,就连中国也不例外,各式各样的大模型发布会一波接着一波,让人应接不暇。 最近两个月,中国企业陆续发布的大模型已经超过10个。百度 抢先发布文心一言,成为第一个吃螃蟹的人,阿里巴巴、京东等互联网大厂,华为、商汤科技、昆仑万维等科技公司也纷纷推出自家大模型,之后是内容平台知乎发布了“知海图AI”,科大讯飞发布了星火大模型。

目前,国内的人工智能大模型已具备一定基础。6月9日智源研究院发布了全面开源的悟道3.0,这是被微软总裁Brad Smith点名过的机构。他在最近的一次采访中提到,“目前,国际上有三家机构在AI领域处在前沿地位,微软的深度合作伙伴OpenAI,谷歌,以及BAAI,”BAAI即智源研究院。从技术能力来看,复旦大学MOSS系统负责人邱锡鹏表示,包括谷歌在内的模型距离OpenAI的GPT4仍存在很大的差距。

除此之外,最值得关注的产品还有,一是百度自主研发的文心大模型,参数规模达2600亿,已在能源、金融、制造等领域发布了11个行业大模型;二是阿里达摩院推出10万亿参数的多模态M6大模型;三是华为与鹏城实验室合作开发的盘古大模型,是首个全开源2000亿参数中文预训练语言模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。

看好未来发展,创业者们摩拳擦掌。美团联合创始人王慧文振臂一呼,直接“all in”;搜狗创始人王小川创立百川智能,旨在打造中国版OpenAI;创新工场董事长兼CEO李开复也在朋友圈发文表示,他正在亲自筹组Project AI 2.0,一个致力打造 AI 2.0全新平台和 AI-first 生产力应用的全球化公司。

AI大模型群雄逐鹿,正如阿里巴巴CEO张勇所说,“面对AI时代,所有产品都值得用大模型重做一次。”

大模型正引发新一轮智能革命浪潮。这就意味着以 大模型+RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)为核心的技术落地,意味着人工智能开启AI新范式。当前,已进入以AGI(通用人工 智能)为发展目标的全新通用智能时代。伴随着AI技术升级和大模型成熟,生成式AI应用场景正在加速落地。

比如,在泛交通领域,人工智能能够在自动驾驶、智能座舱、运行管理优化等多个方面为汽车行业创造价值;在医疗方面,人工智能可提高疾病检测的效率以及医学影像领域的智能分析。

通过数据交互和任务反馈,大模型的应用边界得到不断拓宽,大模型能够向外赋能,包括通过API(应用程序接口)的形式,降低AI应用开发门槛,提高落地部署的效率和精度等,进而降低AI规模化部署的成本,满足各行业场景的应用需求。

然而,国内大模型的发展,仍面临着六个方面的挑战。

第一个挑战是算力。这是大模型最终能运行起来的关键,尤其对训练算力的需求将是一个巨大的挑战。当下,主流市场上多采用英伟达的A100和H100作为训练算力的相关设备,因此衡量算力大小的指标是英伟达A100芯片的张数。根据OpenAI 关于ChatGPT的公开数据显示,它的整个训练算力消耗,在考虑互联损失的情况下,需要一万张A100作为算力基础。

去年8月,美国发布政策,禁止英伟达将A100、H100两款 AI芯片售往中国。为了绕过封锁,英伟达对这两款芯片进行了降频和封锁部分传输通路的处理,最终两款阉割版的H800和 A800芯片被单独出口到中国。这两款芯片的功力只有原版的六成左右。

当前,国内企业使用综合性能只有6至7成的简配版芯片来部署大模型,意味着需要为相应的模型配备超过20%-30%的芯片和服务器,才能达到美国企业水平。要命的是,受限于产能,如今阉割版的芯片也很快进入了有价无市的状态。

百度、阿里巴巴和华为都已经在各自的大模型基础层部署了自家研发的GPU或者AI芯片。百度的昆仑芯片,已经有英伟达A100超过8成的能力;阿里的含光800专用AI芯片,2019年就已经出世,而且在阿里自身架构基础上,这颗芯片能超过英伟达同期GPU芯片4颗并行的水平;而华为AI芯片昇腾910已经做到接近A100水平,下半年要发布的920业内普遍预计会超过A100。

更关键的是,这些大平台的芯片都与其系统和技术深度捆绑,可以发挥100%的性能,这是最适合它们建设大模型的基础。

即便如此,核心挑战在于算法和数据能否真 正产生智能。从技术能力来看,复旦大学MOSS 系统负责人邱锡鹏表示,包括谷歌在内的模型距离OpenAI的 GPT4仍存在很大的差距。AI算法科学家杨志明则认为,国内大模型与OpenAI之间大约存在1-2代的代差,涉及整个模型层的技术、学习的知识和能力等方面的差距。ChatGPT背后是文本/跨模态大模型、多轮对话、强化学习等多技术的融合创新,而国内大部分科技企业、科研院所多聚焦垂直应用,缺乏多技术融合创新能力。从落地应用来看,国内头部企业均表示 已开展相关技术研发或部分模型进入内测阶段,但仍未出现与 ChatGPT抗衡的大模型产品。加之大模型的训练成本较高,技术应用面临着亿元级研发投入和海量训练试错,国内企业投入严重不足,研发推广和产业落地整体落后于海外。

第二个挑战是数据。训练大模型需要数据,这些数据的来源在哪里?数据要求高质量,还要合理合法。而且这个量级的数据,不仅要有极高复杂度ETL(Extract-Transform[1]Load,数据仓库技术),还需要配备大量算力,最后还要考虑将大模型部署到线上保证性能。

以OpenAI的ChatGPT为例,GPT-1使用了约7000本书籍训练语言模型;GPT-2收集了Reddit平台(功能类似于国内的 百度贴吧)800多万个文档的40GB文本数据;GPT-3使用维基 百科等众多资料库的高质量文本数据,数据量达到45TB,是GPT-2的1150倍。

GPT-3模型训练需要的语料75%是英文,3%是中文,还有一些西班牙文、法文、德文等语料集,这些学习语料可通过公开数据(如维基百科、百度百科、微博、知乎等)、开源数据集、网页爬取(训练GPT-3爬取了31亿个网页,约3000亿词)、私有数据集(如OpenAI的WebText数据集,收集了Reddit平台上的800万篇高赞文章,约150亿词)等方式获取。这些语料中,英文语料公开数据更多、质量更高。中文开源高质量数据少,特别是构建通用领域大模型的百科类、问答类、图书文献、学术论文、报纸杂志等高质量中文内容。同时,国内专业数据服务还处于起步阶段,可用于人工智能模型训练的经过加工、清洗、标注的高质量数据集相对匮乏。缺少高质量训练数据已成为国内大模型训练的核心痛点。

第三个挑战是应用场景,即训练出来的大模型在哪里能用得上。这一点,大厂的核心优势是自带场景。例如,百度会把问答和搜索集成,就像New Bing一样,在搜索问题后会直接给出答案结果,而不是像Google搜索那样给出一系列链接列表。还有微信的场景——它是自然语言驱动的、整个中国互联网大模型落地的最佳场景;微信会植入一个类似个人助理的AI,用户提问、订机票、点外卖都可以完成。阿里已经宣布了第一批集成大模型的产品天猫精灵和钉钉。字节的飞书也是类似。华为To B落地场景为了服务云计算,To C的落地场景主要是华为手机。

相比较而言,小厂缺场景,尤其是创业公司的痛苦就在于此,没有落地场景你的技术就没法迭代,没法持续优化形成数据网络效应。

第四个挑战是高精尖人才团队不足。GPT的成功是庞大顶尖人才团队集思广益和共同努力的结果。OpenAI的绝大多数成员都拥有斯坦福大学、麻省理工学院等世界顶尖名校教育背景,以及谷歌、苹果、英特尔等世界顶尖科技企业工作经历。这为GPT模型能持续迭代直至成功,奠定了重要的人才基础。

但很明显,“我国的大模型人才总量是稀缺的。”中国科学技术信息研究所所长赵志耘指出,“这个领域的门槛比较高,需要高素质AI人才,目前国内各地的人才数量都不充足。”

第五个挑战是研发力量的相对分散。人工智能大模型具有长周期、重投入、高风险等特点。国内企业、高校在“大模 型”“大数据”“大算力”等方面各有侧重,研发力量分散,资源缺乏整合,没有与OpenAI技术实力对标的企业。

最后一个挑战则是资金投入不足,企业受盈利压力很难长期维持高投入。政府项目的支持力度与所需投入相比仍显乏力,决策周期长。

人工智能大模型具有重要的战略意义,是未来科技竞争的制高点,也是重要的智能基础设施。需从战略高度重视 ChatGPT引发的新一轮人工智能革命,从算法、算力、数据等方面加快布局和突破,构建包容创新的监管环境,积极应对新一轮人工智能科技竞争。■                                                                                               
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......