科技巨头争相布局 AI大模型产业将往何处走？
+ 查看更多

ChatGPT引起了广大用户对ChatGPT相关技术的关注与学习；海量下游应用也因此捕捉到新的技术与产业机会。

李瑞祥

■去年11月30日，ChatGPT这一现象级产品的横空出世拉开了大语言模型产业和生成式AI（AIGC）产业蓬勃发展的序幕。海外市场，OpenAI、微软、谷歌、Meta等巨头动作频频。中国市场也百花齐放：百度、阿里、华为、腾讯、360、商汤、京东、科大讯飞、字节跳动等巨头厂商结合自身业务及战略布局，陆续宣布研发或已发布大语言模型产品。

当前，AIGC已经成为最热门的科技趋势。根据投资机构a16z统计，全球范围内，图像生成、文案写作和代码编写三类AIGC产品年营收已超过1亿美元，IDC预计中国AI市场规模将以24.4%的CAGR增长，有望在2025年超过184.3亿美元（约1263亿元人民币）。咨询机构Acumen Research and Consulting预测，2030年AIGC全球市场规模将达到1100亿美元；量子位智库预计2030年，中国AIGC市场规模将达到万亿级别。于是，投资机构纷纷把AIGC作为年度主题词，AIGC产业已成为万众瞩目的新蓝海。

ChatGPT大模型和AIGC产业火热的背后，是近二十多年来当代人工智能技术不断精进和迭代优化的发展历程，其中标志性事件是2016年3月AlphaGo以4:1的成绩打败当时世界顶级围棋选手李世石。2018年，基于AlphaGo的AlphaFold开始应用在蛋白质结构解析领域，到2022年完成了98.5%的人类蛋白质结构、100万个物种的2.14亿个蛋白质结构预测，这一成果是颠覆性的，将人工智能技术快速引向了“技术爆炸”的燃点。

与AlphaGo的侧重点不同，OpenAI主攻的是自然语言训练模型，自然语言训练的难点来自人类的语言本身并不是客观的，而是根据情景、文化和人类认知局限高度变化的，这与视觉识别等其他人工智能和机器学习领域能够依赖相对客观的参照标准形成很大的反差。自然语言识别的成功训练，需要人工智能能够学会人类的思维方式和表达方式。

然而，OpenAI的ChatGPT解决自然语言技术难点的方法，并没有展现出突破性的新意，而是在思路上沿袭了目前已经相当成熟的强化学习和神经网络框架，通过语言语料的处理和堆积让算法识别出语言的规律。ChatGPT背后的GPT3模型依赖于其通过互联网和书籍文本汇总所生成的1750亿个参数，这使得ChatGPT从本质上更多的是基于现有机器学习算法的算力挑战，而不是真正意义上的重大技术突破。

但这并不妨碍ChatGPT的成功。和iPhone带来的变革一样，它也不是底层技术突破的结果，而是“技术迭优”的结果，把原有技术迭代优化到一定程度，成本够低，体验够好，进而引发一系列大规模商用。ChatGPT虽然底层技术没有突破，但一系列“技术迭优”后，ChatGPT开始具备了撬动社会大规模商用的趋势。

当前已经可以看到，ChatGPT在搜索引擎与各类工具软件中率先掀起应用热潮，ChatGPT Plugins则触发了数字产业生态建设开关。以ChatGPT为代表的生成式AI让每个人命令计算机解决问题成为了可能，它可对生产工具、对话引擎、个人助理等各类应用，起到协助人、服务人甚至超越人的角色。凭借此革命性突破，ChatGPT引起了广大用户对ChatGPT相关技术的关注与学习。海量下游应用也因此捕捉到新的技术与产业机会，希望通过各类大模型与工程化能力，将类ChatGPT产品能力输送到原有的应用中，关于应用革命的序幕就此拉开。因此，ChatGPT被称为AI的“iPhone时刻”。

众多厂商自然不会错过这个良机。在国内，包括阿里、腾讯、百度、华为等巨头，以及商汤、知乎、王小川创业公司百川智能、昆仑万维等先后公布在大模型领域的进展。但基于通用基础大语言模型（LLMs）研发所需的算力、数据、算法、人才、资金储备等，中国仅有少数头部互联网企业具备研发“入场券”，宣布入局的头部企业基于自身业务生态选择的战略路线也不尽相同。

阿里旗下全线业务，包括钉钉、天猫、高德地图、菜鸟、飞猪、天猫精灵等等，都将接入“通义千问”进行全面升级，借助多项生态入口打造覆盖“衣食住行工”的全域智能生态场景已披露三大场景：智能居家、智能办公、智能购物。百度已经在其发布会上展示了“文心一言”在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力，“文心千帆”产品剑指B端市场，意图带动云服务营收。华为的盘古系列AI大模型包括NLP大模型、CV大模型以及科学计算大模型，是基于华为海思处理器所开发的AI应用。腾讯的“混元”系列AI大模型也是覆盖NLP、CV、多模态等基础大模型以及众多行业领域大模型。

对比来看，ChatGPT具有明显优势。与其功能对标的大语言模型，目前国外主要有Google推出的Gopher、LaMDA以及Meta的Llama等；国内是百度的“文心一言”、360发布的大语言模型、阿里发布的“通义千问”、商汤发布的“日日新”等。从对话和文本生成的直观体验看，ChatGPT略胜一筹，但对于Google等国外大厂而言，克隆ChatGPT并不存在太高壁垒，当前暂时落后主要是出于公司战略与技术理念差异，选择了不同技术路线，随着各家探索成果和新技术方法实践的不断推进，仍存在对GPT系列模型赶超的可能。百度、阿里等国内大厂则在数据、算力、工程化能力等关键要素上存在短板，短期内难以对国外领先大模型实现赶超，当前是跟随者角色，长期更需要国内AI全产业链整体进化。

不能忽视的是，ChatGPT等大模型落地应用已经对数字产业带来了的重要的影响。首先是变革人机交互方式，既有的软件将接入对话能力，交互界面发生变革，自然语言成为用户发布操作指令的新模态。这一影响将从搜索引擎等知识信息平台拓展到一切人机交互型应用。友好度和功能性的显著提升，将激活软件服务的增量用户市场；其次是丰富产品种类，将诞生新一批AI-first的应用，如创意设计、AI营销、AI运营等领域；再次，塑造新兴商业模式，AI主导的“模型即服务”商业逻辑将重构应用开发流程，传统企业可享受低成本构建应用模型的便利；最后，构建新兴生态平台，超级应用的出现，本质上搭建了用户需求与各类信息服务之间的基于自然语言交互的平台生态，塑造了移动互联网后新的流量入口。

商业模式上，ChatGPT已经为行业明确了三种营收方式，分别是API、订阅制和战略合作（嵌入微软Bing、Office等软件）。在C端生态上，ChatGPT一方面通过“引进来”的方式，兼收上游插件增强多种应用能力，打造“超级应用”吸纳用户；另一方面“走出去”，通过革新软件交互方式将用户收入囊中，从而实现完整的C端生态布局。在B端生态上，OpenAI通过合作微软Azure，间接实现“模型即服务”，又通过直接提供大模型API能力调用，服务小B开发者，勾勒B端生态雏形。

但是，ChatGPT的发展也有局限性，很明显的一点是，ChatGPT问答的方式意味着它不能自主发现问题，那么由其主导的“创新”和“决策”也将无从谈起，从而对现有商业和经济活动中的创新和决策就很难真正发挥效用。与搜索引擎侧重信息的全面和准确性不同，自然语言模型的处理侧重的是语言逻辑上的顺畅表达，当用ChatGPT这种生成式人工智能去进行复杂决策中的信息搜索和整合，其实就是将信息的筛选和权衡交给了算法，势必会存在认知上的偏差，依此进行的创新和决策会是十分危险的。

在中国，一方面，以百度、阿里和华为等头部厂商正深耕通用基础大模型研发，根据自身产业生态进行布局，打造垂直基础大模型，触达应用场景落地。另一方面，具有模型自研能力的肩部厂商，基于开源模型或海量数据，致力打造垂直基础大模型，建立垂直行业的平衡生态。

中国大语言模型产业，已经分化出通用基础大模型、垂直基础大模型、应用开发和工具层厂商四大类。它的发展注定是一场重投入的持久战，将面临美国芯片禁令下高端AI算力资源不足，算力资金投入上还需支撑智算集群的训练与运营成本。相比OpenAI，中国企业不仅在AI算力层面差距巨大，在AI算法和底层框架等层面也存在代际差距。它们还将面临互联网中文高质量数据资源小于英文（差距20-30倍）的挑战，需要高质量的数据清洗和把know-how数据转化为Q&A的能力，也需要大量具有专业能力的工程师人才。

不仅如此，ChatGPT等大模型还面临其他风险，比如隐私问题，用户聊天记录和个人信息泄露；版权问题，包括 Stability AI 在内的公司正面临来自艺术家和版权所有者的诉讼，他们反对未经许可使用他们的作品来训练AI模型；能源消耗问题，人工智能模型需要强大GPU处理器进行数据计算。

每一次技术革命都会带来巨大的机遇，同样也有风险伴随。全球酝酿监管措施，多国监管部门密切关注AIGC产业数据安全问题。在ChatGPT被接连发现意外泄露用户聊天记录后，意大利数据保护局于3月31日宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。英国数据保护机构发布了使用生成式人工智能的8个问题，美国商务部在4月11日就相关问责措施正式公开征求意见，包括人工智能模型在发布前是否应经过认证程序。4月11日，中国国家互联网信息办公室发布《生成式人工智能服务管理办法（征求意见稿）》，从生成式人工智能服务商的准入，到算法设计、训练数据选择、模型和内容，以及用户实名和个人隐私、商业秘密等方面提出了相关要求。对于生成式人工智能而言，只有建立起真实的用户调用和模型迭代之间的飞轮，AI模型才能变得越来越聪明，而如何在政策监管和技术发展之间找到平衡也考验着各方。

高效的人工智能算法作为生产力工具，不会替代人类的智慧，而是会释放人类的潜能，让知识工作者从烦琐冗余的细节处理中解脱出来，聚焦于更高层次的知识创造和战略决策，这样看来以ChatGPT为代表的生成式人工智能还有很远的路要走。

本文来自彭博■