中国大模型优势是人才和市场，暂时不会出现倒闭潮丨亮见26期|全球时讯

来源：刘兴亮时间：2023-04-23 18:13:25

丨划重点

【资料图】

1. 大模型火爆是因为在开放领域任务上超预期的表现，尤其是具备理解能力，可以将其称之为「智能涌现」。

2. 基础大模型的训练是基于公开、经过整理的可信内容，而下游任务（比方说对话任务）则需要对特定的数据进行人工标记。

3. 头部大厂和资深从业者纷纷下场创业，人才与市场将是中国大模型的优势。

4. 大模型扎堆有助于人才培养，暂时还是小规模试验，不会出现并购、倒闭潮。

5. 大型模型是一个产品和工具，提供方应该承担责任，停止所有AI或大模型产品开发不太可能。

丨概述

过去一个季度，GPT-3.5和GPT-4持续的在全网刷屏，成功将OpenAI推上科技创新风口，也间接带火了大语言模型创业浪潮。

在硅谷，微软率先在产品中接入ChatGPT，谷歌也推出了自己的Bard模型；在中国内地，百度、阿里巴巴们先后推出了文心一言、通义千问，王小川、王慧文等资深互联网从业者，先后投身到大模型创业当中。

然而，大模型在刷新人们对人工智能能力认知上限的同时，也因为在伦理、道德等方面存在的问题而引发争议，也因此马斯克等知名从业者发起了联名信，呼吁暂停GPT-4以上大模型6个月的研发时间，从而引发行业大讨论。

4月19日20:00，《亮见》联合腾讯科技，特邀清华大学国强教授、智能产业研究院首席研究员聂再清博士，为公众梳理人工智能发展过程中的问题与挑战以及创业机会。

以下是直播文字精华版：

训练数据爆发让大模型「智能涌现」

刘兴亮：能否简要介绍大模型是什么，能做些什么？

聂再清： 大模型即大规模预训练模型，是使用海量数据进行预训练的深度学习模型，这些模型一般具有大量参数，可以理解为人类知识和语言的压缩器。

大模型的应用场景丰富，对于英文水平不够好的人，英语翻译就是最有用的场景。众所周知，许多国际期刊要求论文用英语写作，这给中国研究人员带来了不利因素。然而，通过ChatGPT这类产品，可以很好的帮助作者提高英语论文的流利度，当然还有许多人使用它来辅助准备演讲稿、总结，甚至创作诗歌等等。

大模型也具备将搜索结果和其他信息结合在一起的能力，不过不能保证每一条结果都是正确的，但大部分通过搜索结果总结出的内容是可信的。

和过去相比，搜索引擎提供了查找信息的能力，大模型为我们提供了更广阔的想象空间。当越来越多的第三方厂商加入这个领域时，它们可以在我们的日常生活中提供更多的便利的插件，这也是当初我们开发智能助手时的愿景，希望它能成为新的交互入口。

刘兴亮：现在大模型非常的火爆，主要原因是什么，它是如何发展到现在的？

聂再清： 大模型火爆主要是因为在开放领域任务上的表现，让人出乎意料，具备理解能力，我称之为智能涌现，其能力的提升则是通过增加数据量的同时，扩大模型参数规模来实现的。通过模型规模扩大带来了能力的提升，也带来了不同阶段的下游任务学习范式

它的发展历程主要分为三个阶段：

第一阶段（预训练+Fine-tuning） ：2018年左右这个领域开始被广泛关注，预训练模型不是非常大。在下游机器学习的自然语言任务上，通过使用一些训练数据，可以显著提高任务处理能力。

第二阶段（预训练+Prompt-tuning） ，2019年后，GPT-2和GPT-3这些模型陆续亮相，这些模型具有提示学习的能力，可以在只给定几个示例的情况下预测完成下游文本任务。

第三阶段（预训练+Instruction-tuning） ，2022年后，出现了被称为Instruction Learning的学习范式，可以通过在前n个任务上进行学习，提升在第n+1个任务上进行预测的性能，主要优点是让模型更加通用和开放，可以应用于更广泛的任务和场景。

刘兴亮：大模型的数据是从哪里来，使用权限如何界定，有哪些手段来保障数据的安全，尤其是生物医药的数据安全又怎么样去保障？

聂再清： 在基础大模型训练阶段主要使用公共数据，包括我们的BioMedGPT也是基于公开数据构建的。

语言模型更多地使用百科全书、新闻、电子书等由人类撰写的、更为真实的文本，这些经过整理的、真实的、具备人类智慧的文本被输入到这个模型中，让它学会更多的知识。

在利用大模型解决下游任务阶段，可能需要标注更多的任务相关数据，需要花费一定的费用。

比如GPT3发布初期，业界可能没有感到惊艳，直到有了切实的对话大模型（ChatGPT），让用户标注对话数据以完成不同领域的对话任务，才让每个人感到惊奇，而这种能力是通过用户对话数据标注和强化学习来获得的。

除了标注，还有一部分数据是用户反馈的，这些数据可以帮助提高系统能力，也很有价值的。

还有一部分数据来自模型的客户或个人用户的私有数据，客户可能会提供大量数据用于回答问题，但这部分数据应该属于客户或用户私有，不用用来训练公共使用的大模型。需要注意保护客户和个人用户的隐私。

因此，需要区分不同类型的数据，并授权相应的权限，有些数据只能由用户处理，有些数据可供平台公司使用，但隐私数据绝对不能使用。

人才与市场将是中国大模型的优势

刘兴亮：头部大厂、知名人士纷纷下场做大模型创业，他们各自都有哪些长处和短处？

聂再清： 我认为大模型应用可分为三类，对应着不同类型的团队。

第一类是提供云服务的大厂，他们需要在其基础设施上提供高质量的大型模型服务。未来是大模型的时代，没有这样的服务，就会失去竞争力。好处在于，大厂通常建立了成熟的生态系统，拥有丰富的计算资源，可以相对容易地进行大模型投资。

第二类是创业公司，比较灵活，没有大厂的包袱，决策速度快，但是他们需要长期投入大量的计算资源和精力，来开发大模型的相关业务，而投资人需要有足够的耐心和信心等待收益，这可能是个劣势。

第三类是传统业务厂商，已有成熟的业务和稳定的客户，只需要通过接入大型模型，来更新他们的服务能力，以更好地服务客户并增加收入，缺点是这类企业可能没有足够的人工智能技术人才和计算资源，用以投入到新技术开发中。

刘兴亮：中国在大模型业务上，有哪些优势，又有哪些难点？

聂再清： 优势有很多。首先是人才，特别是计算机领域，相关人才的数学、计算机技能普遍很好，尤其是人工智能领域，人才更是不缺。此外，有广阔的市场和需求。

劣势在于，ChatGPT并非出自中国，部分资料并不掌握，需要花更多时间去探索和研究。此外，是否会有一些投资机构或资源方愿意长期地投入大量资源到创新领域，尤其在短期内看不到商业效益也愿意持续大额投入？

没有几个国家的投资机构能够将大量的资金投入到短期看起来毫无商业价值的无用研究中，然而这些看似无用的研究，往往是非常关键的基础创新技术的来源。

刘兴亮: 当前大模型的形式主要还是聊天机器人，这并不新鲜，为什么今天的产品会让大家这么吃惊？

聂再清： 对话引擎，从传统的角度来看，它可以被分为两类。

第一类是开放式的闲聊，用户可以随意交流，用户说一句话，机器人回答一句话，这种对话对（QA pair）数据可以从积累的海量对话数据库中获取，也可以AI自动生成，机器回复通常信息量比较少，这样可减少回复错误（言多必失）。

另一种是任务型对话，也称为任务完成型对话，这种对话是为了完成特定的任务，例如用户要听一首歌曲，需要先了解用户想要听的歌曲参数，例如歌曲名和歌手名，将这些信息连接到知识图谱上，以便系统能够获取歌曲的ID，其次是进行个性化推荐，让用户继续享受这个体验。

现在随着ChatGPT的出现，开放域任务也能够实现很高的理解精度，这是非常令人兴奋的。

不过智能助手业务公司在封闭域任务完成和开放域之间，也应尝试做一些平衡，由于早期GPT的理解能力还有限，作为厂商也需要保证每句话都是正确的，不能伤害用户。如果GPT因为不能很好的理解而出现错误，修复这类问题需要大量的投入。

大模型创业潮推动数字化转型

刘兴亮：目前大模型扎堆，会不会存在资源浪费的问题，是否会重现团购、共享单车这样的并购、倒闭潮？

大厂大模型进展，图源：晚点LatePost

聂再清： 在开始阶段时，大模型惊艳的能力对人们造成的冲击太大，大家不可避免地都想去试一试，我认为这没有问题。这样做的好处在于，可以培养更多的人才。如果不这样做，大家都没有经验，也就不会训练出一批人才。然而，总是会有资本没有耐心等的，未来一定会进行动态调整。

假设，有60家公司都做通用大模型，那么后面40家公司就会有人融不到资，部分人就会加入到一个头部，使头部的资源更加强大。但是，目前阶段还不会有太大浪费的问题，最终（新产业）培养出的人才和经验，将集中在头部公司。现阶段并购潮不太可能，早期应该大部分公司现在还只是小规模试验而已。

刘兴亮：从应用的层面来看，未来大模型会在哪些业带来重大改变，有哪些创业机会，对创业者有什么建议？

聂再清： 我认为创业有很多机会。

其中一类机会是基于大模型的应用。每个行业都可以借助大模型来实现数字化，实现业务的最佳效果，但不是所有企业都有资源投入大模型研发，需要产业相关的大模型技术服务公司来帮助这些企业加入到大模型浪潮。

另外一类机会是在垂直行业中推出大模型的公司，这些行业只有具备了解特定数据和业务，才需要打造行业内部的垂直大模型。例如，生命科学领域就有很多这样的任务，因为它拥有许多细分数据，这些数据又需要具备行业知识。

第三类机会是基于大模型开发新产品、插件，这可能涉及硬件和传统软件等等，这种产品将提供全新的用户体验。

总之，大型模型将会带来很多机会，核心则是利用其推动数字化转型。

刘兴亮：普通人在这样的背景下能做什么？

聂再清： 普通用户，需要尽快掌握大模型产品、工具的使用，比如英文写作，利用其提高工作效率。

风险在于隐私安全，大模型应当担责

刘兴亮：大模型产品落地过程中，出现了众多负面讨论，马斯克也呼吁暂停开发，人们的担忧可能是什么？

聂再清： 我认为这种技术可能存在以下几种潜在的风险。

一种风险是有可能对社会或用户构成一定程度的干扰。因为即使技术非常强大，但也不能保证每句话都是正确的，潜在的风险就是可能会刺激到一些精神比较脆弱的用户，或者会挑起种族矛盾，甚至会存在机密信息泄露等国家安全方面的风险。

另一个可能的风险是用户隐私、客户数据的泄露，这些平台是否能够采取措施，来防止这种情况发生，是否都已经做好了必要的检查，这是需要回答的问题。

另外，这种技术可能会对教育产生重大影响，特别是对孩子的教育，因为这项技术可以提供大量知识，未来的教育如何利用好大模型？有了大模型我们的知识教育方式是否需要调整？如果没有认真思考过这些问题，可能会对下一代的教育造成负面影响。

当然，我认为现阶段还没必要过度担忧，大模型技术总体来看还是安全可控的。

刘兴亮：大模型在不断进化过程中，会出现很多事实性错误，如果用户过度依赖而造成负面影响，谁来担责任，应如何治理？

聂再清： 大型模型是一个产品和工具，而只要是产品和工具，提供方应该承担责任。当然，也需要监管部门帮助建立、完善创新机制和环境，既要鼓励积极的创新，又要限制有害创新，尤其是对于大模型，安全和可控是前提条件。

刘兴亮：可能什么样的情况下，人类会暂停AI产品开发？

聂再清： 我认为停止所有AI或大模型产品的开发是不太可能的，但如果这些技术或产品对客户/用户造成了伤害或风险，监管部门可以要求停止使用具体的某项技术或产品，并进行检查和整改。必须通过流程和机制，确保每一个产品都是安全的。

刘兴亮：在特定领域，比如生物医药大模型，有没有可能受商业利益驱使推荐药品，这种情况可能会出现吗？

聂再清： 对于我们的生物医药大模型BioMedGPT，核心是帮助设计新药，而不是现有药品销售。当然，未来有有可能向医生提供药品推荐的服务，但最终要由医生做决策。

此外，大模型可以向医生提供疾病的病因和治疗建议，提供相应的数据参考，进而辅助医疗效率提升，在这方面的应用空间也很大。

关键词：

上一条：澳煤对华出口大幅增加，澳洲龙虾是下一个？下一条：最后一页