“超强阵容”献计，国产大模型如何突围？-资讯网

“一个国产大模型要如何才能成为市场主流？需要跨越哪些关键的挑战？”11月16日下午，在由科技部、深圳市人民政府共同主办的“2023西丽湖论坛”平行分论坛，一场以“AI大模型的开源创新与赋能应用”为主题的高峰对话正在进行，清华大学计算机系陈文广教授向百川智能创始人兼CEO王小川提出了一个所有大模型创业者都十分关心的问题，也引发了与会嘉宾的热议。

今年以来，人工智能大模型掀起了澎湃的科技创新与创业浪潮，许多科技巨头与创业公司都在研发自身的大模型，形成了“百模大战”的局面。在高峰对话当中，来自政府、企业、高校的领军人物围绕国产大模型的突围之道，进行了热烈的讨论。

除了目前市场普遍关心关注的可靠算力问题，记者梳理与会嘉宾的观点发现，国产大模型要在全球竞争当中实现突围，有三个重要的关键词:优质数据、繁荣生态、产研合作。

中国外文局副局长高岸明表示，根据研究，目前在国际信息流当中，英文的内容占到60%，而中文的信息流只占到大约2%，不仅远远低于英文，而且也低于很多非通用语种，高质量中文语料的缺失为国内大模型的训练带来挑战。“我们需要有海量、精准、可靠的中文语料数据来训练我们的大模型。”高岸明表示。

作为大模型创业公司中的佼佼者，百川智能发布的Baichuan-7B/13B两款开源大模型累计下载量已超过600万次。其背后的成功原因，离不开王小川“搜索”出身带来的数据优势。记者注意到，在ChatGPT推出不久之后，王小川就曾公开指出，搜狗输入法和搜狗搜索的数据制备和产品形态与ChatGPT接近，都是把互联网上的全部语言数据收集、清洗，压缩成数据并构建超级产品。

“我可以很自豪地说，在开源大模型里面，百川智能的水平在中文方面已经超越了LLaMA。”王小川说。目前，Meta公司的开源大模型ChatLLaMA是国际上最为主流的开源大模型之一。王小川表示，百川智能采用的是搜狗从搜索引擎时代开始就积累的万亿级数据，在其中选取最优质的数据，从而取得了良好的训练效果。

当前，国内外竞逐大模型都采取开源和闭源两条腿并行的模式。开源即开放源代码，允许开发者查看、修改和分发开源代码；而闭源则与之对应，用户只能对产品有使用的权利,没有修改的权利。业内普遍认为，闭源契合知识产权保护，顺应投资与获取利润的逻辑，而开源则有助于技术的快速迭代与创新，形成繁荣的生态。

“两种技术路线有各自的逻辑，不能简单判断哪一种更好，但是我认为事物的发展必须要有多样性。在大模型研发的生态环境中，既会有开源的做法，也会有闭源的做法。”中国工程院院士、鹏城实验室主任高文说。他进一步表示，鹏城实验室与百川智能在开源大模型方面开展了密切合作，并将模型提供给全社会使用，从而助力打造更加活跃与繁荣的生态。

大模型时代中，产研合作的作用变得更为突出。由于大模型研发需要投入巨额的算力，目前该领域的创新主要来自于资金实力更为雄厚的企业。北京邮电大学人工智能学院教授何召峰曾公开表示，在大模型领域，高校不太可能与大企业竞争，但二者之间有广阔的合作空间，紧密的产研合作能助力国产大模型实现更快的发展，二者应结合各自优势，进行针对性的合作。

据了解，鹏城实验室与百川智能合作研发了“鹏城-百川·脑海33B”长窗口大模型。这一大模型也在此次高峰对话后正式发布。据介绍，该大模型是国产算力平台的最长上下文窗口模型，实现了段落、句子粒度的自动化数据过滤、选择和配比，能支持128K的上下文窗口长度，即一次可容纳相当于300多页文本内容的提示词，后续还将升级至192K。值得注意的是，不久前ChatGPT发布了最新迭代版的GPT-4 Turbo产品，其中的一个变化便是上下文窗口长度由32K扩展至128K。

“在去年ChatGPT发布后，国内整体处于比较焦虑的状态，如今已经比年初好很多了。”王小川表示，目前无论是科技巨头还是获得资本加持的创业公司，都在加速向前迈进，他期待国内大模型的突围能够在明年到来。

责编:万健祎

校对:姚远

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。