大语言模型发展现状及中外大语言模型发展状况对比 中国大语言模型正处于追赶阶
大语言模型发展现状及中外大语言模型发展状况对比 中国大语言模型正处于追赶阶段
行业主要上市公司:百川智能 ( A04400.SH ) 、昆仑万维 ( 300418.SZ ) 、拓维信息 ( 002261.SZ ) 、浪潮信息 ( 000977.SZ ) 、科大讯飞 ( 002230.SZ ) 等
本文核心数据:国内外主要大语言模型数据 ; 中外代码预训练模型对比表 ; 大语言模型研发技术国内外主要研究机构及代表性成果等
国内外主要大语言模型数据集
得益于开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严谨的学术写作、百科知识,也包含文学作品、新闻媒体、社交网站、流行内容等,更加丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态,国内开源数据集在数据规模和语料质量上相比海外仍有较大差距,数据来源较为单一,且更新频率较低,从而导致模型的训练效果受限。因此,大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益于移动互联网时代积累的海量用户、应用和数据,互联网企业在自有数据上更具特色化和独占性,叠加更强大的数据处理能力,从而能够通过数据优势带来模型训练成果的差异。例如,阿里在研发 M6 时,构建了最大的中文多模态预训练数据集 M6-Corpus,包含超过 1.9TB 图像和 292GB 文本,涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源,并设计了完善的清洁程序以确保数据质量。百度 ERNIE 模型的训练数据集中也运用了大量百度百科、百度搜索以及百度知识图谱等生态内数据,通过更高质量的数据保障了模型的训练效果。

代码预训练模型正成为新的热点
同样,预训练语言模型就是预训练方法在自然语言处理领域中的应用,本质上是对自然语言的表示学习,是将自然语言转化为让机器可以处理的数据表达形式。预训练语言模型先通过大量的语料 ( 通常是无标注的数据 ) 进行训练,得到一个通用的语言表征模型,然后再使用面向具体任务的少量语料,就可以完成下游任务的训练。近年来,代码预训练模型正在成为一个新的热点,并且与语言大模型的发展不可分割,这些模型在代码相关任务上已经展示了出色的性能。

注:该图表数据截至 2024 年 1 月。
中国大语言模型研究已取得一定成果
语言大模型研发技术国内外情况差异较大,尽管国内大语言模型研究已取得了一定成果,但与美国仍然具有一定差距,尤其在端到端语言大模型研发技术,中国暂没有比肩美国的成果。

国内外主要大语言模型研发路径与技术对比
在大语言模型 ( LLMs ) 的全球竞技场中,ChatGPT 与 Google 的 Gopher、LaMDA,以及 Meta 的 Llama 等构成了国际标杆,而国内则由百度的 " 文心一言 "、360 的大语言模型、阿里的 " 通义千问 " 和商汤的 " 商量 " 等引领潮流。从对话和文本生成能力的角度,ChatGPT 暂居优势,但这并非因为技术壁垒不可逾越。实际上,Google 等国外企业因战略和技术理念选择了不同的发展路径,这是其暂时落后的主因。随着新技术的不断涌现,赶超 ChatGPT 并非不可能。相对而言,百度等国内企业在数据集、计算能力和工程化方面存在短板,短期内难以实现对国外模型的迎头赶上,这更多地需要国内 AI 产业全链条的协同进步。
在影响大语言模型性能的因素方面,训练数据、模型规模 ( 即参数数量 ) 、生成算法和优化技术被认为是核心变量。然而,如何准确量化这些因素对模型性能的具体影响,目前还处于探索阶段,没有明确的结论。总体来看,世界顶级的大语言模型在技术层面上尚未拉开明显的差距。

国内外大语言模型商业化路径对比
在战略业务拓展方面,ChatGPT 已经形成了明确且差异化的商业路线,主要围绕 API、订阅制和战略合作 ( 例如与微软的 Bing、Office 等软件的嵌入合作 ) 三大营收模式,在用户数据积累、产品布局和生态建设等方面已具备明显的先发优势。而 Google 由于其主营业务是搜索引擎,对于聊天机器人等产品的发展相对保守,更注重利用大模型能力来推动 " 模型即服务 " 范式,以拓展其在云服务市场的份额。作为国内大模型的标杆企业,百度的战略更接近 Google,主要针对 B 端市场,通过全栈优势来构建全链能力

更多本行业研究分析详见前瞻产业研究院《中国大模型产业发展前景与投资战略规划分析报告》。
同时前瞻产业研究院还提供产业大数据、产业研究报告、产业规划、园区规划、产业招商、产业图谱、智慧招商系统、行业地位证明、IPO 咨询 / 募投可研、专精特新小巨人申报等解决方案。在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容,需要获取前瞻产业研究院的正规授权。
更多深度行业分析尽在【前瞻经济学人 APP】,还可以与 500+ 经济学家 / 资深行业研究员交流互动。更多企业数据、企业资讯、企业发展情况尽在【企查猫 APP】,性价比最高功能最全的企业查询平台。
标签:
51
沙特不跟美国玩儿了?“石油美元协议终结”刷屏,相关搜索量飙升创20年新高! 真相是…… 近日,一则有关 沙特阿拉伯决定不再与美国续签已有数十年历史的石油美元协议 的报道突...
115
父亲节,没想到被几个孩子的话整破防了...... 来源 | 晨视频、潇湘晨报 记者 | 黄康睿 王芊 李宗盛《新写的旧歌》,是一首和逝去的父亲和解的歌,长达 6 分多钟写尽了大部分人和父亲...
165
欧洲杯开战,餐饮人集体缺席? 6 月 15 日凌晨 3 点,欧洲杯揭幕战打响。东道主德国队坐镇慕尼黑安联球场,对阵苏格兰队,最终比分定格在 5 : 1 。 欧洲杯是世界上最受欢迎的体育赛...
136
蓝鲸新闻记者团直击2024SNEC,带队解锁十大亮点企业 蓝鲸新闻 6 月 14 日讯(编辑 李梦琪 吴希子 安瑞) 6 月 13 日 -6 月 15 日, 2024 SNEC 光伏展在国家会展中心(上海)揭幕。蓝鲸新闻受...
95
浙江4地环保失责,多家能源企业被点名 2024 年 5 月,中央第二生态环境保护督察组督察浙江发现,一些重点城市大气污染防治责任落实不到位, 两高 项目盲目上马控制不严,环境违法...
191
伊朗下任总统将从这6人中选出,谁呼声最高? 伊朗内政部日前公布了获准参加总统选举的 6 位候选人名单。获得参选资格的 6 人分别是什么背景?候选人接下来将要经过怎样的竞选流...
85
17岁中专女生拿下数学竞赛全球第12名,击败多位名校生入围决赛 一个 17 岁的中专生,学的还是服装设计,成功入围了 2024 阿里巴巴全球数学竞赛(简称 阿里数赛 )的决赛名单。 这位...
141
邵宗海:无论身处哪里,中华文化紧紧将中国人结合在一起 文、图/羊城晚报全媒体记者 沈婷婷 “无论身处哪里,中华文化紧紧将中国人结合在一起。”6月8日,在文化强国建设高峰论...
140
美联储维持利率不变,预计年内最多降息一次 当地时间 6 月 12 日,美联储最新的联邦公开市场委员会(FOMC)货币政策会议纪要显示,美联储决定 6 月仍将联邦基金利率目标区间继续维...
104
巴基斯坦空军JF-17“枭龙”战机投掷REK滑翔制导炸弹 巴基斯坦空军JF-17“枭龙”战机投掷REK滑翔制导炸弹巴基斯坦空军JF-17“枭龙”战机投掷REK滑翔制导炸弹。 巴基斯坦JF-17“枭龙”战斗...
165
湖北宜昌回应“税务倒查30年”传闻:按照程序正常追缴 不要误读 财联社 6 月 14 日电,昨日,维维股份突发公告,原控股子公司湖北枝江酒业股份有限公司( 枝江酒业 )因未按规定的...
113
巴基斯坦大使感谢中方帮巴侨民从苏丹撤离 【#巴基斯坦大使感谢中方帮巴侨民从苏丹撤离# 】2023年4月30日,巴基斯坦驻华大使哈克在与外交部亚洲司司长刘劲松会见时,代表巴政府衷...
175
《歌手》第六期歌单公布,有凤凰传奇的歌!尚雯婕袁娅维官宣参加 本周五(6 月 14 日)晚,备受关注的《歌手 2024》将迎来第六场直播。 6 月 13 日, 《歌手 2024》第六期歌单公布!...
63
室外跑步的时候,你手机会放哪里? 随着人们健康意识的增强,跑步成为全民健身的最受欢迎的运动方式,这种群众性的健身运动与竞技体育是不同的,其目的是为了强身健体,抵御“...
96
原江门市海洋与渔业局党组书记、局长谢锦波被开除党籍 据南粤清风网消息,日前,经江门市委批准,江门市纪委监委对原江门市海洋与渔业局党组书记、局长谢锦波严重违纪违法问题...
168
《我的世界》游戏玩家怒斥微软:未迁移就被删号 IT 之家 6 月 14 日消息,微软旗下游戏工作室 Mojang Studios 因账号迁移问题,再次遭到玩家怒喷。 微软于 2014 年收购 Mojang 公司,随后微...
166
香港特区政府指明罗冠聪等6名逃犯罪行及针对措施 香港特区政府保安局局长邓炳强于 6 月 12 日行使《维护国家安全条例》(2024 年第 6 号)第 89(1)条及第 89(4)条所赋予的权力,藉...
75
热议:有哪些让人搞不懂到底哪里可爱的人气角色? 喜欢看动漫的小伙伴往往会发现一个问题:有些大家都觉得超级可爱的人气角色,自己怎么都无法get到这些角色到底可爱在哪里,虽...
172
主动加班竟被罚款20元!咋回事? 加班干活后,不仅没有加班费,还被公司通报批评并罚款 20 元,这是啥情况?这个款非罚不可吗? 加班后忘关空调,公司:罚款 近日,有网友在社交...
93
从金牌主持人到街头卖艺,如今出家为僧,乐嘉他错在了哪里? 每个圈子都有自己的生存法则,不论是在哪个圈子里面打拼奋斗,有一项是共通的,那就是“在没有狂的资本时千万不要狂”...