必威虽然在公众视线里并不算出名,但成立于2019年的智谱AI很早就开始投身大模型技术研发,在ChatGPT火遍大江南北之前,这家公司已经在国内大模型研发领域相当知名了。今年6月,硅谷科技媒体TheInforma-tion对正在“百模大战”状态的中国市场加以盘点,评出了“最有可能成为‘中国OpenAI’的5家企业”,智谱AI位列其中。
智谱AI在“百模大战”中成为镁光灯下的焦点,是在今年10月20日。当它首次对外发出“年内获得超25亿人民币融资”的消息时,外界才发现,这家公司的估值已悄然超过百亿人民币。
它凭借什么成为资本的“宠儿”,并拿下国内AI(人工智能)大模型创新领域的最高估值?
智谱AI的核心团队主要从清华大学 KEG(知识工程)实验室走出。智谱AI董事长刘德兵师从中国计算机行业专家、中国工程院院士高文;CEO(首席执行官)张鹏和总裁王绍兰则同为清华创新领军工程博士。此外,他们三人也都是KEG实验室的核心成员,带领团队从实验室走到市场,完成了“产学研”的第一步。
张鹏称,公司成立以前,团队在学校实验室做的一件事就是“科技情报分析”,主要是利用人工智能的方法,包括数据挖掘、语义分析、机器学习、算法等知识工程下面的分支技术,去挖掘自然科学或技术发展的客观规律。
“一旦掌握了这个客观规律,人们便可以‘预测未来’。”张鹏说,与早期没有太多科学方法,预测规划可能“拍脑袋决定”不同,他所在的实验室团队会基于数据和分析技术,创新设计和研发了国内首个中英文平衡的跨语言知识图谱系统XLORE,还推出了AMiner系统。
在此后长达十年的时间里,他们一直积极地通过产业的实际项目进行着技术成果工程化落地应用的摸索和探路。
张鹏说,智谱AI成立时就有个愿景目标,“未来让机器像人一样思考”,也有一个努力超越的目标对象,“对标OpenAI(开放人工智能研究中心)”。当时还是2019年,除了人工智能圈内,没有人知道OpenAI是谁。
实际上,早期OpenAI的语言模型预训练框架GPT,优势并不明显。转折点发生在2020年6月,OpenAI发布了GPT-3,正逢周年庆的智谱AI,意识到了GPT模型的能力已发生越级式提升。
在那时,张鹏团队选择全部投入到超大规模参数大模型。不过,他们选择了与OpenAI不同的路径,将GPT这类单向向后预测的模型框架,与谷歌的BERT这类双向预测的模型框架的能力加以结合,这套预训练框架被命名为GLM,即通用语言模型。
模型创新是一个经年累月的过程。在发展方向确定后,智谱AI用时一年,于2021年推出了自研的GLM百亿参数模型,当时国内鲜少有人知道这一创新的意义所在。
次年7月,伴随千亿级超大规模预训练模型GLM-130B的诞生,智谱AI还基于这一千亿基座模型,开始了商业化布局,打造了大模型MaaS(模型即服务)平台及AIGC(生成式人工智能)产品矩阵。
那一年,斯坦福大学基础模型研究中心对包括ChatGPT相关的InstructGPT模型等在内的全球范围内将近30个大模型进行综合评定后生成了一个榜单,其中智谱AI的GLM-130B成为唯一登榜的中国基座模型。
提前看到趋势,使得智谱AI团队“一步早,步步早”。各家大模型厂商基本在2023年年中纷纷推动模型开源,并论及生态问题,智谱AI则提早了一年时间。
2022年8月,智谱AI不仅在GitHub(面向开源及私有软件项目的托管平台)上开源了GLM-130B,还发力模型开源生态建设。2023年3月,在推出千亿基座的对话模型ChatGLM后,智谱AI面向研究者和个人开发者,继续开源62亿参数的单卡版模型 ChatGLM-6B。截至发稿前,ChatGLM-6B系列模型在开源社区的下载量已突破千万。
不少人形容2023年AI大模型领域像是一场“军备竞赛”,科技领域的巨头与创业团队,重金囤卡,投身其中,从模型创新到训练优化,智谱AI在其中自不会落后。不到半年时间,ChatGLM从第二代进化至第三代。
开源生态的深入构建,以及技术能力上与国际顶尖模型“掰手腕”,都让智谱AI在圈内愈发火爆。在开发者认可之外,也吸引了美团、阿里、腾讯、顺为、红杉、高瓴等投资人看好,这也使得智谱AI成为了国内第一家估值破百亿的大模型创业公司。
智谱AI一直坚持算法等技术自主研发及创新应用。不过,“本质上来说,还没有离开Transformer这个模型体系的底座和基础”,张鹏说他现在有一个期待,智谱AI能够往下且深入地撼动当前模型框架的研究技术,“做真正厉害的事情”。
经济观察报:在2019年创立伊始,智谱AI就确定“对标OpenAI”。智谱AI是如何提前看见趋势的?
张鹏:这是因为我们比较早地发现了人工智能技术发展的规律。当时我们观察到的一大趋势是,上一代人工智能技术的研究已经基本趋平,这就像一条S曲线,增长之后,碰到天花板便会放缓。
人脸识别、图像识别等AI创新之后,下一代技术是什么?我们想找到未来3至5年内会再出现新的增长曲线。当时我们发现,深度学习带起了第一波AI浪潮,由此产生了像图神经网络等技术方法后,又有了预训练这样一个非常通用且能取得比较好效果的下一代技术。
可以看到,2017年Trans-former被提出来之后,2018年时,海外便出现了谷歌的BERT以及OpenAI的GPT等创新。当时,预训练等相关技术在学术界发展速度飞快,工业界虽然相对迟缓,还未感觉到变化,但技术效应已经能印证,一个拐点即将到来。
那时,我们基本上也可以判断,人工智能技术曲线已经进入了一个新的上升期。当时是2018年后,在那个阶段我们在观察国际上做预训练相关工作的机构、团队的研究动作时,OpenAI进入了我们的视野。
OpenAI并不是从第一天开始就在做大模型这件事情,我们同样也是如此。从最初研究预训练框架创新到后来坚定投入且专注于通用模型开发。另外,我们也较早地布局了AI产品矩阵,比OpenAI晚不了多少,这让我们在商业化方向上也有相似之处。
张鹏:我们创始团队里面的几个人绝大部分都是技术工程师出身,可以肯定地说,我们的语言体系和思维逻辑都比较接近。另外也有一些具备丰富市场经验的“队友”,所以,智谱AI实际上是一个团队一起来商讨并制定一些策略。
另外,我们在学校里时,也并不是单纯做研究。我们的KEG实验室创始人王克宏教授,从成立之初就跟我们说,要做“互联网环境下的大数据知识工程”,1996年时,这一理念极具前瞻性,王教授觉得互联网这件事是未来一定要做的,而有了互联网之后,其中的数据、知识等如何应用,则成为我们要做的事。
当时国内还没有多少人知道“知识工程”这个词的定义。但王教授认为单纯做理论研究、不做工程,这件事情是没有未来的。他当时给实验室的所有学生提了一个词“P2P”,他的解释是“PapertoProject”(从论文到项目),也就是一定要工程化技术的成果。
所以,我们这个实验室很有特点,不光做研究,还得做工程,要让研究落地。这也造就了整个实验室的风格:一帮工程师边做研究,边去拼命地做工程,把技术应用到用户的需求场景里面去。
也正因如此,我们这个团队走出来,去做公司的过程非常自然,转换也不是一夜之间的突变,是一个慢慢了解和扩增的过程,更是顺应商业逻辑和规则后,慢慢转变的过程,量变引起了质变。
所有的人工智能技术创新,都会在数据、算力、算法三大方面存在着各种挑战。数据自不用多说,大家都在同一个起跑线上,难是一样的。算力主要是资源有限,那么多团队在做大模型这件事,本来有限的资源就会被分摊。
当你想要去突破这个天花板,持续往上做未知领域或前沿技术拓展的时候,就会发现,资源供给会变得越来越难。
早期的一些模型,都会用到像英伟达的A100、A800之类的芯片做推理,这个东西现在有多贵,大家都知道。就算不买,租一台这样的高端服务器,也只能同时服务并发的几个或十几个用户的访问。
为降低成本,我们在不断提升推理效率的同时,也通过与国产芯片厂商合作,用更便宜的算力、消费级的卡做推理。这样,价格差异就会体现出来,当前“降本”的前提是服务质量不下降,用户体验上是更好的“提效”。
张鹏:围绕大模型,大家关心的问题依然很多,但令我感触比较深的一点是,大家对于大模型,基本已经没有质疑。
生成式AI在国内线月份开始,到现在过去了也就大半年时间。这么大的一个覆盖范围,近乎现象级的技术创新,在这么短的时间里,就让大家形成了一个共识,这让我觉得是很难得的一件事情。
我说的这个是宏观角度的大共识,大语言模型或者说大模型这件事情,它一定是一个趋势。特别是从人工智能发展的角度来说,在未来的一个时间段里必威,大模型创新一定是“正确”的。它是一个我们想要达到推动技术发展和实现AI涌现的目标的有效方法。
大家之所以达成共识,前提是大家根本找不着另外一条路,目前看起来,这条路是唯一或相对来说更有可能走下去的方向。
要说难,算法、数据、算力,每一个都很难,甚至在这三个维度之外,还有AI治理,涉及技术的安全伦理等一系列社会问题等需要研究。
有意思的点在于,你会发现,大家在对大模型形成共识的基础上,还会纷纷从各自的角度去看待这件事情,贡献自己的力量、智慧,去解决相关一些问题。
张鹏:首先在技术上,从第三代基座大模型ChatGLM3的一些新进展来说,我们有比较强的信心。
另外从商业化的角度,我们也是国内最早提出商业化落地路径的企业,从一开始就在做ToB(面向企业)和ToG(面向政府)的一些服务,大部分的客户都是上述机构类型。对我们来讲,商业化不是一个选择,是天生的基因里就带着的东西。
技术创新的路上当然会有一些参照,比如说对比OpenAI的路径,智谱AI在向世界最顶尖水平学习之余也尝试超越,在与海外优势技术能力“掰手腕”的同时,也结合当前国内市场和商业环境的特点来做融合创新。
AI行业需要时间发展,从现阶段的行业动态看,就任它纷纷扰扰吧。我们有自己的目标,“让机器像人一样思考”,也有自己的对标参照。发展过程中,作为一家商业公司,智谱AI可能需要进行很多的战略调整,但这个调整绝对不包括我们的主要目标和方向,在这一点上我们是很明确的、坚定不移的。
我一直跟团队讲,要有一种战略上的定力和一种战术上的灵活性,这种结合才能很好地应对市场的各种变化。