0°

清华系学霸,追赶OpenAI

  从张鹏办公室的窗户向外望,一眼就能看到对面的东升大厦,那是智谱AI初创团队从清华实验室出来后,最早的办公地。

  智谱AI成立于2019年,从当初的30人左右,扩大到现在的400余人。

  滚雪球般增长的,还有它的名气,以及超高的融资额。

  今年公司累计获得超25亿元融资,投资机构包括社保基金中关村自主创新专项基金,以及美团、蚂蚁、腾讯、阿里等。

  智谱AI集结了一帮技术大牛。

  CEO张鹏毕业于清华大学计算机系,董事长刘德兵是中国工程院高文院士弟子,总裁王绍兰为清华创新领军博士。

  这支学院派出身的团队最新推出的全自研第三代基座大模型ChatGLM3系列产品,多模态能力逼近GPT-4。

  由此,它成为国内唯一对标OpenAI全线产品线的大模型创业公司。

  “我们的目标,是尽快追平现有GPT-4的能力。”张鹏向《21CBR》记者表示。

  以下是他的自述(经编辑整理)。

  脱胎清华

  智谱AI是从清华走出来的创业公司。

  90年代,清华计算机系成立了知识工程研究室,致力于知识工程理论、方法和应用研究,属于人工智能领域的一个分支。

  人工智能本身是门实践性科学,讲究理论和工程落地结合。本世纪初,我们开始把数据挖掘、机器学习等相关研究,落地为产品,推出AMiner系统,做科研情报挖掘。

  之后,实验室做了一些落地尝试,直到2019年,智谱AI成立,团队走出实验室,做产业转化。

  我一毕业就留在实验室工作,公司成立后,连同团队其他成员一起过来。

  整个团队三十来人,大家共事时间久,有的相处将近10年。无论是团队磨合,还是应用转化,从学校到公司的过渡,都非常平滑。刚成立半年时,大家感觉跟在学校里没有大差别。

  大的技术路线,早在公司孵化时,就想清楚了。

  大家焦虑的是,“AI四小龙”已经把上一代人工智能技术落地的路径,“蹚”得差不多,下一代突破口在哪?

  我们逐渐理清一个方向:要从感知智能,走向认知智能。

  自2016年起,团队定下认知智能的发展框架,数据和知识双轮驱动,从那时到现在,基本在这一框架下探索,只是各阶段侧重点不同。

  2020年,Open AI发布参数规模达到1750亿的GPT-3模型。

  我们意识到,人工智能的突破,有了新可能,原来暴力“堆量”,堆到一定程度是会出现拐点的。预训练语言模型的参数量被放大以后,会有“智能涌现”,而不只是能力的线性增长。

  GPT-3的发布节点,恰逢智谱成立一周年。公司内经过几轮讨论,跟张钹院士等清华老师,也做了很多探讨。

  在大框架不变的前提下,预训练大模型的发展,沿着数据驱动这条路,往前跨了一大步。

  我们果断围绕这个方向转,投入到超大规模预训练模型的研发中。

  摸索方向

  市面上主流的几种预训练框架,BERT、GPT和T5,都来自国外公司。

  不同的训练框架,在不同维度上,擅长的能力不同,各自有适合的任务和场景。

  把它们各自的优点结合起来,泛化出更多能力,是我们自研GLM预训练架构的出发点。

  在许多具有百万参数甚至更少训练步骤的基准测试中,GLM在自然语言理解方面,实现比BERT和T5更好的性能。这给了我们信心。

  基于GLM框架,开发百亿参数的稠密模型以后,当时GLM还没完全定型,我们用了一些其他模型架构,比如MoE(Mixture of Experts),用“稀疏化”方法,成功训练出了一个万亿参数模型。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论