对话面壁智能李大海:中国对端侧模型的探索全球领先
2024-08-05 【 字体:大 中 小 】

经济观察网 记者 任晓宁 “完全没有想到会以这种方式出圈,挺惶恐的。”6月14日,面壁智能首席执行官李大海在接受经济观察网采访时,提到了此前火爆一时的斯坦福大学学生抄袭面壁智能旗下大模型的事件。他认为,从全球范围看,目前中国在端侧模型、开源模型等领域都有创新的地方。
5月29日,多模态大模型Llama3-V在开源社区走红,其开发者是美国斯坦福大学学生组成的AI团队,他们声称可以用500美元的价格训练出对标GPT-4V(美国AI公司OpenAI旗下大模型)多模态能力的模型。
第二天,Llama3-V模型被网友指出涉嫌抄袭中国的端侧模型MiniCPM-Llama3-V 2.5,这件事在国外AI圈引发关注,在国内也多次登上微博热搜。最终斯坦福大学学生选择道歉并删除Llama3-V模型。
MiniCPM系列模型由中国大模型创业公司面壁智能开发。这家公司此前只在AI圈内知名,但因被抄袭一事名声大噪。李大海在接受经济观察网采访时,讲述了该事件的来龙去脉。他认为,该事件说明,中国的大模型技术在一些领域已经处于全球领先位置。
面壁智能主要做端侧模型。相比互联网大厂和其他大模型创业公司主要发力的云侧大模型,端侧模型一般参数较小,比如MiniCPM的第一款模型,只有20亿参数,但可以实现文本翻译、知识问答、代码编程等大模型能力,也有多模态能力。由于成本低、参数小,端侧模型更适合在手机端、个人电脑(PC)端和智能硬件端使用。
与已经开启“百模大战”的云侧大模型市场相比,端侧模型市场的国内参与者较少。李大海解释,面壁智能所做的事,是在同样的时间、同等参数量的条件下,把模型知识压缩的效率做到极致,把更多的高质量数据压缩进一个更小更优的模型中。
面壁智能成立于2022年8月,创始团队主要来自清华大学自然语言处理实验室,联合创始人刘知远是清华大学计算机系长聘副教授、博士生导师,李大海则担任过知乎首席技术官。
2023年至今,面壁智能完成了两轮融资。去年4月,知乎、智谱AI对其投资数千万元。今年4月,面壁智能完成了新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投。
以下为对话实录:
经济观察网:之前斯坦福大学学生抄袭面壁智能模型的事件,是否说明当前中美大模型的差距缩小了?
李大海:在最大、最聪明的模型层面,我们距离美国整体还有比较大的距离。这些差距是由于资金能力、算力水平、算力投入等造成的,我们需要正视这些现实。
但中国在很多领域也有自己的创新和探索。比如对端侧模型的探索,我们在全球范围内都算是比较领先的,所以才会出现被抄袭的事情。此外,在开源模型这个领域,国内有很多同行在不同层面都做出了创新,比如阿里通义千问对开源模型的贡献就比较大。
经济观察网:今年是AI应用元年,很多大模型产品正在落地,出现了各式各样的应用。你们所研发的端侧模型,是否也已经开始落地?现在有哪些应用场景?
李大海:在PC、手机、智能汽车,以及一些前沿的智能终端领域,都有端侧模型落地的场景。我们最近在和一家机器人公司合作,他们研发的是外形像宠物猫的情感类机器人,主要提供给爱猫的用户。我们的端侧模型与机器人结合在一起,能让它更加懂用户,能更好地与用户进行交流,给用户带来很多情绪价值。
经济观察网:为什么这家机器人公司要和你们的端侧模型合作,而不是和其他大模型公司合作?
李大海:因为在这样的场景中,端侧模型有比较大的优势。其他云侧大模型也可以用在机器人之中,但端侧模型的成本更低、可靠性更强,因为它不需要依赖于网络。即使断网后,用户也可以和这只机器猫交流。
相比云侧大模型,端侧模型参数规模要小一些,它不可能做所有的事情,这是它的劣势。但是它有非常好的隐私性,也有更强的可靠性,比如在飞机上、在隧道里或在野外,人们都可以放心大胆地使用它。
经济观察网:ChatGPT(OpenAI旗下聊天机器人)等大模型产品当下已经被广泛应用。端侧模型技术进展到了什么程度,可以落地应用了吗?
李大海:在一些特定的场景下,比如嵌入到宠物机器人中与人类进行交流的场景,端侧模型已经是可用的了。但它现在还没到大规模使用的时候。
关于端侧模型什么时候可以大规模应用到手机、PC中的问题,我想提供一个大模型维度的摩尔定律。我们发现无论是开源模型还是闭源模型,都呈现出每8个月左右参数规模下降一半,但模型性能维持不变的现象。有两个例子可以说明这个现象,比如OpenAI几年前发布了1750亿参数的GPT-3模型,今年我们用20亿参数的模型,就已经可以实现同样效果。另外,我们不久前发布的面壁小钢炮MiniCPM-Llama3-V 2.5模型,使用80亿参数,能达到甚至超过业界多模态王者GPT-4V的多模态性能水平。
参数规模下降、性能维持不变,说明大模型的知识密度提升了。随着大模型知识密度的提升和端侧算力的提升,我相信我们能用2年左右做出等同于GPT-4水平的端侧模型。到时候端侧模型就能大范围使用了。
经济观察网:大模型公司的竞争已经非常激烈,价格战也正在开启。面壁智能在端侧模型目前有领先优势,你们怎么能保证自己一直领先?
李大海:天下武功,唯快不破,在快速变化的环境里面更是如此。创业公司必须有足够快的自我迭代速度。我们公司大的战略方向是做端侧模型,在这个大方向上我们会有定力。但在具体执行战略上,我们会不断升级认知、提升方法论、提高迭代速度,我觉得这是最重要的事情。
相比其他公司,面壁智能很早就看到了端侧模型的价值,并把所有的资源都往上堆,目前也做出了一些成绩。前两天苹果开发者大会也在强调端侧模型,这说明行业里更多同行也认可了这个方向,这也证明了这个方向的正确性。
猜你喜欢
港股概念追踪 广东加速推进充电基础设施建设 政策暖风频吹驱动行业迈入景气周期(附概念股)
6733
正规股票配资论坛:掘金股市,稳健致富的明智之选?
5939
湛品入湾 他们是越秀赤坎首趟百千万直通车背后的“发车人”
2471
揭秘《甄嬛传》祺贵人之死:一个被忽略的细节,令人震惊!
6119
刚刚,人民币突发!A股也传来大消息,发生了什么?
735
特朗普“汽车关税”又生变?白宫证实将有豁免,加拿大税率或提高!
2597
同花顺软件的可靠性评估
6291
日本央行宣布加息,将政策利率上调至025%
6736
龙迅半导体(合肥)股份有限公司 第三届董事会第十七次会议决议 公告
2567
领峰金评:黄金站稳2000 后市继续看涨
5437
报效祖国 建功西部|跨越4500公里,22岁的她成为孩子们的“妈妈”
摩根大通(JPMUS)Q2超预期后发行90亿美元债券 将吹响华尔街六大行发债潮号角
会客卖酒游学文创,实体书店存在的24种理由
韩国外储创19个月来最大降幅 面对本币贬值风暴 韩国比日本更着急?
4年前237港元配售的人已赚翻!史上最强年报后,万亿小米再募资425亿港元,雷军持有小米集团241%股份641%投票权
通达信【主力抄底跟踪】主图指标+通达信【多维共振神剑】副图指标,源码CJM99分享
搭上人形机器人“风口”,这座三线城市的房价率先突围 楼市地理
L’ÉCOLE珠宝艺术中心中国分部盛启 “瑰宝启幕:法兰西喜剧院舞台珠宝臻藏”展览
特朗普关税冲击下 华尔街“聪明钱”仓皇而逃:单日抛售逾400亿美元股票!
2025年5月5日全国主要批发市场红椒价格行情
报效祖国 建功西部|跨越4500公里,22岁的她成为孩子们的“妈妈”

摩根大通(JPMUS)Q2超预期后发行90亿美元债券 将吹响华尔街六大行发债潮号角

会客卖酒游学文创,实体书店存在的24种理由

韩国外储创19个月来最大降幅 面对本币贬值风暴 韩国比日本更着急?

4年前237港元配售的人已赚翻!史上最强年报后,万亿小米再募资425亿港元,雷军持有小米集团241%股份641%投票权

通达信【主力抄底跟踪】主图指标+通达信【多维共振神剑】副图指标,源码CJM99分享

搭上人形机器人“风口”,这座三线城市的房价率先突围 楼市地理

L’ÉCOLE珠宝艺术中心中国分部盛启 “瑰宝启幕:法兰西喜剧院舞台珠宝臻藏”展览

特朗普关税冲击下 华尔街“聪明钱”仓皇而逃:单日抛售逾400亿美元股票!

2025年5月5日全国主要批发市场红椒价格行情

