导读：文章来历：腾讯科技作者：郭晓静图片来历：由无界AI生成智能手机集成AI技能已非新鲜事，自2017年起，AI便开端在图画降噪等处理使命中发挥作用，并逐步扩展至帧率优化、画质增强等场景运用。可是，这些前期运用所依靠的模型参数量一般不超越1000万，与当时评论的端侧大模型比较，其规划相差很远。现在，即便是...

文章来历：腾讯科技

作者：郭晓静

图片来历：由无界AI生成

智能手机集成AI技能已非新鲜事，自2017年起，AI便开端在图画降噪等处理使命中发挥作用，并逐步扩展至帧率优化、画质增强等场景运用。可是，这些前期运用所依靠的模型参数量一般不超越1000万，与当时评论的端侧大模型比较，其规划相差很远。现在，即便是最小的端侧大模型，其参数量也已到达10亿，是前期模型的100倍。尽管如此，这些10亿参数级的模型也只能履行一些根本的文本处理使命。

考虑到手机用户对多模态（文本、图画、视频等）处理的需求，乃至需求动辄百亿参数的模型才干供给满足的用户体会。手机运转如此大规划的模型，需求至少13GB的内存和130GB/s的带宽。可是，观察到2023年旗舰手机的装备，内存一般为16GB，带宽为50GB/s，这样的硬件装备使得在手机上运转大模型看起来简直成为不或许的使命。

尽管如此，手机厂商和用户都巴望将大模型集成到手机中。手机职业添加放缓，厂商急需新体会来打破僵局。集成大模型的手机承载着新的重要使命——打破传统运用壁垒、笔直整合软硬结合的新生态。一同，用户对大模型的认知逐步构成，他们期望可以在智能手机上享遭到大模型带来的便当。

2023年下半年开端，咱们逐步看到各大手机厂商争相进入大模型赛道，而背面，芯片厂商正在赋能。芯片的进化被以为契合摩尔定律，那便是每24个月左右，晶体管的密度就会成倍，现在摩尔定律的速度现已显着放缓，每年仅能添加20%-30%，而以端侧AI的杂乱度来讲，每年需求底层硬件提高的功用则需求到达至少两倍。怎样打破摩尔定律的瓶颈然后到达用户等待的功用需求，检测的是芯片厂商的立异才干。

其他，除了芯片自身的功用，怎样能让芯片在手机上发挥最大的能效来到达更好的体会，还需求芯片厂商的生态才干、服务才干等各个方面的继续发力。

在这场手机芯片大进化的背面，联发科和高通是最受注目的两大玩家。在2023年10月的骁龙峰会上，高通发布了骁龙8Gen3，支撑运转100亿参数端侧大模型。紧随其后，联发科发布了天玑9300，支撑运转10亿至330亿参数的端侧大模型。

AI才干的增强正成为芯片厂商新的竞赛焦点。本期《AI未来指北》端侧大模型系列，将深化探讨手机端侧大模型背面的软硬件立异。咱们对话了联发科技核算与人工智能技能作业群副总经理陆忠立博士，作为这场AI芯片进化的亲历者和推动者，在本次对话中，他共享了关于这一范畴的一些要害见地：

● 把大模型装入手机，需求哪些要害进程？

● 把大模型装进手机，仅仅是营销噱头吗？

● 大模型才干的上限取决于什么？

● 假如摩尔定律失效，芯片怎样才干不断打破才干极限来应对越来越杂乱的运用端需求？

以下为对话内容精编：

01、芯片才干的上限决议了端侧大模型才干的上限吗？

腾讯科技：Allen(陆忠立）你好，端侧大模型是现在职业重视的一个重要方向，咱们看到本年各大手机厂商的一个宣扬要点便是端侧大模型，这对工业来讲，会是一个巨大的时机吗？

陆忠立：咱们以为这是一个千载一时的时机，就像咱们所讲的AI是iPhone Moment。现在的大模型让智能手机从Smart Phone变成了AI Smart Phone这样的概念。

传统的智能手机可以下载APP，这些APP让你的手机变得很聪明，这个智能并不是手机变智能，关于运用者而言，仅仅在消费内容罢了。

现在端侧大模型呈现，会推翻原本的运用体会。举例来讲，你现在买一个东西或许要到多个电商渠道去找最低价的产品，或许通过比价网站找到性价比最好的产品。假如有一个AI帮手或智能体，它可以主动帮你去做这些作业，找到最适合你的产品。这样的话，从“你”的视点来讲，这才叫AI Smart Phone。AI Smart Phone和Smart Phone最大的差异便是它能更了解运用者，让运用者更简略到达他想要做的作业，并且是彻底朝着对运用者有利的方向。咱们觉得现在看起来大模型、多模态、智能体这一系列的开展，便是往这个方向在走，让所谓的智能手机变得更智能化，成为AI Smart Phone。

腾讯科技：这样看来，未来大模型会不会是一个超级进口？

陆忠立：咱们以为大模型后边会变成一个新的进口，首要便是由于它可以智能化地跟运用者交流。可是大言语模型仅仅是榜首个阶段；第二个阶段则是多模态。

榜首阶段大言语模型，就像大脑，它可以跟你对话，到了第二阶段就等于多了感官，多了眼睛、耳朵。所以它可以接纳到更多的资讯，可以更深化地了解运用者的目的，也更可以全面了解这个国际，咱们都能看到，像谷歌最近发布了双子星（Gemini），苹果前几天也发布了它的多模态模型。

第三个阶段，便是智能体的阶段。它除了接纳外界信息、有了感官以外，还可以做履行。通过一些东西，例如通过调用APP做咱们衣食住行相关的作业。假如没有APP，它则可以自己写代码，然后发生出它要的一些成果。

现在还在第二阶段多模态的阶段，未来会渐渐走向智能体的阶段。

腾讯科技：在现在这个阶段，你觉得顾客会由于大模型的功用而换手机吗？

陆忠立：从我自己来讲，我会的。即便在现在这个阶段，咱们现已看到一些推翻性的运用，后边只会有越来越多的运用。

其他，现在99%的大模型都是运转在云端上算力很强，不过本地端会有无法代替的几个长处：榜首便是隐私性的问题。由于许多隐私信息，比方说我的声响或许是印象，我并不期望被上传到云端变成练习资料的一部分。其他可以做个性化，假如说言语模型根据你的声响来更适配，准确度或许会更高。第三，我现在觉得最重要的部分是本钱。像我刚刚讲到的云端APP，每个月仍是要交必定的钱。假定这个可以跑在端侧，原则上大约除了你一开端买手机的费用，后边根本上便是免费的。

当然，端侧有这些长处，但并不是说端侧会彻底替代掉云侧，云端大模型有它不可替代的长处，比方说准确率很高，可以处理杂乱的作业，特别是一些需求大局资讯的作业仍是需求云端模型来做。

腾讯科技：咱们知道其实大模型是需求很强的算力，芯片才干的上限，是否决议了端侧大模型才干的上限？

陆忠立：端侧大模型很大一部分确实是受限于芯片处理的才干。大模型现在咱们看起来有三个需求，一个是方才您说到芯片算力的部分，其他还有两个很重要的部分，一个是内存的容量，还有内存的带宽。乃至在某些情况下，内存的容量跟内存的带宽会影响到整个大模型履行的功用。所以端侧来讲，现在咱们看到的是芯片很大部分决议了你在端侧大模型可以跑的巨细，或许是速度。

举例来讲，以2023的旗舰手机来讲，算力大约都是在40TOPS到50T（TOPS）左右，内存的容量大约是在16GB，内存的带宽大约是在50GB/s，大约是这样的数字。

假如在端侧跑一个130亿的大模型，它需求的算力、内存容量、内存带宽都超越现在旗舰机可以供给的才干。

所以就需求在几个方面做改善：

榜首，硬件方面，需求一些专用的硬件来加快大模型的履行。

第二，在算法和软件上面，运用类似于模型剪枝的技能，咱们可以把大模型里边不需求履行的部分或许是很少履行的部分修剪掉，然后再来做量化，从16Bit（比特）量化到4Bit（比特），然后削减对内存的容量占用跟带宽需求。

第三，可以做紧缩。

腾讯科技：假如抛开硬件的约束，手机端侧跑大模型，参数量也是越大越好吗？

陆忠立：我并不以为是越大越好，最重要的仍是适配性的问题，需求的模型规划与要完结的详细特定作业有关。举个比方，假如仅仅是处理文章的摘要，咱们发现10亿参数左右的大模型可以到达的作用其实跟ChatGPT的作用差不多。假如你要进行一些对话，需求的内存带宽，还有算力也会越大，这个连带影响需求的功耗也会越大。我想大部分人也不期望买一个智能手机，做了简略的对话，可是立刻就没有电了。

所以手机大模型的参数量要考虑到功用和功耗的平衡，根据用户所需求的功用以及方针运用有哪些来决议大模型的参数量。

腾讯科技：咱们都知道在云端跑大模型本钱很高，那么在手机端侧，具有AI才干的芯片本钱会添加多少？用户会不会对本钱的添加有所感知？

陆忠立：以芯片本钱来讲，假如加上履行大模型的才干，关于整个芯片来讲会有一些本钱的添加。芯片并不仅仅在履行大模型，芯片里边有CPU、GPU、APU，还有各种不同功用的模组。刚刚讲的大模型首要是增强在APU方面的功用和面积，所以关于全体的本钱添加有限，以有限本钱的添加交换整个大模型在端侧履行，可以让运用者的体会有远超以往的改善。

02、摩尔定律失效了吗？

腾讯科技：当生成式AI加上咱们或许越来越杂乱的游戏需求、摄影需求，对手机芯片的要求是不是越来越高了？摩尔定律失效了吗？未来或许有哪些更好的方法去打破这种手机的芯片才干极限？

陆忠立：摩尔定律是18个月，或许是每24个月它的晶体管密度就会成倍，可是到了先进制程咱们看到整个趋势是变慢下来，以现在来看的话，大约每年或许添加20%到30%。从运用层面来看，联发科技也大约做了一些核算，以端侧AI模型的杂乱度来讲，每年添加的起伏或许都是两倍、三倍，乃至是十倍，所以看到这两个确实是有蛮大的间隔。

这个间隔没有方法彻底靠摩尔定律来补偿，所以就需求在硬件上面有所立异。其他更重要的，是在算法和软件层面的立异。

当然还有一些其他的做法，比方异构集成，比方说小芯片，或许是说3D封装，其他便是一些更先进的技能道路的探究，比方光子核算、量子核算，这个都是未来的作业。

腾讯科技：天玑9300，采用了全大核的规划，这个做法很急进，也在测验打破摩尔定律的立异吗？

假如芯片的功用，依照摩尔定律可以一向很顺利地提高功用，咱们肯定会根据摩尔定律进行技能迭代，这占的份额就会比较高。

假如说摩尔定律供给的功用是比较有限，咱们就需求在架构上面做一些立异，全大核的架构根本上从这个点开端动身的，一同咱们的工程团队也确实可以处理全大核的一些应战。

最初咱们遇到的两个比较大的难题：榜首个难题是在全大核情况下怎样平衡功用和能效。全大核功用必定会比较好，怎样做它的能效和热办理就变得很重要的。

第二个问题，在一些比较日常的场景，对功用要求没有那么高，怎样让能效到达最好，让大核得到小核的功耗，后来咱们也处理了这个问题，简略来讲叫快开快关。

原本小核规划的理念便是让它功耗尽量低，或许功用就会差一点。咱们发现在全大核的规划下，咱们可以把一些作业会集在一同，大核只要快开，开完把这些作业做完了，然后就关掉，让它休眠，不用浪费额定的功耗就可以到达小核的作用。所以说一箭双雕，用全大核既能得到功用的长处，又不会损失掉低功耗的长处。

所以发觉这两件作业可以战胜，再加上咱们通过内部的评论，还有跟客户的评论发现，客户对功用的要求也是越来越高。

所以咱们在两年前就决议后边要做全大核架构，事实证明现在看起来是正确的，由于运用面也越来越杂乱，游戏也越来越杂乱，像最近讲的生成式AI，对AI的运用也越来越杂乱，还有许多内容创造也需求更微弱的大核，所以全大核确实是现在整个工业的一个趋势。

比特派钱包官网下载app正版|手机大模型背后的AI芯片暗战，挑战的不只是摩尔定律 - AI新智界,比特派钱包官网下载app正版|手机大模型背后的AI芯片暗战，挑战的不只是摩尔定律 - AI新智界,TokenPocket,tokenpocket官网下载安卓,TP冷钱包app,TP钱包,tp钱包官方正版app下载,第1张

咱们内部跟客户谈过今后关于未来功用的预期，由于在手机界常常讲，每年CPU、GPU、APU都要生长多少的百分比，这样才干够供给给客户。

腾讯科技：大约多少百分比呢？

陆忠立：看需求，AI的需求会比较高一点，百分比会比较高，在30%到50%左右，CPU和GPU或许会略微低一点，由于之前生长很快，现在越来越困难，所以百分比就会比AI低一点。

腾讯科技：天玑9300可以支撑33B（330亿参数）的大模型在端侧运转，运转33B是一种什么样的状况呢？是不是这个芯片其他都不做，就彻底只跑端侧大模型这一件事可以运转330亿参数？

陆忠立：这件事要分红两个层面来看：一个是能不能做得到；其他便是它跑得顺利不顺利。33B在手机上面可以跑，可是它跑出来的成果和速度并不是立刻可以运用到，不过这是手机才干的一个展示。

7B跟13B可以在手机上跑，根本上也可以给用户很好的体会，所以有一些是比较前瞻性的东西，咱们要在芯片上先准备好，当然这是榜首阶段，能不能跑。第二阶段，跑得快不快。第三阶段便是准确率高不高，这是一个渐进式的进程。

腾讯科技：天玑9300和天玑8300都可以支撑AI才干了，是不是未来不仅仅是旗舰机，在中低端手机也期望可以搭载大模型的才干？

陆忠立：对。旗舰机可以履行大模型，我觉得这仅仅一个开端罢了，咱们期望AI可以普惠化。当然这个有赖于刚刚说到的摩尔定律会让晶体管越来越多，其他便是由于算法、算力的一些改善，可以让一些模型可以用比较少的资源就可以履行。

03、未来端侧大模型的运用将怎样演进

腾讯科技：总结一下把大模型装进或许需求哪些要害的进程？

陆忠立：这有点像最初遇到的一个问题，把长颈鹿放到冰箱里，榜首步先翻开冰箱，然后塞进去。其实到后来也便是这个姿态，一开端发现说塞不进。咱们从上一年（2022年）开端就现已有看到大模型这件作业，那时分觉得离手机来讲仍是有点远。由于那时分的模型便是ChatGPT，大约1750亿参数，跟手机可以做的真实相差很远。不过咱们仍是有一向在重视这件作业，咱们事实上从2019年就开端在根据Transformer模型在做一些运用，跟咱们的客户端在许多视频及摄影场景就有落地。

所今后来看到大模型也是根据Transformer的架构，所以咱们也在考虑有没有或许把这样的东西放到端侧。仅仅说那时分觉得间隔差得很远。

直到特其他Eureka Moment（尤利卡时刻），便是Meta发布了它的模型Llama，包括7B、13B、70B，这个看起来就近了许多，所以咱们那时分就决议要全力投入，看看怎样样把这样的模型可以放到端侧。大约的一个起心动念是这个姿态。

回到咱们说的手机大模型，即便7B，其实跟原本的手机AI模型也间隔很大。原本的手机AI模型，参数量一般来讲大约是在1000万参数以内，到现在的手机端侧大模型最小的1B也现已是10亿，所以根本上要加上100倍的姿态。假如你要更大一点，就要1000倍。怎样把这样的模型放到端侧，研制同仁花了许多的时刻去想方法拆解，这是榜首步。

第二个是整个生态系，由于它是Open（开源）的模型，十分给力，很快咱们把原本浮点的运算转换成整数运算，模型巨细实际上也减缩的很快。

根据开源生态的开展，咱们把生态系的东西再进一步简化、剪枝、紧缩，然后放到手机里边。大约是这样一个进程。

当然这个放进去，就像把大象放到冰箱是榜首步罢了。第二步是放到冰箱究竟要干吗？跑起来要顺利，所今后来首要专心的作业便是怎样样让它可以跑得顺、跑得准。放进去是榜首件作业，然后再便是跑得顺、跑得准。

腾讯科技：跑得顺、跑得准是不是首要仍是硬件方向？硬件和厂商一同一起协作吗？

陆忠立：其实硬件、软件都要，以及跟厂商协作。由于端侧大模型准不准是厂商说了算，他们知道要问什么问题或许什么运用，以及要什么样的答案，那都是由厂商这边的QC或许QA还有RD来决议。联发科技的视点便是供给渠道，供给对应的东西链，可以让客户跑得顺。假如成果准确度有什么问题，咱们一同来评论怎样来处理这个问题。

腾讯科技：除了智能手机，您以为现在还有哪些很重要的终端或许会首要被AI大模型改动？

陆忠立：这是很好的问题。咱们自己判别会有三类重要的终端。榜首是刚刚说到的智能手机；第二便是PC，现在都有所谓的AI PC的呈现，也是让你的PC更有智能，可以做更多内容的创造和生产力的提高；第三个很有潜力的是在车用，首要像新能源车，由于它能供给更好的运用者的体会跟自然言语交互的界面，会让你跟轿车的互动变得更便利。咱们觉得大约这三个会直接遭到大模型的影响或许助力。当然，跟着时刻的推移，还会再传播到其他的终端。

腾讯科技：未来在终端场景的运用，咱们知道手机高频运用的功用是摄影片、拍视频，咱们去进行语音对话。这些场景天然便是多模态的，未来端侧大模型的运用将怎样演进？

陆忠立：咱们判别大约分红三步走：榜首步便是现在的大言语模型，首要便是文本进、文本出。第二步便是现在现已在发生的，便是所谓多模态。由于刚刚讲这种大言语模型比较像人的大脑，有的时分是不苟言笑，有的时分也会胡言乱语。不过再来便是要有更多的感官输入，包括视频、图画、声响进来。产出的内容也是相同，不是只发生文本，也会发生视频和图画的输出，这便是现在多模态在专心的作业。

由于手机原本便是多模态的设备，这样更可以感遭到整个环境的需求，比较深刻了解现在要做的一些使命或许一些作业，也会供给更多的服务。这便是现在看到的好几家公司都现已推出多模态的模型。

关于手机的算力来讲确实会添加，由于除了原本处理文本以外，现在连图画，乃至后边的视频都会加进来，所以算力的需求会更大，再便是内存的容量和带宽需求也会更大。

根据这些新的模型，也有一些新的做法。首要仍是会集在刚刚讲的两方面，一些是硬件的演进，打破算力。第二个十分重要，乃至有时分更重要的是在算法上面的改善。这些算法的改善，就让这些多模态的大模型可以在端侧履行。第三步便是到智能体的部分，除了刚刚讲的可以多模态进来今后，还能善用东西或许善用APP履行使命。

01、芯片才干的上限决议了端侧大模型才干的上限吗？

02、摩尔定律失效了吗？

相关文章