win10软件园

谷歌发布全新LiteRT加速器,助力骁龙安卓设备提升AI工作负载运行速度

发布时间:2026-01-16 作者:admin

谷歌为LiteRT推出了一款名为高通AI引擎直通(QNN)的全新加速器,其目的是增强搭载骁龙8 SoC的高通安卓设备的AI性能。这款加速器能显著提升性能,和CPU执行速度相比,最多可快100倍;与GPU相比,则能快10倍。

尽管现代安卓设备大多都配备了GPU硬件,但谷歌的软件工程师卢王、Wiyi Wanf与安德鲁·王表示,仅仅依靠GPU来处理AI任务,或许会造成性能上的瓶颈。比如他们举例说,“在设备端运行一个计算量很大的文本转图像生成模型,同时还要用基于机器学习的分割技术处理实时相机画面”,这种情况就算是高端的移动GPU也可能难以应对。而这样一来,就有可能导致用户在使用时遇到画面卡顿、掉帧的问题。

然而,如今不少移动设备都搭载了神经处理单元(NPUs),作为专门的AI加速硬件,和GPU相比,它在处理AI工作任务时速度能有明显提升,而且耗电量也更低。

QNN由谷歌与高通深度协作研发而成,旨在取代此前的TFLite QNN代理方案。该框架整合了丰富的SoC编译器与运行时系统,并借助简洁的API向开发者开放,从而构建起统一且简化的开发流程。目前它已支持90项LiteRT操作,核心目标是达成完整模型委托——这正是实现最优性能的关键所在。此外,QNN还内置了专用内核与针对性优化,能进一步提升Gemma、FastLVM等大语言模型(LLM)的运行表现。

谷歌针对72个机器学习模型开展了QNN基准测试,在这些模型里,有64个顺利完成了完整的NPU委托。测试结果表明,和CPU执行的情况相比,性能提升最多可达100倍;与GPU相比,性能提升则为10倍。

在高通最新推出的旗舰级SoC——骁龙8 Elite Gen 5上,性能方面的提升十分突出:有超过56个模型在其NPU上的运行时间能控制在5毫秒以内,相比之下,在CPU上仅13个模型可以达到这样的速度。这一突破为众多此前难以实现的实时AI体验打开了大门。

谷歌工程师还打造了一款概念性应用,其采用了苹果FastVLM-0.5B视觉编码模型的优化版本。这款应用能够近乎实时地解读相机捕捉的现场画面。在骁龙8 Elite Gen 5 NPU平台上,针对1024×1024分辨率的图像,它的首次令牌生成时间(TTFT)仅需0.12秒,预填充速率突破11000令牌/秒,解码速度也超过100令牌/秒。苹果的该模型是通过int8权重量化与int16激活量化技术完成优化的。按照谷歌工程师的观点,这正是解锁NPU中性能强劲、运行高速的int16内核的核心所在。

QNN仅能在安卓系统的部分硬件上运行,这些硬件主要是搭载骁龙8和骁龙8+芯片的设备。若要开启使用,可前往NPU加速指南页面,并从GitHub下载LiteRT工具。

复制本文链接 攻略文章为win10软件园所有,未经允许不得转载。
同类推荐
查看更多 →
攻略资讯
查看更多 →
猜你可能喜欢的
查看更多 →