您当前的位置：三板富> 经济 > 正文

「iPhone 时刻」后，大模型跑进终端世界视点

2023-06-25 15:19:35 来源：ZAKER科技编辑：news2020

在过去的一年里，生成式 AI 大模型成为了全世界范围内绝对的热点。

(相关资料图)

ChatGPT 一声炮响，给全世界带来了 AI 革命的震撼。

从画师、模特和程序员失业危机的讨论，到大模型密集发布引爆厂商之间的 " 千模之战 "。人工智能从未像如今这样深刻的影响着人们的生活。

自 2022 年 11 月 ChatGPT 推出后，短短两个月时间，活跃用户就已冲上一亿，不仅超越了 Tik Tok 成为有史以来增长速度最快的消费类应用，也是以人工智能为核心卖点的第一个杀手级应用。

在 GPT 类应用的风起云涌下，人们关于未来的畅想也如同野马脱缰。

生成式的 AI 模型能够基于关键词和简单的提示创造出包括文字、视频甚至程序在内的原创内容。不论是在娱乐性还是生产力方面，在人们的畅想中都毫无疑问是继移动互联网兴起之后下一波爆点，甚至是下一次技术革命的开端。

在打响了第一枪之后，大模型正在努力完成从云端走向终端，完成从技术到应用的蜕变。

大模型的普及之困

英伟达 CEO 黄仁勋今年 3 月时就高呼 AI 迎来了 "iPhone 时刻 "，但实际上，生成式大模型要成 AI 界的 "iPhone"，还要跨过从云端到终端的高墙。

熟练使用大模型的能力，已然和世纪初的 " 会使用电脑 "、" 会打字 " 一样，成为步入下一个科技世代的门票，甚至出现在了一些公司的招聘要求中。

ChatGPT 能够出圈，除去生成式人工智能带来的新奇体验和生产力上的跨越升级，还与其简单、符合常识认知的操作有关 :ChatGPT 的界面与人们早已熟悉的社交软件聊天界面几乎相同，对使用者来说几乎可以从社交软件的使用经验得到的直觉中掌握用法。

但形式上的简单并不代表技术上的坦途，事实上，GPT 敲出的每一行字的背后，都存在着大模型繁复的训练和推理。

与传统的搜索方法相比，生成式大模型的搜索成本高出十倍。

在键盘上敲下一次问题，等待 GPT 回复的短短数秒内，牵扯到云端背后数以千亿级的参数。

而受到模型本身参数规模的要求，要完成一个生成式 AI 模型的部署对计算设备基础设施建设提出了极高的要求。

为了满足动辄拥有数十亿参数模型的计算需求，在当前的条件下，无论是优化模型的 AI 训练过程还是执行模型命令的 AI 推理过程，目前几乎都部署在云端。

云端的强大算力固然能够满足大模型的胃口，但同时也带来了问题。

一方面，完全依赖云基础设施进行运算会带来更高的计算成本，据统计，即使基于大语言模型的搜索只占一小部分，也会在同样的搜索操作中给企业带来每年数十亿美元的增量成本。

另一方面，查询需求达到高峰时，往往会出现高延时或排队等待的情况。

事实上，由于 ChatGPT 的火爆，在高峰期时已经发生过拥堵。此外，要使用云端算力，需要有良好的网络环境，一旦用户在没有网络或网络环境不佳时，往往出现延时较高甚至无法连接到服务的问题。

作为厂商，要想保证用户在高峰期的使用体验就必须在云端配置足够强大的算力，这不仅带来了巨大的成本压力，也会在非高峰期造成相当的资源浪费。

而作为用户，一个可能随时请假撂挑子的不稳定因素也与期待想去甚远。

要想真正做到 " 无处不在 "，大模型需要放下云端的高大全，走向本地终端的小而美。

AI 革命烧向终端

人工智能从云端走向边缘的趋势早已不是新闻。在过去几年物联网和 5G 等技术的发展为 AI 走向边缘提供了强烈的需求。大型任务对应云端，小型任务对应边缘终端的 AI 部署模式已经相当成熟。

但与物联网普遍的轻载要求不同，部署在终端的大模型依然需要相当的算力。如何把庞大的大模型塞进手机、XR 等终端设备中，是厂商要面对的第一大难题。

将原生的大模型直接 " 塞 " 进手机，显然是移动设备相较于云端孱弱的算力不可承受之重。

在云端服务器上训练的模型一般采用 32 位浮点运算，这种选择带来较高精确度的同时，也带来了较高的负载。在高通第二代骁龙 8 的 Hexagon 处理器中，就采用 INT8 进度实现了模型从云端到终端的迁移。

由此带来的另一个问题是，在降低数据精度之后，如何保证生成式 AI 的体验？

为了适应新的需求，一种为大模型设计的工作负载分级处理机制正在应运而生。

在这种分级机制中，终端将取代云端成为大模型工作的核心。在任务真正被大模型响应前，会进行预先分类。根据提示词的长度、需要调用模型的大小以及任务本身的复杂度，推理任务会被分配到不同目的地。

如果模型大小、提示词的长度和复杂度小于某个限定值，任务将会被分配在终端而不是云端进行。部署在终端的模型也许没有云端聪明，但已经足够处理这些轻度任务，向用户提供可接受精确度下的答案。

只有更为复杂的任务才会被上传至云端处理，这不仅大大解放了云端的算力，降低了部署大模型应用的成本，也为用户带来了更好的体验。在大多数情况下，用户甚至不需要联网，只需要通过部署在本地的模型就能得到想要的答案。

终端和云端也能够协作。在某些情况下，用户可以利用终端算力进行一些初步工作，在交由部署在云端的大算力进一步处理。

比如在使用语音和大模型对话的流程中，可以通过终端部署的本地模型完成语音识别，将语音转为文字后再上传云端，云端的大模型则用于生成对应的答案并将文本发送回终端。最后，终端再将文字答案转化成语音，与用户完成对话。

与将所有的工作负载放在云端上相比，这种工作流程能够大大节省计算和连接所需的带宽。而用户在使用过程中则几乎感受不到流程变化产生的影响。

值得兴奋的是，这并不是一种理论上的可能，而是已经投入现实中的应用。

在使用骁龙芯片的骁龙本上，生成式 AI 就能通过边缘与云端的协作，实现视频会议语音转录、制定任务清单、生成完整演示文稿等操作。

在老黄激动宣布 "iPhone 时刻 " 的到来后，从云端到终端的 " 降维 " 正在让大模型真正实现的普及。

新视野

公司