两会看科技:屏幕里的AI,终于拥有了“身体”

2026年03月17日 来源:科普中国 作者:小青 科普创作者

最近,在巴塞罗那世界移动通信大会上,一款机器人手机技惊四座:手机顶部悄然伸出个摄像头,跟随用户指令灵活转动、点头示意。智能手机发展至今,我们见证了运算速度的提升、机身厚度的压缩、影像能力的飞跃,但还是第一次见到手机长出“手脚”动起来。本该在手里为你“服务”的AI,突破了屏幕的边界,从会聊天的“数字助手”,进化为有“身体”、会“干活儿”、能够“适应”真实场景的智能实体。

2023 年以来,大模型技术爆发让 AI 具备了强大的语言理解和生成能力,但人们意识到一个问题:AI 在屏幕里能够对话、解答和生成内容,却不能在现实场景里完成具体的任务,例如当我们想要AI协助完成拍摄、跟拍、视角调整、场景交互这类任务时,手机里的AI往往“爱莫能助”。这种需求催生了机器人手机。

智能手机的“进化”可不是单一技术的突破,而是多项技术体系的协同成果,像具身智能、端侧大模型、AI 智能体和端云协同,技术合力让AI从虚拟跨越到现实。

f151da0b784e4e28a4d10853ae2308e7.png

01 具身智能:给 AI 赋予“身体”与“感官”

具身智能系统赋予 AI 感知环境和执行动作的能力,形成“感知—决策—执行”的完整闭环。

感知,就像我们靠眼睛看、耳朵听、身体感知周围环境一样,机器人手机的感知层就是AI的“五官和触觉”。它能通过手机的摄像头、传感器、麦克风,实时“看到”周围的环境、“听到”语音指令;同时还能联动智能手表、耳机等穿戴设备,同步“感知”用户的实时状态。

决策,如果说感知层是“收集信息的感官”,那决策层就是“处理信息、下达指令的大脑中枢”。机器人手机能依靠手机本地的端侧大模型,快速处理感知层收集到的所有信息:解析我们的真实意图,比如“帮我拍视频”不是简单打开相机,而是要调整角度跟拍,规划并完成任务的每一步,甚至能进行初步的情感判断,比如通过我们的语音语调和生理体征数据(如心率),判断出用户是开心、疲惫还是烦躁。

执行,决策层下达指令后,就需要执行层来“动手落实”,这就相当于AI的“手脚”了。机器人手机的机械臂云台能当“手”用,依托4DoF(四自由度)让“手”动起来,把指令转化为精准、流畅的动作,如旋转跟拍、点头回应、俯仰调整拍摄角度等。

02 端侧大模型:为AI构建本地化“大脑”

有了可以活动的“身体”,AI还需要反应更快、更安全可靠的“大脑——以前的手机,“大脑”不在自己身上,而是在远方的云端服务器里;端侧大模型之所以被叫作“本地化大脑”。比如,让手机在本地具备了强大的理解和决策能力,可以独立完成大部分任务,仅在必要时协同云端。这个“大脑”不需要联网、也不用把数据传到外面,就能让手机在本地独立完成思考、判断和任务规划,反应更快、更稳定,也更能保护隐私。对于新一代智能手机来说,这个本地化大脑尤其关键:只有它才能做到实时控制、快速响应、自主服务,让手机真正像智能机器人一样工作。

03 AI智能体:给AI 注入“主动服务”的灵魂

有了“身体”(机械臂执行)和“大脑”(端侧大模型),AI 还需要具备主动思考、主动服务、主动完成任务的能力,这正是 AI 智能体的核心价值:AI不仅能解决问题,还能感知并理解你的情绪与需求,提供更有温度的服务。

AI智能体的真正进步,在于它不再只是被动执行简单指令,而是能够理解我们模糊、复杂、生活化的真实需求。最典型的就是家庭拍摄场景:

以前:聚会拍视频,拿手机拍摄的人,一般不容易出现在画面里,就算自拍杆“助攻”,也束手束脚。

现在:它可以化身为摄像师,通过视觉自动识别、跟踪家人的位置和动作,自主调整角度、自动构图、保持画面稳定。全程不用你动手操控,就能把在场的每个人记录下来。

同时,手机作为未来生活的智能中枢,智能体还能实现多设备协同:比如会议时语音实时转写成文字、文件在手机、电脑、平板之间自动同步,不用来回切换 APP、不用重复操作,大幅提升效率。

AI智能体还会“记住”你的偏好、习惯和日常节奏,你越用AI越懂你,提供越来越贴合个人的贴心服务。它还能联动智能手表、手环等穿戴设备,实时感知心率、活动状态等信息,结合当前场景主动提醒、推荐合适内容,让智能服务在不知不觉中就完成。

不过,要让这个拥有‘身体’和‘灵魂’的AI持续进化,应对无限复杂的现实世界,它还需要一个更强大的‘外脑’来支撑。

04 端边云协同:给 AI 搭建“高效神经系统”

既然 AI 的“大脑”已经部署在手机端,是否还需要云端和其他设备的参与?实际上,新一代智能手机之所以能实现流畅的智能体验,恰恰依赖于“端—边—云”三者协同的分布式架构:端负责“马上做”,边负责“就近管”,云负责“学得强”。

(1)端(手机、智能手表等)

主要负责实时感知、即时反馈和隐私敏感任务。优势是超低延迟、数据不出设备,保障用户隐私。

(2)边(边缘服务器、智能路由器、本地网关等)

作为区域中间枢纽,承担多设备联动、就近推理以及AI指令的分布式协同调度,既减轻了云端的压力,又比单纯的云端响应更快。

(3)云(数据中心)

承担模型训练、知识更新和超大复杂度计算任务。拥有近乎无限的算力资源,持续优化模型,并通过端边同步实现能力迭代。

这场由机器人手机开启的AI革命已经拉开了帷幕。我们可以预见,每个人都可能拥有这样一个“懂你所需、为你而行”的物理智能体,而人与技术的互动方式也将重新被定义。