行业前瞻当前位置：首页>行业前瞻

AR&XR&VR系列报告： Vision Pro入局，空间计算时代拉开序幕

发布时间： 2024-10-28 14:37:43来源：智行车家

XR 是 AR、VR、MR 技术的统称，其含义是扩展现实，也即拓展人类对现实世界的感知与交互，涵盖所有通过计算机技术和可穿戴设备增强或扩展人类感官感知的技术。按照与现实世界交叉重叠程度的不同，XR 主要可分为三种技术类型：虚拟现实(VR)、混合现实(MR)和增强现实(AR)。

2024 年 2 月，苹果 Vision Pro 正式在美国发售，作为苹果在 MR 领域的首个产品，苹果从人机交互，到硬件规格，再到操作系统、生态，以及数据隐私维度均实现全新突破，重新定义行业标准。XR 产品缺乏功能价值的特点导致其销量深度依赖于内容生态的构建，因此该行业后续发展的核心驱动力在于供给侧的优质供给和用户增长带来的双边网络效应。在内容领域，我们认为苹果 XR 领域奠基产品 Vision Pro 在制定行业规范，降低开发者门槛的同时，随着产品迭代持续为 XR 内容生态注入活力。本文全面分析了全球VR&AR&XR市场近况概要

全球VR&AR&XR市场近况概要

全球VR产业跟踪：总量

根据维深信息wellsenn XR的调研和跟踪统计，2024年二季度全球VR销量为135万台，同比下降6%。销量下滑原因主要包括：PS VR2累计销量仅为8万台；Meta二季度基本盘稳定；苹果Vision Pro销量为8万台，贡献增量较小，价格、佩戴舒适度以及内容生态匮乏等造成苹果Vision Pro销量不达预期等。

维深信息wellsenn XR下调2024年VR销量预期，预计2024年全球实现797万台销量规模，较2023年增长6%，2024年VR市场将扭转过去两年的销量下滑趋势，重回正增长轨道，但今明两年VR行业仍处于销量小年。
销量小年.png

全球AR产业跟踪：总量

2024年二季度全球AR销量为10.8万台，与去年同期持平。今年二季度整体市场偏淡，电商平台618传统促销日24年表现平淡，整体大环境消费行情下行，AR厂商今年现金流较为紧张，渠道推广投放减弱也是造成整体销量较淡的一大因素。

预计2024年全球AR销量为55万台，增速为8%，BB观影类眼镜增速放缓，增长看点主要来自于AI+AR类眼镜，我们预计2024-2025年将是行业发展的新变量。
新变量.png

XR 产品深度依赖优质内容，苹果为内容生态注入活力

XR 是 AR、VR、MR 技术的统称，其含义是扩展现实，也即拓展人类对现实世界的感知与交互，涵盖所有通过计算机技术和可穿戴设备增强或扩展人类感官感知的技术。

按照与现实世界交叉重叠程度的不同，XR 主要可分为三种技术类型：虚拟现实(VR)、混合现实(MR)和增强现实(AR)。VR 技术：用户通过头显设备完全进入由计算机生成的虚拟环境中，用户与现实世界的交叉重叠程度最低。MR 技术：结合 AR 和 VR，通过加强虚拟对象与现实世界的交互，实现混合世界的全新体验。AR 技术：借用眼镜、手机等职能设备在现实视野中叠加虚拟图像，实现虚拟形象在真实世界的可视化。
可视化.png

内容生态为王，优质内容引领增长破圈

我们认为，消费电子产品为其用户提供的价值主要可以分为功能价值与内容价值。其中功能价值可理解为设备依托软硬件，有能力为用户提供独特的实际功能或额外的便捷性，如相机、耳机等；而内容价值则是硬件厂商及内容供应方在设备软硬件基础上为消费者带来的内容和生态，如游戏机、电子书阅读器等。现今主流消费电子产品如智能手机、智能手表等，往往兼具功能价值与内容价值，随着技术的持续进步，智能手机亦已逐步统合了大部分设备的功能价值。相对而言，在现阶段 XR 设备所带来的功能价值较为有限，因此我们将主要从内容价值的角度分析该赛道后续的演进。
后续的演进.png

XR 产品缺乏功能价值的特点导致其销量深度依赖于内容生态的构建，因此该行业后续发展的核心驱动力在于供给侧的优质供给和用户增长带来的双边网络效应。在内容领域，我们认为苹果 XR 领域奠基产品 Vision Pro 在制定行业规范，降低开发者门槛的同时，随着产品迭代持续为 XR 内容生态注入活力。

苹果 Vision Pro拆解：开启空间运算新时代

为 AR/VR/XR 内容生态注入活力

苹果式创新，驱动下一个“iphone”时刻

2023年6月，苹果公司发布 Apple Vision Pro，一台革命性的空间计算设备，将数字内容无缝融入真实世界，让用户处在当下并与他人保持连接。Apple Vision Pro 打造无边际画布，让 app 突破传统显示屏的限制，为用户带来全新的 3D 交互体验，以最自然、最直观的输入方式来控制 — 眼睛、双手与语音。Apple Vision Pro 搭载全球首创的空间操作系统Vision OS，通过用户与数字内容互动的模式，让数字内容如同存在于真实世界。Apple Vision Pro 的突破性设计包含将 2300 万像素置于两个显示屏中的超高分辨率显示系统和采用独特双芯片设计的定制 Apple 芯片，为每个用户带来身临其境的即时体验。
即时体验.png

苹果Vision Pro拆解和BOM清单

2024 年 2 月 2 日，苹果 Vision Pro 正式在美国发售，作为苹果在 MR 领域的首个产品，苹果从人机交互，到硬件规格，再到操作系统、生态，以及数据隐私维度均实现全新突破，重新定义行业标准。根据 MacRumors，Vision Pro 开售后 10 日内既已售出 20 万台，TrendForce 集邦咨询预计全年出货有望达到 50-60 万台，有望提振 XR 行业走势，打造 MR 赛道的全新局面。根据科创板日报百家号，Vision Pro起售价高达3499美元。综合Wellsenn XR机构的拆解报告，显示模组在Vision Pro整机中成本占比最高，其次是计算和存储模块，再次是结构件和组装环节。

我们认为，Vision Pro真正意义上实现了数字与现实的连接转化，从“将数字世界融入现实世界”将过渡至“运算现实世界”。Vision Pro具备三个核心能力：“真实的具现”、“全新的交互”、“对数字化现实的运算”。

真实的具现：拓宽用户群体的第一基础。用户主观感受的“真实感”决定了设备的使用时长和频次。而“真实感”也是在各类场景应用的基础，包括3D摄像、游戏、电影、视频、直播、建模等各类应用场景都脱离不开对“真实感”的要求。“真实的具现” 也是带给用户三维视觉震撼体验的第一基础。

全新的交互：三维的视觉体验与全新的空间交互方式，将进一步打破人与数字交互的界限。人与数字的交互在不断的升级，视觉上屏幕越来越大越来越清晰，但始终是2D；交互上越来越方便，但仅限于平面。Vision Pro将开启三维视觉和空间交互的新方式，进一步消除现实与数字的鸿沟。

运算的现实：可运算的现实，将跨越时空的限制。Vision Pro将让用户“看到”跨越时空的现实，包括十年前的珍贵回忆、十年后想象的未来、另一个空间的实时现实、或者平行世界的现实等。现实可运算后，眼见不一定为实，时空的限制进一步突破。

新物种？硬件带来哪些变化

光学显示、裸手交互和眼动追踪全新交互方式

M2+R1双芯片设计

Vision Pro 搭载 M2 芯片以及全新的 R1 芯片，R1 芯片主要负责传输，官方称传输数据12 毫秒就可以触达。性能高于市场主流的基于高通骁龙 XR 芯片的 VR、AR 芯片解决方案，高硬件配置将算力提升至“电脑级”，使“空间计算”成为可能。其中 M2 芯片的任务是执行任务、瞬时交互、运行计算，使用户可以通过头显设备访问应用；而 R1 处理器属于低功耗芯片，负责定位、协同、视觉图像处理或传输等功能。双芯片架构下，M2 提供超强运算能力，R1 降低设备延时，能够实现在 12 毫秒内将外界的图形数字化，经过处理和渲染后将虚拟与现实融合图像传输至人前，从而减轻体感晕眩、提升操作体验。

强算力保障交互沉浸度，高性能突破内容瓶颈。基于 MR 人机交互方式的变化，空间计算中 3D 渲染和 6DoF 的位置识别功能对算力提出更高的要求。而交互的流畅度取决于对用户行为的精准理解，即头部追踪、眼球追踪、手势追踪以及用户全身动作追踪的高精度和低延迟，越高的精度对算力的消耗越大；减缓延迟也极大依赖于算力水平的提升。在应用领域，游戏对 MR 设备使用的流畅性、顺滑度、交互感等的要求最高，游戏需求的增长会更进一步提升算力要求。算力的突破不仅是缓解现下 XR 产品内容生态欠缺、体感不及预期等困境的首要前提，也是 Vision Pro 推行全新交互体系以及将来实现与人工智能深度结合应用的前提条件。

光学&显示

显示屏系统，Vision Pro使用的是microOLED，两块面板一共2300万像素，每个眼镜分到的像素比4K电视还多。

光学方面，Vision Pro采用的是三片式Pancake透镜方案（3P Pancake），能够以其高通透度和清晰度，为用户带来更为出色的画面显示效果。Apple Vision Pro不支持屈光度调节，也无法让用户佩戴自己的眼镜使用，但提供了蔡司（Zeiss）磁吸近视镜片定制服务。

“眼动+手势+语音”构建全新人机交互体系

出于技术水平和成本考虑，此前 XR 产品的交互方式主要集中在头显和手柄上，而诸如语音识别、裸手交互和眼动追踪等自然交互方式仍然只是可选项。然而，苹果 Vision Pro 却在交互选择方面颠覆了传统，通过高质量的裸手交互、语音识别和眼动追踪三种交互方式协同作用，为 XR 领域带来了全新的交互体验，打开后续应用发展的空间。

苹果将眼动追踪做为交互核心，通过高质量硬件配置和强算力支撑追踪的精准性和反馈分析的精确度，与现实场景的淡入淡出满足虚拟交互需求。裸手交互维度，六种常用手势降低手势学习门槛，提高用户体验感。智能语音作为补充交互也为后续 AI 搭载提供便利。

裸手交互与眼动追踪为 XR 后续应用拓展提供全新方向。VisionPro 基于配置的 12 个摄像头，5 个传感器实现 3D 空间感知和 3D 扫描功能，3D 视频拍摄能复现空间深度信息，呈现全新空间感，后续有望推动 3D视频品类发展，甚至逐步促成 3D 社交媒体的诞生。但由于头显重量以及技术与成本限制下自然交互的体感反馈仍有欠缺，我们认为该类交互方式早期更适于轻交互、慢节奏产品，目前水果忍者等强手部交互游戏也已上线，有待苹果后续进一步探索新的交互方式，带来多类型应用涌现。

MR 内容和交互受益于 AI 发展，3D 内容生成更加便捷

在 AI 发展领域，我们认为 AI 的价值由短期到远期可以分为三个层次：短期直接价值，即改变诸多模态内容的生产方式，提升生产效率，优化生产环节中大量重复性工作，降低内容创作的门槛与成本，加快优质内容生产。中期间接价值，即在多模态大模型的逐步成熟下，提升人与人之间、人与机器之间的交互效率。远期最终价值，即生产力显著提升后，生产关系发生重构。

Vision Pro 在硬件与交互方式上的突破有望使其成为后续 AI 应用落地的重要载体，苹果公司对创作者的服务，以及对生态的扶持有望孵化新一代 AI+MR 应用。另一方面，Vision Pro 有望持续受益于AI 发展，尤其在改善人机交互体验方面。

现阶段，受限于人工智能技术发展水平，人与 AI 的交流方式很大程度上限制在文字形式，文本输入和输出限制了 AI 系统理解和响应用户的能力，因为语言表达往往存在歧义，而且精准描述问题通常需要用户具备特定的技术背景，门槛较高导致 AI 工具目前未能广泛普及。

然而，人工智能领域头部公司正持续推进 LMMs（多模态大语言模型）研发，GPT-4V、Gemini、 ImageBind 等模型已初步实现从视觉、音频和文本等模态中收集信息。随着多模态技术的逐渐普及，这一格局正在发生变化。多模态 AI 系统结合了不同的感知方式，如图像、语音和文本，使得用户可以更自然、直观地与 AI 进行交流。这种综合感知的能力不仅提供了更全面的信息，还有望极大降低用户描述需求的门槛，使得普通人能够更轻松地与 AI 进行沟通和合作。

通过多模态技术，AI 系统能够更好地理解人类的意图，并更准确地回应复杂的请求。这不仅有助于提高用户体验，还拓展了 AI 在各个领域的应用潜力，包括医疗、教育、娱乐等。因此，随着多模态交互的普及，我们有望看到 AI 在社会、经济和科技领域中的影响力显著增大，为人们创造更多的价值和便利。

我们预计，未来基于多模态 AI 模型的交互系统将成为操作系统的主要形式，应用程序与指令逻辑将根据 AI 交互平台进行重新设计。目前，AI 大模型已逐步取代了一些应用的传统操作模式，随着算力成本的降低和 AI 模型的轻量化，预计其可替代操作模式将进一步泛化，广泛应用于智能家居、工业自动化、智能物流、智慧城市以及其他 2C 应用领域。

AI Agent 也被认为是 AI 应用发展的下一个方向。AI Agents 可定义为 LLM、记忆（Memory）、任务规划（Planning Skills）以及工具使用（Tool Use）的集合，其中 LLM 是核心大脑，Memory、 Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。从原理上说，AI Agent 本质是一个控制 LLM 来解决问题的代理系统。LLM 的核心能力是意图理解与文本生成，如果能让 LLM学会使用工具，那么 LLM 本身的能力也将大大拓展。OpenAI 联合创始人 Andrej Karpathy 表示，虽然 OpenAI 在大模型上比别人快一步，但在 AI Agent 领域大家都处在同一条起跑线上。

2024 年 3 月，苹果公司首次公布了多模态大模型 MM1。根据 36Kr，其最高参数量为 300 亿，支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。其独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。根据 36Kr，苹果正与谷歌就在 iPhone 中内置Gemini 人工智能引擎进行积极商谈，希望苹果授权谷歌的生成式人工智能模型 Gemini 为今年 iPhone软件的一些新功能提供支持，还称苹果最近与 OpenAI 进行了讨论，并考虑使用其模型。

我们预计在苹果自研 AI、外部合作的同步推进下，AI 有望在其生态体系中扮演愈发重要的位置，而MR 作为苹果的重点布局方向有望持续结合 AI 领域的突破，实现从交互到生态的进一步升级，推动XR 行业进入新的阶段。此外，Vision Pro 作为空间计算设备有望受益于 3D 内容生成相关 AI 的发展，同时 Vision Pro 为 3D 内容生成带来的更多应用场景、调用和采集便捷性与数据资产累积也将持续反哺相关技术蓬勃发展，逐步形成正向循环。

新生态？软件带来哪些变化

数字化 Persona、隐私安全

数字化 Persona

Vision Pro还能扫描用户的人脸信息，生成一个数字人形象（Persona），跟别人视频通话的时候可以直接使用，它能够实时反映你的面部和手部动作。

隐私安全

苹果在指纹识别 Touch ID、面容识别 Face ID 之后，在最新推出的 Vision Pro 头显上引入了 Optic ID 虹膜生物识别技术。Vision Pro 头显内置虹膜传感器，可以扫描佩戴者的眼球数据，并匹对此前预设的机主信息。

苹果表示 Optic ID 可以用于替代密码，实现自动解锁、在 App Store 上进行消费、或者使用 Apple Pay 完成购物支付等。苹果强调 Optic ID 所创建的虹膜数据存储在头显的安全隔离区（Secure Enclave）中，离线保存，不会向应用开放访问。

VisionOS

Vision Pro 运行一个名为 visionOS 的操作系统，开发者需要专门为头显推出增强现实和虚拟现实 App，因此苹果计划在未来某个时候，向开发者提供 Vision Pro 开发者套件。

苹果表示，将提供开发者工具包，帮助开发者将创作在 Vision Pro 上变为现实，并提供在头显上快速构建、迭代和测试的能力。

应用端

Vision Pro可以与蓝牙键盘、耳机协作，非常适合远程办公使用。比如在使用facetime时，该设备有手机不具备的空间感，可以分辨出参与者的声音来自各自方向。

在观看电影方面，Vision Pro可以调整画面大小，自动调暗周围光线，“像置身于私人影院”。甚至还可以观看3D影片，这是一般设备难以达到的。

居家体验上，Vision Pro可以欣赏照片视频，也可作为3D相机进行拍摄，通过空间视频捕捉亲子时光。

们认为 Vision Pro 有望打破传统 XR 头显的应用场景局限，重新定义头显的新范式，在 B 端、C端的应用前景广阔。

在 B 端，1）Vision Pro 可作为生产力工具，提高工作效率。visionOS 提供 3D 界面并且不受空间限制，用户可体验全新的多任务处理方式，定制完美的个人工作空间。微软作为首批入驻 Vision Pro 头显的开发商之一，宣布 Word、Excel 和 Teams 等应用率先登陆该平台，方便佩戴者在头显环境中协作办公。2）Vision Pro 可兼容 iPhone 和 iPad 应用，苹果还将打造全新的应用商店，以供应开发者专门为 MR 头显开发应用和内容，以及其他兼容 iPhone 和 iPad 的应用程序。

在 C 端，1）摄影方面，苹果的 Vision Pro 具备 3D 相机功能，加之空间音频，能让用户沉浸体验在画面中。iPhone 拍摄的全景照片能在 MR 头显中展开并围绕用户，带来身临其境之感。有望随着产品普及带来新的线上社交娱乐模式。2）视频通话方面，Vision Pro 打造了充满空间感的 FaceTime 通话，并且利用机器学习技术即时反映用户的脸部及手部动作。用户还可以通过同播共享一同看电影、浏览照片或是合作演示。

3）在观影上，3D 显示+虚拟空间环境+互动打造沉浸式观影体验。通过两个超高分辨率的显示屏以及先进的空间音频系统，Vision Pro 可将任何空间转换成个人影院，实现空间全景环绕、音频环绕，打造优质观影体验。4）游戏端，空间计算让新游戏类型得以成真，游戏可提供各种沉浸程度的体验，带玩家进入全新世界。根据 VR 陀螺，截至 2024 年 2 月，Apple Arcade订阅服务在游戏领域已经完全对应 Vision Pro，内涵超过 270 款游戏资源，苹果还与 Unity 合作 MR游戏开发。MR 技术能给游戏玩家带来更加真实的交互体验，增强游戏沉浸感以及带来创新的游戏玩法，未来有望替代传统游戏机。

VR/AR产业链代表企业解析

产业地图.png

上一篇：瑞波光电发布25W 1470nm和1550nm巴条新品

下一篇：国家人工智能应用中试基地（移动终端方向）2026年“揭榜挂帅”项目公告