评论
分享

机械设备行业报告:视觉传感器-人形机器人视觉感知交互硬件

虎鲸报告

2024-04-17 21:19 广东

20631 0 0

报告出品方: 中邮证券

以下为报告原文节选

------

1 人形机器人的视觉实现

1.1 视觉传感器助力人形机器人感知世界

视觉传感器,即机器视觉,旨在利用机器来执行视觉识别和判断任务。在工业生产中,机器视觉的引入旨在提升效率、减少误差、降低成本,并从繁重或危险的工作环境中解放人力。根据图像数据的维度,机器视觉在工业中的应用可分为二维(2D)和三维(3D)两大类,主要功能包括识别、测量、定位和检测。其中,识别功能的实现相对简单,而检测功能则相对复杂。2D 技术能够获取平面图像,并在二维空间内定位目标,但其无法提供物体的三维信息,如高度和体积,且易受光照变化和物体运动的影响。相比之下,3D 技术能够提供更全面的物体信息,并在三维空间内定位目标,从而实现更为复杂的功能,如人脸识别和 3D 建模。尽管 3D 技术在数据处理和存储方面仍存在挑战,但它在许多应用场景中展现出独特的优势。 未来的人形机器人将会拥有语音感知交互能力(“嘴巴”和“耳朵”)、视觉感知交互能力(“眼睛”),以及各种 AI 决策分析能力(“大脑”)。人类约 80%的信息是通过人眼感知获取的,未来的机器人也将和人类一样,大量信息都将通过视觉感知获取。现实物理世界是三维的,发展多年的 2D 成像技术难以完整重现各类三维场景,3D 视觉感知技术则可以让终端获取更多精准的三维信息,助力各类终端更好地看懂三维世界。

1.2 人形机器人主要视觉方案

目前,国内外已经有众多人形机器人厂商发布了产品样机,领先厂家甚至已经开始规模量产的规划。可以看到,不少人形机器人选用 3D 视觉方案以保证人形机器人的环境感知及交互能力。

Boston Dynamics 的 Atlas 采用 RGB 摄像头+ToF 深度相机,优必选采用 RGBD+双目相机,傅利叶的 GR-1 采用深度相机,开普勒的先行者系类采用 3D 视觉+鱼眼环视相机,小米的 CyberOne 配备了自研空间视觉模组+AI 交互相机。大部分案例均使用 3D 视觉传感器,各类型的深度相机被广泛使用,部分厂商的方案同时搭配了激光雷达,如 Agility Robotics 的 Digit、宇树的 H1、智元的远征 A1等。也有少部分厂家仅使用摄像头作为视觉传感器的方案,如特斯拉的 Optimus,其视觉感知系统则主要基于特斯拉 FSD 的计算机模组和方案,面部配备 8 个汽车同款 Autopilot 摄像头,最远监测距离可达 250 米,还有 1X Technologies 的前一代产品 EVE 配备全景摄像头,新一代 NEO 的具体硬件方案暂未可知。 未来随着人形机器人的不断发展,其交互功能及应用场景更加丰富之后,现阶段纯摄像头方案的厂商也有可能通过迭代更新,在其新产品中引入 3D 视觉传感器。 2 机器视觉行业

2.1 机器视觉的工作原理及应用

机器视觉(Machine Vision)是由计算机或图像处理器以及相关设备来模拟人的视觉行为,完成得到人的视觉系统所得到的信息。机器视觉,作为人工智能领域中的一项关键技术,其核心目标是赋予机器类似于人类视觉系统的功能,即通过“眼睛”观察和“大脑”分析,实现对检测对象的自动测量与评估,从而减少人工操作的需求。 该技术的运作机制主要包括以下几个步骤:首先,利用工业相机和镜头等视觉设备捕获待检测物品的图像。接着,这些图像信息被转换成图像信号,并送入图像处理系统。在图像处理系统中,物品的亮度、颜色、尺寸等属性被转换成数字信号。最终,机器视觉系统通过对这些信号进行分析和处理,提取出关键特征,并根据这些特征来控制现场的设备运作。 机器视觉技术是一个跨学科的领域,它融合了图像处理、机械工程、光源照明、光学、传感技术、算法开发以及计算机科学等多方面的技术和知识。通过这些技术的结合,机器视觉能够实现对复杂场景的高效识别和处理,为自动化和智能化生产提供强有力的技术支持。

机器视觉下游应用广泛,主要可发挥定位、识别、测量、检测等功能,目前主要下游为智能制造的工业场景,医学、智能交通等场景也有应用。 智能制造场景中,机器视觉的应用以工业检测场景为主。工业检测是指在工业生产中运用一定的测试技术和手段对生产环境、工况、产品等进行测试和检验。 随着现代工业的发展和进步,特别是在一些高精度加工产业,传统的检测手段已远远不能满足生产的需要。机器视觉技术在微尺寸、大尺寸、复杂结构尺寸和异型曲面尺寸检测中具有突出的优势和特点,还包括印刷电路板检查、钢板表面自动探伤、大型工件平行度和垂直度测量、容器容积或杂质检测、机器零件的自动识别和分类等。同时,机器视觉在医学诊断中也有应用,一是对图像进行增强、标记等,帮助医生诊断疾病,协助医生对感兴趣的区域进行测量和比较;二是利用专家知识系统对图像进行分析和解释,给出建议诊断结果。此外,机器视觉技术在智能交通中可以完成自动导航、车牌识别、目标车辆跟踪等任务。 2.2 机器视觉产业链及规模

机器视觉的产业链中,上游主要有光源、镜头、工业相机、工控机(包含图像采集卡)、图像处理软件等机器视觉组件设备的提供商;产业中游包括基于视觉应用软件的应用系统(如检测、测量、定位、识别系统/定位引导系统等)以及各类视觉设备;产业链下游主要为各行业的产线综合解决方案供应商终端行业,如 3C 电子、汽车与零部件、新能源、半导体、医疗制药等。其中,产业链上游的工业相机、图像采集卡等核心零部件及算法软件是整个机器视觉行业中价值量最高的部分。 我国机器视觉市场现阶段正处于快速增长阶段,到 2027 年有望突破 560 亿规模。根据 GGII 发布的数据,2022 年,中国机器视觉行业的市场规模达到了170.65 亿人民币,这一数字并未包含自动化集成设备的市场规模。与上一年相比,市场实现了 23.51%的增长率。在机器视觉市场中,2D 视觉部分的市场规模大约为 152.24 亿人民币,年增长率为 20.21%,而 3D 视觉部分的市场规模为 18.40亿人民币,年增长率则高达 59.90%。

GGII 进一步预测,到 2027 年,中国机器视觉市场的总规模有望突破 560 亿人民币,期间 CAGR 为 27.19%。其中,2D 视觉市场的规模预计将超过 400 亿人民币,3D 视觉市场的规模预计将接近 160 亿人民币。随着中国劳动力成本的上升,制造业对提高生产效率和产品质量的要求日益增加,机器视觉技术因其能够替代人工完成高效率和高精度的任务而受到青睐,这些因素共同推动了中国机器视觉产品需求的增长。

中国机器视觉行业起步较晚,本土企业不断追赶。国际市场上,美国(如康耐视公司)和日本(如基恩士公司)等国家在全球市场占据超过 50%的份额,相比之下,中国的机器视觉市场还处于发展阶段。然而,得益于中国制造业自动化和数字化转型的推进,以及国内机器视觉技术的持续进步和创新,中国本土企业如海康威视、大恒科技、天准科技等开始在市场份额上稳步提升。这些企业在核心零部件(包括工业相机、图像处理软件、光源、镜头视觉控制系统等)和独立软件算法上进行了大量投资,从而有望进一步增强其品牌竞争力。 2.3 机器视觉主流技术方案

不同应用领域或场景对视觉的测量范围、测量精度、尺寸和功耗等性能要求均不同。视觉技术按照成像维度的不同,可以划分为 2D 和 3D 两大类别。 2D 视觉技术在过去几十年里经历了显著的进步,分辨率从最初的数十万像素提升至现今的数亿像素,图像的色彩还原变得更加真实,图像质量也得到了显著提升。尽管如此,2D 成像技术使用到的传统 RGB 相机,仅能捕捉到物体表面的纹理信息,没有物体到相机的距离信息,无法提供对于精确的识别、追踪等功能所需的空间形态、几何尺寸和位姿信息等。 3D 视觉感知技术有效地补充了 2D 视觉技术的不足,使得更加复杂和智能的功能得以实现。作为机器人感知的前沿和核心手段,根据成像原理的不同,3D 视觉感知技术可分为光学和非光学两大类,主要包括飞行时间(ToF)法、结构光法、激光扫描法、莫尔条纹法、激光散斑法、干涉测量法、照相测量法、激光跟踪法、基于运动的形状获取、基于阴影的形状获取等多种技术,以及其他归类于Shape-from-X 的创新方法。现阶段,光学方法因其应用广泛而备受青睐。这里对于几种主流的 3D 视觉感知技术进行介绍:

双目立体视觉法的技术原理是通过从两个视点观察同一物体,从而来获得同一物体在不同视角下的图像。通过三角测量原理来计算图像像素间的位置偏差(视差)来获取物体的三维图像,比如把一只手指放在鼻尖前方,左右眼看到手指会有一个错位的效果,这个位置差被称为视差。相机所要拍摄的物体离相机越近,视差越大,离相机越远,视差就越小。当两个相机的位置等条件已知时,就可以通过计算相似三角形的原理来得出从物体到相机的距离。其工作过程跟人类眼睛的工作原理相似。 双目立体视觉系统通常可分为数字图像采集、相机标定、图像预处理与特征提取、图像校正、立体匹配、三维重建六大部分。在双目立体视觉系统的硬件结构中,通常采用两个摄像机作为视觉信号的采集设备,通过双输入通道图像采集卡与计算机连接,把摄像机采集到的模拟信号经过采样、滤波、强化、模数转换,最终向计算机提供图像数据。 双目立体视觉法优点在于具有高 3D 成像分辨率、高精度、高抗强光干扰等优势,且可以保持较低成本。缺点主要有二,一是需要通过大量的 CPU/ASIC 演算取得它的深度和幅度信息其算法极为复杂较难实现,同时该技术易受环境因素干扰,对环境光照强度比较敏感,且比较依赖图像本身的特征,因而拍摄暗光场景时表现差;其二是过度的依赖于被拍摄物体的表面纹理,如果被摄物体表面没有明显的纹理,使用双目立体视觉法会无法匹配与之对应的像素。

结构光法(Structured Light)是一种主动双目视觉技术,其基本原理是通过近红外激光器,将具有已知的结构特征(比如离散光斑、条纹光、编码结构光等)的光线投射到被拍摄物体上,再由专门的红外摄像头进行采集三维物体物理表面成像的畸变情况,最后通过观测图案与原始图案之前发生的形变由此来得到图案上的各个像素的视差。这个技术通过光学手段获取被拍摄物体的三维结构,再将获取到的信息进行更深入的应用。其工作原理可看作是另一种双目法,红外激光器和红外摄像头可当做是双目立体视觉法中的左右双目的观测原理。 结构光技术相较于双目技术的优势在于:

(1)在场景较暗的场景下也可以运作正常结构光的红外激光器是主动发射光的光源,可以照亮被扫描物体,所以结构光并不像双目结构一样依赖于光源;

(2)在表面较平整、没有明显图案纹理的物体表面也可以实现深度扫描,从而测算出物体的三维深度。

飞行时间法(ToF, Time of Flight)是一种 3D 测量方法,其原理是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测这些发射和接收光脉冲的飞行(往返)时间来得到目标物距离。传感器通过计算光线发射和反射时间差或相位差,来换算被拍摄景物的距离,以产生深度信息,此外再结合传统的相机拍摄,就能将物体的三维轮廓以不同颜色代表不同距离的地形图方式呈现出来。 ToF 技术具有以下的优点:1)软件复杂性低,设计与应用简单;2)在暗光与强光环境下表现不错;3)功耗不高;4)有较远的探测距离;5)成本低;6)响应速度快。缺点则在于室外受自然光红外线影响大、远距离无法保证精度。

ToF 又分为两种,一是直接飞行时间(Direct ToF 即 dToF),其原理比较简单,即直接发射一个光脉冲,之后测量反射光脉冲和发射光脉冲之间的时间间隔,就可以得到光的飞行时间。探测器系统在发射光脉冲产生的同时启动一个高精度的秒表,当探测到目标发出的光回波时,秒表停止并直接存储往返时间。 dToF 通常用于单点测距系统,但由于像素级亚纳秒电子秒表的实现困难,dToF 的成本以及技术难度相较于 iToF 更高。目前主流方案是采用 SPAD(一种高灵敏度的半导体光电检测器,被广泛运用于弱光信号检测领域)结合 dToF 技术,来精确检测记录光子的时间和空间信息,从而进行场景的三维重构。dToF 的原理看起来虽然简单,但实际上很难达到较高的精度,主要原因是过程中对于秒表和脉冲信号的精度都有很高要求,且 dToF 中核心组件 SPAD 制作工艺复杂,综合成本对比 iToF 高很多,故目前多数厂家都在推进 iToF 的研究。 二是间接飞行时间(Indirect ToF 即 iToF)。iToF 的原理要复杂一些,其发射的并非一个光脉冲,而是调制过的光。接收到的反射调制光和发射的调制光之间存在一个相位差,通过检测该相位差就能测量出飞行时间,从而估计出距离。 其中,往返行程时间是从光强度的时间选通测量中间接外推的。在这种情况下,不需要精确的秒表,而是需要时间选通光子计数器或电荷积分器,它们只需较少的计算工作和硅面积,就可以在像素级实现。

2.4 机器视觉产品价格水平

机器视觉产品按照下游应用场景的性能要求,可以大致分为消费级和工业级两类。工业级机器视觉对于技术、精度、稳定性等的要求相对更高,而且取决于应用场景及需求不同,整体定制化程度较高,主要通过国外品牌采购上游核心零部件,因此整体成本较高。消费级视觉方案对于精度的要求相对较低,市场参与者更多竞争更为激烈,故而对于成本控制的需求更为严苛。

工业级机器视觉产品的价格水平,以主营工业相机的埃科光电为例,根据其招股书中的信息,其上游零部件如图像传感器、处理器等,主要使用国外知名品牌如 Sony(索尼)、AMS(艾迈斯)、ON(安森美)、Altera(阿特拉)、 Xilinx(赛灵思)等,图像传感器均价近 3000 元,处理器均价约 550 元。埃科光电的主营产品工业线/面扫描相机平均单价为 6626.54、36695.15 元。

消费级 3D 视觉方案产品的价格水平,以供货给优必选的奥比中光为例,根据其招股书中的信息,3D 视觉传感器主要由深度引擎芯片、光学成像模组、激光投影模组以及其他电子器件、结构件等构成。其中光学成像模组的核心部件包括感光芯片、成像镜头、滤光片等核心元器件,激光投影模组包括激光发射器、衍射光学元件、投影镜头等核心元器件。感光芯片供应商有索尼、三星、韦尔股份、思特威等;滤光片供应商有 Viavi、五方光电等,光学镜头供应商有大立光、玉晶光电、新旭光学等;激光发射器供应商有 Lumentum、菲尼萨(Finisar)、艾迈斯半导体(AMS)等,衍射光学元件供应商有 CDA、AMS、驭光科技等。

现阶段人形机器人进入规模量产阶段,对视觉方案的需求更关注于产能供应和成本控制两方面,推测消费级 3D 视觉产品有望成为需求主流。但随着未来人形机器人应用场景的复杂化及多元化之后,不排除需求工业级机器视觉产品的可能性。

--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派

新能源 / 汽车 / 储能

新能源汽车 | 储能 | 锂电池 | 燃料电池 | 动力电池 | 动力电池回收 | 氢能源 | 充电桩 | 互联网汽车 | 智能驾驶 | 自动驾驶 | 汽车后市场 | 石油石化 | 煤化工 | 化工产业 | 磷化工 | 基础化工 | 加油站 | 新材料 | 石墨烯 | 高分子 | 耐火材料 | PVC | 聚氯乙烯 | 绿色能源 | 清洁能源 | 光伏 | 风力发电 | 海上发电

本文为凯迪网自媒体“凯迪号”作者上传发布,代表其个人观点与立场,凯迪网仅提供信息发布与储存服务。文章内容之真实性、准确性由用户自行辨别,凯迪网有权利对涉嫌违反相关法律、法规内容进行相应处置。
举报
投喂支持
点赞
发表评论
请先 注册 / 登录后参与评论
推荐阅读