基于事件相机的视触觉初步调研

2026-03-20

常见 Event-based Vision Tactile 的任务

用两个灵巧手手指摩擦材质， Transformer 区分 20 种材质，但是仅仅依靠声学信息就获得了最佳表现，视觉以及 optical flow 会导致 overfitting。

audio_rgb_tac_texture

我个人认为是在有相对位移的情况下，触觉传感器感知的是力，接触面的力。无法捕捉到接触材质的实际信息，因此导致准确度很低。

Michael Lambeta 做了一个多模态的，融合听觉视触觉的传感器，进行预训练，通过端到端的方法做手内操作

Benjamin Ward-Cherrier 用 SNN 和 DAVIS240 做了一个材质辨识。设计 4 个简单的事件->脉冲编码，并训练网络。识别的目标为不同凸起密度的 3D 打印材质板，以及多种明显区别的材料，难度偏小。

后续工作中：用相同的传感器相同的数据收集策略，简化事件->脉冲编码，识别了 10 种材料。 Benjamin Ward-Cherrier

evetac_braille

硬件是普通的平面胶体的事件相机触觉传感器使用 CNN 进行盲文解析，将事件转换为 voxel 直接输入到网络中。对于连续的盲文，有一个模块来区分是否处于两个盲文之间。在 8-32mm/s 的速度下能够以约 80% 的准确率检出 1.5mm 的盲文

roller_braille

使用特殊的滚筒传感器，使用 DSI 显式建模凸起，然后通过凸起来解析盲文。相较上一个需要准确的位置信息，凸起检测分辨率约 0.5mm

在那个仿生无人机上装了四个单点的力传感器，然后抓住重量变化的杯子等复杂物体。

grasp_drone_tactile

用事件相机触觉传感器加 CNN 做了滑移检测 1000Hz

evetac_slide

不是直接触觉，但是使用 photometric stereo 来建模物体，通过事件相机的高频特性能够提升重建的速度（31%），并保持可接受的效果。但是物体和相机必须保持静止。

event_ps

把触觉和吸盘抓取合并了。

sucking_tactile

单纯的做一个新的传感器构型有点没意思，会花费很多时间调制硅胶，应该利用尽可能现成的东西来做
目前的想法有点类似拿着锤子找钉子，我觉得应该先找到一个具体的问题，能够缩小到很小的问题再来做
找问题的几种方式：复现别人的实验，等待灵光一线
视触觉传感器最重要的是它的空间分辨率，论频率比不过磁力/应变片传感器，所以要找到一个能够足够利用空间分辨率的任务。
之前我想到一个，用事件的触觉传感器夹着一个乒乓球拍柄，球拍保持静止，一颗球撞击球拍，通过力的变化判断撞击的位置。一个二维回归任务。但是这个任务很难有后续的工作。

做材质辨识是不是已经到头了，只能用 SNN 这样的东西来显得自己有创新。视触觉目前的凝胶形式，由于凝胶本身的响应频率限制以及凝胶不适应相对滑动，无法充分利用事件相机的高频率的特性，是否有更好的方式来做呢？
之前说的将事件视触觉融入一个 VLA / DP 网络，简单的做这一件事或许是可以的，但是对于常见的任务可能不会有显著提升。
常见任务：插入接口，易碎物品抓握...

和 DK 制作一个事件相机的原型机
硬件设计参考EveTacgithub paper。硬件需要采购 GelSight mini 以及对应的替换盖子，需要联系采购约 5k。
和 LST 完成一个纯视觉的简单材料分类 Demo，使用 CNN 等传统神经网络针对容易的情况进行分类（羽绒服、毛衣、蕾丝三种）
1. 采集数据：未接触->没有相对滑动的接触；没有相对滑动的接触->有相对滑动的接触。每个材料大概采集 20 条数据，要有 a.胶体与材料接触角度的变化 b.接触速度的变化 c. 滑动速度的变化 2. 设计数据增强：旋转放缩以及变速