在8月24日的科技领域中,Meta Reality实验室宣布了一项突破性进展——Sapiens AI视觉模型的诞生。这款模型专为四种以人为中心的高级视觉任务设计,包括二维姿势预估、身体部位分割、深度估计和表面法线预测。
Sapiens模型的参数规模庞大,从300百万到2000百万不等,它们采用创新的视觉转换器架构,共享统一的编码器,而每个任务则配备独特的解码器。
-
二维姿势预估:这项技术能够精确地在二维图像中捕捉和确定人体的关键部位,如肘部、膝盖和肩部,为理解人体动作和姿态提供了新的视角。
-
身体部位分割:通过这项技术,图像被划分为不同的身体区域,例如头部、躯干、手臂和腿部。每个像素都被精确分类,这对于虚拟试衣和医学成像等应用场景具有重要意义。
-
深度估计:该技术通过估算图像中每个像素与摄像头的距离,实现了从平面图像到立体视觉的转换。这对于需要空间感知的增强现实和自动驾驶技术至关重要。
-
表面法线预测:这项技术能够预测图像中物体表面的法线方向,为每个像素分配一个方向向量,这对于三维重建和物体几何形态的理解提供了重要信息。
Meta Reality实验室强调,Sapiens模型支持高达1K分辨率的原生推理能力,并且具有极高的灵活性,可以针对特定任务进行快速调整。只需在超过300百万张自然场景下的人类图像上进行预训练,即可实现模型的优化。
即便在标注数据稀缺或完全依赖合成数据的情况下,Sapiens模型也能展现出卓越的泛化能力,适应各种未经标记的自然数据。
对于有兴趣深入了解Sapiens AI视觉模型的读者,可以参考以下资源:
-
Sapiens: The Cornerstone of Human Vision Models
-
Sapiens: The Foundation for Advanced Human Vision Tasks
-
GitHub上的项目页面