678CHAT AI资讯 Meta 推出 Sapiens，AI 能看懂照片和视频里的人在干嘛

Meta 推出 Sapiens，AI 能看懂照片和视频里的人在干嘛

作者: 678chat 发布: 2024 年 8 月 25 日 233阅读 0评论

在8月24日的科技领域中，Meta Reality实验室宣布了一项突破性进展——Sapiens AI视觉模型的诞生。这款模型专为四种以人为中心的高级视觉任务设计，包括二维姿势预估、身体部位分割、深度估计和表面法线预测。

Sapiens模型的参数规模庞大，从300百万到2000百万不等，它们采用创新的视觉转换器架构，共享统一的编码器，而每个任务则配备独特的解码器。

二维姿势预估：这项技术能够精确地在二维图像中捕捉和确定人体的关键部位，如肘部、膝盖和肩部，为理解人体动作和姿态提供了新的视角。
身体部位分割：通过这项技术，图像被划分为不同的身体区域，例如头部、躯干、手臂和腿部。每个像素都被精确分类，这对于虚拟试衣和医学成像等应用场景具有重要意义。
深度估计：该技术通过估算图像中每个像素与摄像头的距离，实现了从平面图像到立体视觉的转换。这对于需要空间感知的增强现实和自动驾驶技术至关重要。
表面法线预测：这项技术能够预测图像中物体表面的法线方向，为每个像素分配一个方向向量，这对于三维重建和物体几何形态的理解提供了重要信息。

Meta Reality实验室强调，Sapiens模型支持高达1K分辨率的原生推理能力，并且具有极高的灵活性，可以针对特定任务进行快速调整。只需在超过300百万张自然场景下的人类图像上进行预训练，即可实现模型的优化。

即便在标注数据稀缺或完全依赖合成数据的情况下，Sapiens模型也能展现出卓越的泛化能力，适应各种未经标记的自然数据。

对于有兴趣深入了解Sapiens AI视觉模型的读者，可以参考以下资源：

Sapiens: The Cornerstone of Human Vision Models
Sapiens: The Foundation for Advanced Human Vision Tasks
GitHub上的项目页面

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/1833.html

39赞

标签:Meta

发表回复取消回复