678CHAT AI资讯 Meta 推出 Sapiens,AI 能看懂照片和视频里的人在干嘛

Meta 推出 Sapiens,AI 能看懂照片和视频里的人在干嘛

在8月24日的科技领域中,Meta Reality实验室宣布了一项突破性进展——Sapiens AI视觉模型的诞生。这款模型专为四种以人为中心的高级视觉任务设计,包括二维姿势预估、身体部位分割、深度估计和表面法线预测。

Meta 推出 Sapiens,AI 能看懂照片和视频里的人在干嘛插图

Sapiens模型的参数规模庞大,从300百万到2000百万不等,它们采用创新的视觉转换器架构,共享统一的编码器,而每个任务则配备独特的解码器。

  • 二维姿势预估:这项技术能够精确地在二维图像中捕捉和确定人体的关键部位,如肘部、膝盖和肩部,为理解人体动作和姿态提供了新的视角。

  • 身体部位分割:通过这项技术,图像被划分为不同的身体区域,例如头部、躯干、手臂和腿部。每个像素都被精确分类,这对于虚拟试衣和医学成像等应用场景具有重要意义。

  • 深度估计:该技术通过估算图像中每个像素与摄像头的距离,实现了从平面图像到立体视觉的转换。这对于需要空间感知的增强现实和自动驾驶技术至关重要。

  • 表面法线预测:这项技术能够预测图像中物体表面的法线方向,为每个像素分配一个方向向量,这对于三维重建和物体几何形态的理解提供了重要信息。

Meta 推出 Sapiens,AI 能看懂照片和视频里的人在干嘛插图1

Meta Reality实验室强调,Sapiens模型支持高达1K分辨率的原生推理能力,并且具有极高的灵活性,可以针对特定任务进行快速调整。只需在超过300百万张自然场景下的人类图像上进行预训练,即可实现模型的优化。

即便在标注数据稀缺或完全依赖合成数据的情况下,Sapiens模型也能展现出卓越的泛化能力,适应各种未经标记的自然数据。

对于有兴趣深入了解Sapiens AI视觉模型的读者,可以参考以下资源:

  • Sapiens: The Cornerstone of Human Vision Models

  • Sapiens: The Foundation for Advanced Human Vision Tasks

  • Meta 推出 Sapiens,AI 能看懂照片和视频里的人在干嘛插图2

    GitHub上的项目页面

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/1833.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部