678CHAT AI资讯 Manus的三个小启发

Manus的三个小启发

Manus的崛起仿佛只在一夜之间,其影响力已经迅速蔓延至整个科技领域。一个邀请码在二手市场被炒至5万元,足以见其火爆程度。现在,最焦虑的莫过于投资人和那些大厂。

Manus的三个小启发插图

Manus究竟有何魔力,是昙花一现的炒作,还是真正的实力派?

01 它能做什么?

Manus的能力令人惊叹。它可以独立完成一份针对特斯拉的财报分析报告,还能帮你搭建一个可以正常交互的网站,甚至能开发一款可以直接玩的RPG游戏——它能搭建开发环境,自行写代码,自己调试,自行编译。

如果你需要做一个地区人口调研报告,Manus还能自己访问数据库,自行搜索并决定使用哪些数据来完成。几乎只需一个指令,Manus就能完成一个复杂的分析项目。官网数据显示,在AI agent的评测标准GAIA benchmark基准下,其表现甚至超过了OpenAI的DeepSearch。

经过对用户在推特和国内社媒上发布的使用案例分析,Manus在执行过程中完全能够与DeepSearch比肩。每个流程的执行代码、产出文件都清晰可见,分门别类地整理好供用户查阅。在特斯拉和英伟达的财报分析与估值结果上,其表现丝毫不逊色于雪球上的各种大V。

最令人惊艳的是,Manus通过自己搭建的虚拟电脑来执行数据获取、计算、开发环境搭建和测试等一系列硬核环节,这几乎将用户从复杂的基础工作中解放出来。即使是新手,也可以零基础开始工作。

02 背后的团队

Manus之所以引发如此大的关注,除了其高质量的产出外,作为国内团队的作品也是其引发社媒热议的重要原因。在AI领域,国内团队与美国的顶尖团队相比,并未落后。

Manus是国内AI创业团队Monica AI的另一力作。Monica AI是一款AI chatbot产品,与国外的chatbot不同,它并非仅仅提供一个模型使用入口,而是提供了大量垂直向的API接口,用户无需担心prompt调优,上手即可使用。

创始人肖宏在这款模式简单的chatbot产品上,已经意识到大模型与用户之间交互方式的局限性。模型虽然优秀,但在chatbot中,用户只能通过1v1对话让模型分步骤完成任务,甚至用户可能无法确认输入给模型的token是否是任务的最佳方案。

Manus则让人们在对话框中一步到位解决更复杂的任务。从这个角度看,Manus更像是一个经过规划的AI任务集合。团队没有刻意展示大模型的神奇之处,而是站在用户角度,思考如何发挥模型优势来完成日常任务。这种务实的探索难能可贵。

Manus的故事展现了连续创业者对用户需求的精准把握和团队的超强执行力。至于团队的技术实力,我们稍后再谈。

03 产品的亮点

据接近Manus团队的自媒体《赛博禅心》透露,Manus单条任务的成本约为2美元,仅为DeepSearch的1/10。基于Claude 3.7 Sonet和国内的Qwen模型,Manus增加了自己的训练过程。创始人在播客访谈中提到,即使在做Monica时,他们也不是简单地将用户需求直接交给模型,而是进行了产品调优。

就像一个天赋异禀的练武奇才,需要后天努力才能成为江湖高手。Manus的任务自主规划、思考和完成能力来自其混合模型架构。它并非将任务的某个环节交给Claude,另一个环节交给Qwen,而是打破了模型的“结界”,让每个模型完成自己擅长的任务环节。

多个大模型混合加上Manus的虚拟云端执行环境,实现了让用户只需一次性输入指令,就能完成以往chatbot多轮对话都未必能完成的复杂需求。

关于Manus执行过程的猜测:

《赛博禅心》提到的“工程驱动创新”一词,让我们猜测Manus的任务执行过程中运用了大量工程手段结合模型能力。结合社媒案例分享,我们对Manus的运行机制做了简单猜测。

1. 接收到输入后,大模型首先进行任务分类,决定后续任务执行的模型选择;

2. 然后将输入拆解成多个带有层级关系、优先级和执行顺序的子任务;

3. 按序执行后,上级任务的输出成为下个任务的输入;

4. 最终将多个任务的产出合并成一个分析结果。

对于每个子节点选择什么模型执行,我们猜测如果是编程任务,以Claude为主;如果是中文决策建议类任务,以Qwen为主。根据任务复杂度,单一任务甚至可能是Qwen和Claude混合执行,再通过模型效果对比,选择保留效果最佳的一个。

从上述分析可见,初始需求的输入质量决定了后续任务类型判断、子节点规划和执行效率。因此,Manus对输入质量要求很高,通常需要用户详细且完整地描述需求内容。

这可能会成为Manus的短板,毕竟一个输入的执行时间较长,如果描述不够清晰详细,就会导致时间和算力的浪费,影响产品体验。不过,相信团队未来会改善这一点。

04 当前的问题

从2022年到2025年,经历了三年多的大模型风口,人们对大模型产品的使用体验已经走过了“AHA Moment”决定产品去留的阶段。大模型产品不仅要效果惊人,还必须稳定、快速,才能长久留住用户。

效果稳定性

从推特和国内社媒的使用者反馈来看,与DeepSeek的众口称赞不同,用户对Manus的产出稳定性并不乐观,甚至有不少错误让人啼笑皆非。

如果任务执行中数据或事实出错,最终产出就会不可信,浪费成本。

算力

除了效果不稳定,单任务执行时间过长也是被诟病的另一个点。尽管Manus展示了任务执行逻辑和过程,但用户仍需长时间等待。一个用户发推说,自己的任务执行了4-5个小时。

这背后是团队对使用量的低估,以及Manus架构本身无法满足大量算力需求。用户已经被各大模型养刁了口味,习惯了快速出结果的体验,对于长达数小时的等待自然无法容忍。

如果Manus能给用户一个可预见的完成时间,或许可以减少等待的焦虑。毕竟对于复杂任务,即使执行时间长达2-3小时甚至半天,也比现实中初级员工快得多。

技术能力

如果说算力可以通过加卡解决,那么团队技术能力可能短期内难以补齐。与DeepSeek那样的梦之队相比,Manus的技术储备可能更适合做一款日活百万级左右的用户端产品。

连续创业者出身的团队优势在于需求发现和快速上线产品,但面对用户量增长和技术升级的需求,这些都是需要长期解决的问题。当前用户吐槽的运行速度慢、任务卡顿等问题,正是技术瓶颈的体现。

Manus有了一个优秀的起步基础,有善于发现用户需求的创始团队把控研发方向,但还需要更多AI人才来让Manus成长得更快更稳定。毕竟目前产品现状,内行人使用几次就能大致了解架构,被大厂模仿并非难事。

05 Manus初步证明AI Agent的另一条路

市面上的Agent产品分为通用型和垂直应用型。通用型的代表有OpenAI的“Operator”和Anthropic的“Computer Use”。Anthropic的Agent通过特殊API让开发者调用Claude模型完成基本操作任务;OpenAI则扩大硬件调用范围,允许通过API接口完成编程、旅行预订和购物等操作。国内智谱的AutoGLM运行模式类似OpenAI的“Operator”。

垂直Agent的典型代表是cursor和devin,这两款产品在程序员中口碑很好,但应用领域较窄,难以广泛推广。

Manus创始人肖宏在访谈中提到,垂直和通用相比,后者更具普世价值,但前者更快走入应用。从实际情况看,不少程序员已经在用cursor编写基础代码。

Manus定位为通用型AI agent,通过工程手段实现Agent架构创新,将复杂工作流程封装在云环境上,融合多个大模型,通过任务规划自动完成子节点需求处理,产出的是以往需要多轮人机对话才能完成的复杂任务。

Manus在部分任务上超越了OpenAI DeepSearch的效果,代表了Agent的另一条可选之路。通用型agent产品不可能依靠单一大模型实现,天然就是第三方开发者的使命。毕竟OpenAI和Anthropic的agent不太可能通过竞对模型实现,这就决定了他们的产品研发进度和工程手段无法与第三方相比。

同时,Manus的应用范围比通用型

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/10948.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部