12月21日至22日,火山引擎 FORCE 原动力大会冬季特别版在上海隆重召开。本次大会的亮点无疑是豆包大模型系列的全面升级,以及全新发布的豆包视觉理解模型。
豆包视觉理解模型在内容识别、理解推理及视觉描述能力方面均处于行业领先水平。它为大模型赋予了“视觉”,使其能够像人类一样感知和理解现实世界。这一进步无疑为人类与大模型之间的互动开辟了新的形式和应用场景。
在火山引擎 FORCE 大会结束后,智源研究院发布了最新的大模型评测结果。在视觉语言模型的评比中,豆包视觉理解模型荣获全球第二,仅次于 GPT-4o。在中文通用知识和文字识别方面,豆包的表现尤为突出,显示出相较于国际模型的明显优势。
正如生物进化中眼睛的出现是物种繁衍的重要因素,为 AI 加上视觉理解能力的豆包模型,将为人工智能生态的多样性和丰富性奠定基础。
豆包视觉理解模型的行业领先能力
在分析视觉理解对大模型的重要性后,我们可以看到火山引擎推出的豆包视觉理解模型在各个方面的领先性,为视觉理解模型的发展设定了新的标杆。
首先,豆包视觉理解模型具备强大的内容识别能力,不仅能够识别图像中的物体、形状和类别,还能理解物体之间的关系、空间布局以及场景的整体含义。
在发布会的演示中,豆包视觉理解模型能够根据影子的形状识别出动物的种类,甚至能通过光线穿透薄雾的现象判断出这是丁达尔效应,并解释其原理。此外,对于日常生活中不常见的物品,豆包视觉理解模型也能通过拍照进行识别,帮助用户了解其用途。
同时,豆包视觉理解模型在光学字符识别(OCR)方面也表现出色,能够精准提取和理解图片中的文本信息,包括纯文本图像、日常图像及表格内容的提取。
更重要的是,豆包视觉理解模型还具备更强的理解和推理能力,能够应对复杂的图像推理任务。在表格图像、数学问题和代码图像等复杂场景中,模型展现了强大的性能,支持参考问答、总结摘要以及数学、逻辑和代码推理。
例如,它能够快速提取多种类型的图表内容,并准确理解用户的指令,实现灵活的格式化输出,从而高效获取关键信息,提升图表分析的效率。
在一个具体案例中,豆包视觉理解模型能够识别一张食物图片和微波炉使用指南的表格,准确判断加热时间。
此外,豆包视觉理解模型还具备细腻的视觉描述能力,能够基于图像信息进行详细描述,并根据图像内容创作产品介绍、宣传文章、视频脚本和故事诗歌等多种文体。
例如,一家公司希望为客户定制文创产品,豆包视觉理解模型可以基于产品图像创作温馨的祝福语。
又如,用户可以询问豆包视觉理解模型关于夜晚放孔明灯的图像细节,模型会提供准确的回答和相关知识。
豆包视觉理解模型还能够对多张美食图片进行信息提取,深入分析菜品特色,并洞察餐厅环境和服务质量,帮助用户撰写美食点评。
此外,它还能根据多张图片提取灵感,撰写符合用户要求的朋友圈文案,捕捉用户想要表达的情感和元素。
豆包大模型家族的全面升级,助力各行业发展
从豆包视觉理解模型的技术成熟度、创新性及实际使用体验来看,其表现令人惊艳。这一切的成就都得益于字节跳动在基础模型方面的持续投入和创新。
豆包大模型于今年5月在火山引擎春季 FORCE 原动力大会上首次发布,经过一年的迭代和市场验证,现已形成行业内能力最全面的大模型家族,包括通用模型 pro、通用模型 lite、语音识别模型、语音合成模型以及文生图模型等。此次视觉理解模型的加入,为用户提供了更丰富的选择。
在本次冬季 FORCE 原动力大会上,豆包大模型家族也迎来了全面升级。豆包通用模型 pro 已全面对齐 GPT-4o,使用成本仅为后者的1/8;音乐模型的生成能力从60秒提升至3分钟;文生图模型2.1版本则首次实现精准生成汉字和一句话 P 图的能力,已接入即梦 AI 和豆包 App。
此外,豆包3D生成模型也首次亮相,与火山引擎数字孪生平台 veOmniverse结合,能够高效完成智能训练、数据合成和数字资产制作,成为支持 AIGC 创作的物理世界仿真模拟器。
字节跳动还宣布,将于2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,解锁多角色演绎和方言转换等新功能。
尽管豆包大模型发布较晚,但其快速迭代使其成为国内最全面、技术最领先的大模型之一。
火山引擎总裁谭待在会上表示。
对于大模型产品而言,企业需要大规模、高强度的技术和资源投入,同时市场端也需匹配相应的使用量。
正如谭待所言:“只有大的使用量,才能打磨出好模型。”只有通过大量使用,才能真正打通商业闭环,为大模型的迭代升级提供持续的数据支持。
截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。
这表明豆包大模型的能力正在被C端市场充分验证,应用正在向各行各业加速渗透。
在大模型应用场景的构建上,豆包大模型走在了行业前列,与众多行业客户共同创造,赋能智能终端、汽车、金融、消费和互联网等多个领域。
最新消息显示,豆包大模型已与80%的主流汽车品牌合作,并接入多家手机、PC等智能终端,覆盖约3亿台设备,来自智能终端的调用量在半年内增长了100倍。
在与企业生产力相关的场景中,豆包大模型也受到了众多企业客户的青睐:最近三个月,信息处理场景的调用量增长了39倍,客服与销售场景增长了16倍,硬件终端场景增长了13倍,AI工具场景增长了9倍,学习教育等场景也有显著增长。
具体来看,小米的小爱语音助手与豆包大模型合作,提升了语音能力和知识储备;华硕a豆系列笔记本与豆包大模型合作,推出了豆叮AI助手应用;招商银行基于豆包大模型搭建了“掌上生活”bot,能够推荐餐饮优惠门店,并汇总市场行情。
随着豆包视觉理解模型的推出,未来豆包大模型将开拓更广泛的应用领域。
值得一提的是,本次大会上,火山引擎还升级了火山方舟、扣子和HiAgent三款平台产品,帮助企业构建自身的AI能力中心,高效开发AI应用。
火山方舟发布了大模型记忆方案,并推出prefix cache和session cache API,以降低延迟和成本,同时带来了全域AI搜索,具备场景化搜索推荐和企业私域信息整合等服务。
结语
根据麦肯锡的报告分析,大模型的价值创造潜力巨大,预计到2030年将推动全球49万亿人民币的经济增量。目前