678CHAT AI资讯 搞定垂直大模型,先得把数据煮熟

搞定垂直大模型,先得把数据煮熟

来源| 零壹智库

搞定垂直大模型,先得把数据煮熟插图

在数字化浪潮的推动下,垂直大模型正成为各行各业转型升级的关键。然而,这一转型并非易事,它需要跨越重重难关。国家电子计算机质量检验检测中心的专家指出,数据治理是构建垂直大模型的首要挑战,没有高质量的数据,就如同巧妇难为无米之炊。

2024年8月16日,零壹智库与苏州高铁新城产业发展有限公司共同举办了“金融数智化系列研讨会”,在会上,国家计算机质检中心的专家深入探讨了数据治理的重要性。

在随后的访谈中,专家进一步阐述了数据治理和数据管理的深层次理解。

01

数据基础的初步形成

零壹财经提问道,大模型的发展依赖于算力、算法和数据三大支柱。目前,公开和公共数据的讨论已经相当充分,但随着大模型向垂直领域深入,行业数据、商业数据和用户数据等非公开数据成为了核心资源。那么,我们是否已经具备了发展垂直领域大模型所需的数据基础?

国家计算机质检中心的专家回应称,随着数字化进程的加速和大数据技术的不断进步,众多企业和机构已经建立了数据中心和数据仓库,积累了丰富的行业数据、商业数据和用户数据,为大模型的发展提供了技术和数据上的支持。

然而,在实际操作中,数据的有效性和准确性对大模型的训练效果有着直接影响;同时,如何在训练过程中保护用户数据隐私,防止数据泄露,也是亟待解决的问题。

为了让数据更加真实地反映行业和用户需求,对数据质量和数据安全提出了持续的要求,需要建立常态化的数据管理机制。

02

建立数据管理的国家标准

零壹财经进一步询问,数据管理是一个广泛的概念,涵盖了数据业务的多个方面。那么,如何建立合理的数据管理标准呢?

专家解释道,尽管近年来对数据管理和治理领域的标准重视程度不断提升,但内容和方法仍然缺乏统一定义。不同企业的数据管理现状差异巨大,数据治理是一项复杂的工程,需要系统性的指导。

为了构建数据管理的基础制度,我国推出了DCMM标准,即《数据管理能力成熟度评估模型》,这是我国在数据管理领域的首个国家标准,代表了一种自上而下的数据治理方法,经过多年的推广,正处于快速发展阶段。

DCMM标准体系将企业数据管理成熟度分为五个等级,清晰地定位了不同企业数据管理能力所处的阶段。通过数千家企业的评估实践,证明了DCMM等级划分的科学性和适用性。

金融行业同样可以借助DCMM标准体系的推广和应用,帮助企业和行业机构科学评估自身的数据管理能力,发现问题和不足,建立起符合自身特点的数据管理框架,为金融数据资产化和参与数据市场流通奠定了坚实的基础。

零壹财经询问,在哪些环节和领域进行改进,才能获得更好的数据管理级别?

国家计算机质检中心的专家回答说,DCMM体系综合了技术和管理的要求,从组织、制度、流程、工具等多个维度进行分析,帮助企业发现并改进问题。它覆盖了数据治理的常见要素,包括数据战略、数据治理、数据架构、数据标准、数据应用、数据安全、数据质量和数据生存周期等八个核心能力域。

具体而言,应运用先进的技术工具和平台支撑大数据治理和应用工作;同时,要重视全过程的规范管理,引导企业的管理部门和业务部门共同参与,保障数据管理工作的闭环和常态化执行;应自上而下地推动形成数据管理文化和意识,明确数据管理的目标、路径和权责,避免为了治理而治理;积极探索多样的数据分析、数据共享方式,挖掘并实现内外部数据资产价值。

通过这些措施,可以全面提升数据管理水平。

03

挑战:企业普遍处于2级阶段

零壹财经提问,经过近几年的数据管理检测和评级的推进,目前数据管理领域面临的最大问题是什么?

国家计算机质检中心的专家表示,从企业层面来看,领导层的认识和决心是最重要的,是数智化转型的原动力。面对数据管理这样一项涉及众多部门、需要耗费大量精力和财力的工作,不同行业和地区的现状也差异较大。

以DCMM全国贯标工作的数据来看,大部分企业处于2级阶段,这意味着大部分数据需求仅限于业务层面,对于数据治理体系和平台的整体规划投入不足,企业对于数据治理的意义和认识有待提升。

从行业角度来看,数据管理工作在落地过程中,往往面临行业数据标准欠缺的问题。各行业工作特性差异巨大,势必需要细致的数据质量、数据标准、数据安全等行业规范。

如果没有权威、统一的行业数据治理标准,由企业自行开展规划建设,既增加了数据治理的成本和难度,也对数据开放共享流通环节带来困难。

而在数据管理测评认证方面,虽然数据领域的各项标准在积极推进,但全国性的、权威的数据治理认证体系仍然不多。

例如,国家大力推动的数据入表、数据要素交易流通等工作,其前提就要求确保数据质量,由第三方机构出具数据质量报告。但数据质量标准在各行业、各地区的落地转化、评估认证仍然缺乏统一的体系,尺度和要求不一。

数据质量报告难以跨行业、跨地区的相互认可,这不仅限制了大规模数据交易和应用,也增加了国家和行业监管的难度,无法准确衡量数据质量和制定监管措施,影响数据市场的长远健康发展。

04

政务数据的特点与尝试

零壹财经询问,各行各业都有很多数据掌握在政府部门手中。从政府数据管理的角度看,目前的“数据成熟度”如何?

国家计算机质检中心的专家表示,政府和政务数据是我国近年在数据治理领域意识比较领先的,发挥着积极作用。一方面,各地政数局等数据主管部门牵头制定公共数据共享服务标准,规划和规范各地区数据治理的顶层设计。

同时,一些发展水平较成熟的地区,积极牵头建设数据交换共享服务平台,甚至设立数据交易流通市场,深度参与到数据治理工作中,推动数据资源的整合和共享,为政府数据管理提供了更加便捷、高效的工具,有助于提升各地数据管理的规范化和标准化水平。

一些数字化水平较高的行业,也由各地行业主管部门积极推进,统筹行业数据标准化管理。例如金融、能源、医疗等行业的监管水平都相对领先。

我们接触了一些医疗机构,了解到北京数交所去年在北京医管局选择了六家医院做数据共享和交易试点。数据交易有多种模式,包括统一的、分场景的、分级分类的,目前主要是集中共享到交易平台,需求方经授权后按需使用,但不能拿走数据。

但不管是地方政府或者行业主管部门,他们在数据要素市场中的定位和权责与企业、公民有很大不同,更多是管理方或监管方的身份。

政务数据在数据安全、数据价值等方面的要求和关注点,也与其他种类数据有所不同。

因此在数据治理和交易流通的链条中,仍然需要不同参与方基于自身的诉求和特点,承担不同的数据治理任务,共同构建数据治理生态。

05

金融业数据“成熟度”较高

零壹财经询问,许多金融机构和金融科技机构在推进金融大模型的发展和创新。金融业是数据密度、敏感度很高的行业。在金融数据管理方面,目前整体情况如何,是否为金融大模型的发展做好了准备,您有什么建议?

国家计算机质检中心的专家表示,金融行业在数据管理方面,目前整体呈现出积极向好的态势,建议持续完善和提升,积极探索金融大模型的发展。

以DCMM全国贯标工作的统计数据来看,金融业虽然在企业绝对数量上不多,在获得DCMM证书的金融企业中,DCMM三级以上占比超过一半,取得最高等级的五级企业(银行)也有多家,数据治理平均能力处于全国领先。

在数据治理平台建设、数据分析应用开发等方面得分较高,在数据安全这一其他行业普遍偏弱的领域,由于金融行业的特点,也有较高的数据管理意识和管理水平。

甚至于DCMM国家标准本身,在起草之初也参考调研了我国金融行业的数据治理实践经验。

有力的行业监管和良好的数字化基础,强烈的数据治理需求,以银行为代表的集团公司+子公司的组织形态,这些条件都为金融行业各机构、各级数据管理工作的落实提供了持续推力和资源保证。

金融数据行业可以充分发挥自身的优势积累,以行业头部机构为优势示范案例和带头,在全面深化提升整个行业的数据管理水平的同时,从数据标准、数据质量、数据开放共享等方面继续完善数据治理成果。

加强数据要素生态合作,积极创新实践,探索发展适合行业

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/2375.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部