数据资产评估有哪些技术?如何用技术解锁数据资产的真正价值?

文 | 商业智能BI相关文章 阅读次数:168 次浏览
2024-05-13 17:57:56

随着大数据、云计算和人工智能技术的飞速发展,企业积累了大量的数据,这些数据中蕴含着巨大的商业价值和潜在的洞察力。然而,随着数据量的激增,如何准确地评估这些数据资产的价值,成为企业面临的一大挑战。数据资产评估技术是一套用于量化数据价值、优化数据管理和支持数据驱动决策的工具和方法。正确的评估技术可以帮助企业识别和量化数据资产的经济价值,从而更好地进行数据治理、风险管理、投资决策和战略规划。

据估计,互联网上的数据量每年以超过50%的速度增长,这为数据资产评估的发展提供了现实条件和基础。因此,传统的资产评估技术和工具已无法满足数据资产评估的需求。为了提升评估的效率和质量,必须对数据资产评估的技术方法进行创新,并融入更高水平的信息化处理工具。通过这些措施,可以确保数据资产评估工作与时俱进,满足现代经济发展的需求。本文将从数据资产评估技术和算法两方面对新兴的数据资产评估方法展开介绍。

数据资产,数据资产评估技术

一、  数据资产评估有哪些核心技术

1、算法模型集成

本数据资产评估体系整合了多种评估算法,包括但不限于基于重置成本的动态博弈法、市场价值法的回归算法,以及智能关联分析法等,这些算法都是数据资产评估应用的核心。通过适当的评估模型,对影响数据资产价值的关键因素进行量化分析,以得出一个合理的评估结果。

2、区块链技术应用

利用区块链技术对数据资产的来源和类别进行追踪和监控,采用水印技术来确立数据资产的所有权。建立一个数据资产安全防护系统,以确保数据在收集、处理和评估过程中的安全,防止数据泄露、丢失或篡改等风险。通过数据标记与追踪、智能合约、加密技术以及环境监测,确保评估报告的唯一性和真实性。

3、知识图谱的构建与应用

知识图谱作为一种基于图的数据结构,通过节点和边来表示现实世界中的实体及其相互关系。它是一种强大的关系表示工具,能够将不同种类的信息连接起来,形成一个关系网络。知识图谱系统旨在帮助用户从大量文本和数据中提取相关知识,自动化和智能化地构建与业务相关的概念和实体网络。此外,知识图谱通过业务数据的关联和校验,极大提升了数据质量和服务效率,并通过沉淀、表示和推理业务知识,实现了数据的智能化服务。

4、自然语言处理技术

自然语言处理技术对数据资产中的文本数据进行词嵌入处理,提取文本的向量特征,为后续的计算和建模提供支持。该技术结合了无监督分词、特征提取、权重计算、文本相似度计算等,深入处理和理解文本的深层语义,从而更精细地解析文本含义,提升数据资产的价值。

通过自动化处理和分析大量评价数据,可以获得详细的评估分数和情感倾向。这一过程涉及到两项关键技术:

  • 一是直接对评估文本进行自然语言处理,如情感分析;
  • 二是对评估效果数据(如点击率、评分)进行数据挖掘。数据服务层提供了自动评估处理服务接口,用户可以通过该接口对众包评估数据进行自动处理,快速生成业务和服务的智能评估。

6、机器学习应用

机器学习技术在数据资产评估中发挥着关键作用,它能够处理市场价值回归分析、数据聚类与分类、以及数据集相关性评估等复杂业务问题。通过分析业务数据的特性,如数据的维度、数量和分布,选择恰当的机器学习模型,可以更有效地满足数据资产评估过程中的查询、推荐、评估和辅助决策需求。

7、人工智能的其他应用

(1)非结构化数据的处理

非结构化数据由于缺乏固定的格式,可以通过已知属性构建目标对象的结构化描述。随着自然语言处理和深度学习等人工智能技术的进步,现在有多种工具和方法可用于处理非结构化数据:

  • 文本数据:有限特征值(如性别)容易转换为数值数据,其他文本数据可通过自然语言处理技术获取。
  • 图像数据:深度学习技术已在图像分类和特征提取方面达到高精准度,可供实际应用。
  • 音频数据:通过语音识别技术转换为文本数据进行处理。
  • 视频数据:通过抽帧技术转换为图像数据进行处理。

(2)元数据的维护与整合

元数据的迁移和整合过程中,人工智能作为技术辅助者,帮助提升元数据质量。它通过消除重复和不一致的元数据,设定元数据质量规则,提出质疑阈值,从而在自动化整合过程中扮演关键角色,解决质量控制和语义筛选问题。

(3)数据质量评估规则的制定

数据质量的提升是整个数据生命周期的重要部分。由于直接在数据源头提升数据质量存在难度和成本,因此需要根据业务需求,针对性地改善各业务线数据流的质量。机器学习技术,包括分类、函数学习、回归等,通过提取有效的数据质量评估指标,最大化地提升数据质量。同时,监督学习和深度学习技术也将对数据清洗和质量评估效果进行评估,不断优化转换规则和评估维度,使数据质量提升方案能够适应数据量和业务期望的变化。

二、  数据资产评估其他常用技术

1、目录构建与血缘追溯技术的应用

在数据资产的交易和使用过程中,数据资产的重复利用和分析结果的再次使用是常态。然而,当数据资产出现变更(如失效、禁用、权限更改、隐私泄露等)时,传统的交易日志追溯方法不仅过程复杂、耗时,而且难以确保全面性和准确性。为了解决这些问题,开发了以下关键技术:

(1)数据资产目录构建

通过为数据资产的行业特性和业务属性建立分级分类的灵活数据目录树,将数据资产依据其属性挂接到相应节点,并将数据源与目录树节点关联,实现数据资产目录的自动化扩展。同时,根据数据资产的安全等级,设置相应的开放级别,以适应不同权限用户的开放、使用和交易需求。

(2)数据资产交易指纹

对每一次数据资产交易,记录涉及的数据资源、交易时间、关键数据集和分析结果集等信息。利用哈希(Hash)算法生成唯一的数据资产交易指纹,并将指纹与交易资源分离存储,可以准确追踪到具体的数据交易。存储方式可以是集中式或分布式(如区块链)。

(3)数据资产血缘图谱模型

基于时间序列和关联关系,为数据资产目录中的数据集和数据项、数据交易产生的数据集和数据项等元数据建立血缘模型,形成树状的父-子关系图谱。该图谱允许追溯任一节点的亲代和子代,识别数据资产的生成和使用链,实时监控数据资产变更的影响范围。

(4)数据资产交易血缘溯源

通过血缘图谱,将数据资产交易指纹关联到图谱中,构建一个多层次的网络结构。这使得任何数据资产都可以追溯到其本身和子代关联的数据交易,任何数据交易都可以追溯到所有使用其结果集的数据交易,实现全面的数据资产管理。

(5)基于血缘追溯的权限管控

利用数据资产血缘图谱,在任一数据资产节点上实施细粒度的权限控制,确保子代继承相应的权限和属性。在数据权限实时管控引擎中,对数据交易资源的访问进行精细的权限控制,防止因数据源头追溯不当而引发的安全风险。

2、可配置的数据质量修复与融合技术

在数据交易及其处理过程中,由于数据来源的多样性和应用需求的多元化,单一的数据质量修复方法往往不足以应对复杂的数据质量问题。为了解决这一挑战,研究并开发了可配置的数据质量修复融合方法。这些方法在数据质量评估的基础上,定义统一的数据质量修复策略,能够自适应并动态组合多种修复技术,以全面提高数据质量。关键技术主要包括:

(1)基于XML语言的数据修复策略定义

分析评估过程中遇到的各种数据质量问题,并基于不同质量修复算法的特性,研究并开发了基于XML的数据质量修复策略定义语言。该语言能够灵活定义和配置不同数据质量修复算法,实现算法间的协同工作。

(2)综合数据质量修复架构

开发了一种灵活的架构,能够动态地组合不同种类的数据质量修复算法。该架构包括算法的抽象和封装以实现模块化,以及建立数据质量修复的管道过滤器体系结构。通过将算法及其接口转换设计为独立且可复用的对象,实现了算法模块的动态组合。

(3)多算法融合的数据质量修复方法

结合启发式和基于规则的方法,根据质量修复算法的特性和基于XML的修复策略配置文件,自动或半自动地选择和融合不同类别的质量修复算法。这种方法能够自适应地综合运用多种算法,全面修复数据评估报告中提出的质量问题。

3、数据脱敏

数据脱敏技术通过模糊化、加扰、加密或转换手段处理数据中的敏感信息,如个人身份标识和用户基本资料,以生成无法识别或推算出原始身份的新数据集。例如,对身份证号码进行不可逆的置换,同时保留其原始格式,从而在数据资产评估中安全地使用这些真实数据。该技术确保了在应用程序使用过程中,敏感信息被有效屏蔽,同时保留了数据的原始格式和属性,增强了数据使用的安全性。

(1)脱敏方法分类

数据脱敏方法主要分为可恢复和不可恢复两种类型:

  • 可恢复脱敏:允许脱敏后的数据通过特定方法还原为原始敏感数据,通常涉及加密和解密算法。
  • 不可恢复脱敏:脱敏过程是单向的,被处理的数据无法还原,包括替换算法和生成算法两种主要方法。

(2)脱敏方案

脱敏方案可分为静态数据脱敏和动态数据脱敏:

  • 静态数据脱敏:对原始数据进行一次性脱敏处理,得到的脱敏数据可被重复使用,适用于单一使用场景。
  • 动态数据脱敏:在敏感数据被访问或展示时,根据用户需求实时进行数据屏蔽处理。这要求系统具备必要的安全措施,防止用户绕过脱敏机制直接访问敏感信息。

静态数据脱敏技术

静态数据脱敏是一种专门用于保护静态数据中敏感数据元素的技术,这些元素可能包括数据库中的敏感列或字段。该技术主要应用于非生产环境,以及那些不需要数据实时更新的应用场景,例如在软件开发和测试阶段。

当需要将数据从生产数据库迁移到非生产数据库时,尤其是在涉及客户安全数据或商业敏感信息的情况下,为了防止数据泄露,静态数据脱敏技术能够在不违反系统规则的前提下,对真实数据进行必要的改造,以供测试使用。这包括对身份证号、手机号、银行卡号、客户编号等个人信息实施脱敏处理。

脱敏操作通常在数据从物理文件加载到测试数据库时执行。一旦生产环境中的敏感数据完成脱敏,这些数据便可以在非生产环境中安全地使用。

静态脱敏,数据资产,数据资产评估技术

作为一种传统的数据脱敏模式,静态数据脱敏涉及从原始数据库中一次性导出数据,进行脱敏处理,并将脱敏后的数据用于测试开发或公开发布。脱敏后的数据可以导出为文件,或存储在镜像库中。

静态数据脱敏技术维护两套数据:原始数据和脱敏数据。原始数据用于内部系统访问,而脱敏数据则提供给外部应用系统。该技术的特点是一次性处理所有待脱敏的数据,允许根据数据量和特性制定最优的脱敏策略,以实现最小的信息损失和最佳的脱敏效果。

动态数据脱敏技术

动态数据脱敏是一种实时的数据处理技术,它允许在不更改原始数据的情况下,对敏感数据进行即时脱敏。这种技术特别适用于生产环境,能够在用户请求访问敏感信息时,动态地对其进行脱敏处理,并提供脱敏后的数据,是一种更为普遍的脱敏实践。

在动态数据脱敏中,系统会根据用户的角色、职责以及由IT策略定义的规则,对敏感数据执行屏蔽、加密、隐藏、审计或封锁等操作。这确保了业务用户和合作伙伴等不同身份的用户能够安全地访问和使用数据,同时避免了隐私数据泄露带来的安全风险。

动态脱敏技术,数据资产,数据资产评估技术

与传统脱敏不同,动态数据脱敏不会存储脱敏后的数据,而是根据实时的访问需求和访问者身份来动态执行脱敏操作。这种模式要求为不同的数据类型配置脱敏规则和策略,并且可以为不同身份的访问者设置不同的脱敏级别,以实现对敏感数据的精细访问控制。

动态数据脱敏可以应用于内部应用系统或直接从原始数据库中获取数据。脱敏引擎会根据外部应用系统的访问请求,实时地获取并处理数据,然后将处理后的数据提供给外部系统使用。

动态数据脱敏的部署可以通过两种模式实现:代理模式和主动服务模式。

  • 代理模式中,外部应用系统像往常一样访问企业数据,而脱敏引擎在后台自动进行脱敏操作,对用户而言是透明的。这种模式适合在现有的IT系统中部署。
  • 主动服务模式则要求用户通过特定的接口来获取数据服务,相比代理模式,主动服务模式的开发难度较低。

三、  数据资产评估有哪些核心算法

1、运用规则元数据构建数据质量评价模型

数据质量是一个多维度且情境相关的概念,它在不同时间、不同领域有着不同的定义和评价标准。为了应对数据质量的多样性和复杂性,研究构建了一个全面、多维度的评估模型,该模型以数据质量约束规则库为核心。

基于规则元数据的数据质量评估体系由五个支撑元模型构成:

(1)数据字典元模型

该模型存储了描述数据实体的元数据,涵盖了数据库信息、数据表专业属性、数据源中表的详细信息以及表中字段的具体描述。

(2)约束规则元模型

此模型包含了所有数据质量的约束规则及其与实体数据的关系。在评估过程中,利用函数扩展元模型从规则元模型中提取相关规则,并据此计算数据质量的各项指标。模型中使用的数据质量对象信息均源自数据字典元模型。

(3)函数扩展元模型

该元模型由两部分组成:质量指标扩展模型和约束规则扩展模型。这些模型的定义为系统未来的扩展性提供了必要的元数据支持。

(4)评估元模型

评估元模型记录了执行数据质量评估所需的各种函数信息,包括数据质量指标、约束规则与函数之间的映射关系,以及评估流程的详细信息。它是评估过程的基础,确保在每次评估中,能够调用适当的处理函数,分析数据质量约束规则,并完成数据质量指标的评估。

(5)评估结果元模型

该模型保存了数据质量评估的指标信息和结果信息。它为用户提供了一个直观的系统展示界面,记录了每次评估的数据质量指标信息和评价结果日志,包括评估过程信息、违反规则的数据记录、运行错误的数据等。

2、  利用系列元模型优化数据质量评价算法

依据先前定义的数据质量评价指标和算法,以下是基于五个元模型的数据质量评价流程:

步骤一:以数据完整性为例,首先明确完整性的约束规则,并确立这些规则与元模型之间的对应关系。

步骤二:根据步骤一的成果,识别所有与完整性相关的表间关系,并确定相关的过滤条件。

步骤三:利用步骤二确定的表间关系,对整个实体数据库进行扫描,以识别出不符合完整性条件的问题数据。

步骤四:从评价元数据库中检索所需的评价函数、约束规则及其相互关系和评价流程。结合步骤三识别的问题数据,使用预设的公式计算评价指标的得分,并将结果输入到评价结果数据库中。

步骤五:审查评价结果,包括评价过程的详细信息、约束规则的日志记录、规则错误信息以及完整性评价的总结。最终,通过图形用户界面将评价结果以直观的方式展示出来。

四、  数据资产评估其他常用算法

选择数据脱敏算法通常取决于具体的业务需求和逻辑。针对敏感信息如个人姓名、身份证号码、银行账户信息、交易金额、日期、居住地址、联系电话、电子邮箱地址、车牌号码、企业名称、工商注册码、组织机构代码以及纳税人识别号等,学术界和业界已经开发和完善了多种成熟的脱敏技术。

1、替代算法

替代算法通过使用伪装数据对原始数据中的敏感内容执行完全替换,以确保敏感信息的安全性。这种伪装数据是不可逆的,意味着无法还原出原始数据。替代算法是数据脱敏中常用的方法之一,具体技术包括:

(1)常数替代

用一个固定的常数值替换所有敏感数据。

(2)查表替代

根据特定算法或随机选择从替代字典中进行替换。

(3)参数化替代

敏感数据通过函数映射变换生成脱敏数据。 选择替代算法时,需要综合考虑业务需求和算法效率。虽然安全性高,但替换后的数据可能会失去业务含义,从而不具备分析价值。

2、混洗技术

混洗技术通过随机交换敏感数据的跨行位置来破坏数据间的关联性,是一种保护数据隐私的脱敏方法。混洗能够在保持数据特征(如数据范围和统计特性)的同时,对数据进行脱敏处理,但这可能会牺牲一定的安全性。

混洗技术不足之处

混洗方法适合于需要保留数据特征的大型数据集场景,但对于小数据集可能不适用,因为小数据集中的混洗数据可能通过其他信息被还原。混洗的效率依赖于混洗算法,但高效的混洗算法往往效果不佳。

此外,混洗不支持流式数据处理,需要在所有数据集齐后才能进行,这是传统混洗算法的一个主要局限。

3、数值变换方法

数值变换涉及对数值或日期类型的数据按照一定规则进行随机的数值扰动,例如,对数值数据随机增减一定百分比,对日期数据随机增减天数。这种方法的优点在于能够在不泄露精确敏感数值的同时,保持原始数据的统计特性。

目标数据的统计特性和真实度可以通过参数调整来满足业务需求,因此数值变换是一种适用性广泛的脱敏技术。

4、加密技术

加密是一种利用密码学方法对原始数据进行加密的处理方式,它允许通过密钥恢复原始数据。常用的加密算法包括SHA2、SM4、AES、FPE以及对称和非对称加密算法等。尽管加密算法提供了数据还原的能力,但它们的可逆性也带来了安全风险,如密钥泄露或加密强度不足可能导致的暴力破解。

此外,高加密强度的算法通常需要较高的计算能力,可能对大数据集造成较大的资源消耗。保留格式的加密技术能够在不改变数据格式的前提下进行加密,但相比其他方法,其加密强度相对较弱,因此常用于脱敏应用中。

5、屏蔽技术

屏蔽是一种使用掩饰符号(如“X”或“*”)对敏感数据的部分内容进行统一替换的方法。这种方法保留了原始数据的总体结构,同时隐藏了敏感细节。屏蔽技术包括部分数据屏蔽、混合屏蔽和确定性屏蔽等:

(1)部分数据屏蔽

用特定字符(如“*”或“#”)替换数据的一部分或全部,以遮盖原文。

(2)混合屏蔽

将相关列作为一个组进行屏蔽,确保这些列中的数据在屏蔽后保持一致性,例如城市、省份和邮政编码。

(3)确定性屏蔽

确保屏蔽后生成的值是可重复的,对于如客户号、身份证号和银行卡号等特定值,在所有数据库中保持一致的屏蔽结果。

6、空值插⼊/删除法

空值插入/删除法通过删除敏感数据或将其置为空值,是一种简单直接的脱敏方法。

7、乱序方法

乱序是指对敏感数据列的值进行随机重新排列,以混淆原始值与其他字段间的联系。这种方法保持了数据的统计特性,例如,乱序后的列的总金额与原数据保持一致。

8、可逆脱敏技术

可逆脱敏技术确保了脱敏后的数据能够还原,这对于需要将第三方分析机构或内部分析团队基于脱敏数据所得的分析结果还原为原始业务数据的情况非常有用。

五、  总结

随着数据资产在现代经济中的重要性日益凸显,准确评估这些资产的价值变得至关重要。本文综述了数据资产评估中的一系列核心技术,包括算法模型集成、区块链技术、知识图谱、自然语言处理、机器学习以及人工智能在非结构化数据处理、元数据维护、数据质量评估和脱敏等方面的应用。这些技术的融合不仅提高了数据资产评估的准确性和效率,而且增强了数据的安全性和隐私保护。 

展望未来,随着技术的不断进步和创新,数据资产评估领域有望迎来更多突破。特别是,随着大数据、云计算和人工智能技术的深入发展,我们预期将出现更多高效、智能的评估工具和方法。此外,为了应对不断增长的数据量和复杂性,评估模型和算法也需要不断地进行优化和更新,以适应新的数据环境和业务需求。 

最终,数据资产评估的目的是为了更好地支持决策制定、风险管理和价值创造。因此,评估技术的发展应始终围绕实际应用场景,注重实际效果,以及与业务目标的紧密结合。通过不断的技术创新和实践探索,我们有理由相信,数据资产评估将为组织提供更深刻的洞察力和更强的竞争力,从而在数据驱动的商业世界中取得成功。

帆软软件深耕数字行业,能够基于强大的底层数据仓库与数据集成技术,为企业梳理指标体系,建立全面、便捷、直观的经营、财务、绩效、风险和监管一体化的报表系统数据分析平台,并为各业务部门人员及领导提供PC端、移动端等可视化大屏查看方式,有效提高工作效率与需求响应速度。

产品体验

相关内容

目录
立即咨询 立即咨询

商务咨询

在线咨询
专业顾问帮您解答问题

电话咨询

技术问题

投诉入口

微信咨询

返回顶部