博硕视点

您当前位置:首页 > 新闻中心 > 博硕视点
人工智能和数据法律研究丨浅析企业数据内部的三级构造与制度缺位
发布时间:2026-01-06 09:15:14     作者:赵勇博   分享到:

引言

图片

笔者在研究企业数据的过程中,假定所研究对象严格锁定于“纯企业数据”,即在生产经营活动中由企业自主生成、合法收集、技术加工并实际控制,来源合法不含有任何可识别自然人信息,亦不因脱敏、匿名化而回溯至个人信息;内容不涉及公共管理、公共服务或国家安全事项;处于企业实际控制之下,可经技术手段证明其持有、管理或处分状态的数据。在这个基础上尝试解析企业数据的特征、内部三级构造与现行制度缺位的原因。


一、企业数据的特征


6f217bce816cbc68b950ca804e8015a7.jpg


(一)无形性

1.存在形式的无形性。企业数据以电磁记录为存在形态,无体无形,既无物理边界,亦无法被感官直接占有。其生成、存储与流通均依附于服务器、云端或区块链节点,脱离特定载体即难以呈现,但又不等同于载体本身:同一数据可于毫秒间跨越若干物理设备,而价值不减。

2.权利行使的无形性。无形性决定了传统“占有—交付”规则难以直接适用,权利边界须借助技术措施与法律拟制共同划定;同时也导致数据交易无需现实交付,仅需“可复制即可处分”,从而衍生出“持有即控制”的新型公示方式。司法实践中,法院往往以“能否通过技术手段排除他人访问”作为认定企业享有竞争性利益的核心标准,正是对无形性特征的间接回应。换言之,企业数据的财产意义不在于“看得见”,而在于“控得住”。


(二)可复制性

1.数据可以无限复制。数据的可复制性体现为零成本、零损耗、短时间完成。企业只需一次创建,即可在无限数量的载体上同时“存在”,且每一副本均与原件保持信息同一性。此种特性颠覆了传统财产“占有即稀缺”的基本假设:数据越被复制,其市场供给反而越充裕,边际成本趋近于零。

2.可复制性带来双重法律效果。一方面,它奠定了数据要素大规模流通的技术基础,使“一对多”许可、分时授权、再许可成为可能;另一方面,它加剧了“搭便车”风险,若无法律赋权,企业无法凭借技术措施单独阻止他人零成本复制并商业化利用。因此,可复制性要求权利设计必须从“控制载体”转向“控制使用行为”,即将权利边界锚定在“实质性利用”而非“物理占有”之上,以实现稀缺性的法律拟制。


(三)非排他性

1.数据无法物理性排他使用。数据的非排他性是指企业无法像对待有体物那样,仅凭事实管理即排除他人同时访问或使用。数据一旦产生,即可被多方并发读取、缓存、再加工,且互不降低彼此的使用效能。该特性源于数据的可共享性与网络外部性:同一销售数据集,可被平台内千万商户同时用于库存管理,亦可被外部竞争者抓取后用于比价服务。

2.对数据无法采用绝对排他限制。若法律赋予绝对排他权,不仅技术上难以实现,也可能抑制数据的社会价值最大化。因此,非排他性要求区分“控制”与“排除”:企业可借助加密、API 密钥等技术手段实现“控制”,但法律上的“排除”须限定于“实质性搭便车”行为,而非一概禁止平行开发。非排他性决定了数据财产权只能是一种“有限排他”或“相对排他”,其制度重心应从“禁止接触”转向“禁止不当利用”。


(四)非竞争性

1.数据非竞争性带来网络效应。任何主体对企业数据的使用,不会减损其他主体在同一时间、以同一方式使用同一批量数据的可能性与质量。区别于传统有体物的“此消彼长”,数据要素呈现“越用越旺”的网络效应:越多企业接入同一数据池,路径优化算法越精准,整体价值呈指数级增长。

2.数据的差异化保护有效避免反公地悲剧。若对所有数据一视同仁地赋予强排他权,将导致“反公地悲剧”:基础数据被少数企业分割锁定,后续创新因无法获得足够原材料而枯竭。因此,非竞争性要求制度设计必须区分“基础层”与“应用层”,通过分层保护,将非竞争性带来的社会福利内部化,同时避免激励不足。


(五)价值源于聚合与分析

1. 数据价值的生成源于聚合与分析的倍增效应。1单条原始数据市场价值极低,其巨大价值只有在企业投入算法、算力对海量数据进行汇聚和提炼后才能指数级释放。这具体表现为两种效应:一是“聚合效应”带来的规模经济,即数据量倍增能显著降低模型预测误差,遵循“指数—对数”曲线快速收敛;二是“分析效应”带来的范围经济,即同一数据集合经不同算法处理,可衍生出信用评级、库存预警等多元产品,实现“1+1>2”的价值创造。

2. 法律保护应遵循“投入与增值”的差序原则。基于上述价值生成逻辑,法律保护必须聚焦于“投入”与“增值”两个关键环节。对于聚合阶段的实质性投资,应承认其“数据集合”的有限财产权,以防止搭便车行为;对于分析阶段的创造性劳动,则需赋予“数据产品”更强的排他权,以确保开发者能回收成本并获利。这构成了“弱—强”差序保护的经济学正当性:保护强度与主体的价值贡献度成正比,与数据的底层共享需求度成反比。


二、企业数据的三级构造:

原始数据—数据集合—数据产品


811ef7af26728ac213114202e9c6cb32.jpg


正如前文提及,企业数据天然呈现“原始—集合—产品”的三级跃迁2:原始数据尚处离散状态,主要体现非排他、非竞争的公共产品色彩;数据集合因规模化投入而初具财产价值,却仍保留共享需求;数据产品则凭借深度加工实现价值飞跃,成为可交易、可融资的私权客体。


(一)原始数据

图片

1.定义

原始数据是指企业在生产经营活动中通过传感器、日志、交易记录或其他自动化手段初次生成、尚未经过清洗、聚合、建模等实质性加工的离散数据单元。其内容不含可识别个人信息,亦不承载公共管理职能,属于“纯企业数据”范畴的底层形态。

图片

2.特征

(1)散装存在,单条数据几乎无法单独产生经济效用,价值密度趋近于零;

(2)可无成本复制,亦可能因存储策略或技术故障被瞬时删除;

(3)尚未形成可识别的“集合”外观,企业对其仅享有事实控制,法律地位相当于“占有”而非“所有”。

图片

3.价值

原始数据是后续两层结构的“原材料”。其核心价值体现在“量”的积累:足够大的原始数据池为算法训练、趋势发现提供样本基础;同时,因其获取成本相对低廉,可成为企业进入数据要素市场的“入场券”。此外,原始数据记录了业务运行的全痕迹,可辅助企业完成合规审计、风险追溯与内部流程优化。

图片

4.风险

第一,法律风险源于来源合规性。若企业在收集环节未尽到告知或匿名化义务,可能导致后续整个数据链被“污染”。

第二,技术风险突出:海量原始数据占用存储资源,却难以立即变现,容易造成成本—收益倒挂。

第三,竞争风险表现为“数据爬取”频发,企业投入大量服务器成本生成的原始数据,可能被竞争对手通过技术手段零成本复制,却因尚未达到“集合”层级而难以获得财产权救济。

第四,管理风险不可忽视:原始数据生命周期短、更新频率高,缺乏分类分级策略将导致“数据沼泽”,反而拖慢决策效率。



(二)数据集合

图片

1.定义

数据集合是指企业对海量原始数据进行清洗、去重、标准化、字段对齐等系统性整理后,形成的具有统一结构、可机读、可检索的大型数据集。其已脱离离散状态,但仍未进入深度加工与模型化阶段,是“纯企业数据”层级的中间形态。

图片

2.特征

(1)规模上记录数通常达到百万级以上,字段维度在百级左右,具备“大数据”外观;

(2)企业可通过访问控制、API 密钥、技术措施阻止他人复制,但无法禁止独立收集相同数据;

(3)通过 “抽取—转换—加载”流程,实现语义一致与格式统一,可被直接调用。

图片

3.价值

数据集合的“价值飞跃”体现在规模效应与便捷效应:一方面,它降低了后续分析与建模的数据准备成本,成为 AI 训练、商业智能、精准营销的核心燃料;另一方面,其可检索、可统计的特性使企业能够输出行业指数、趋势报告等初级数据服务,实现首次货币化。司法实践亦承认企业对“经实质性投入形成的集合”享有竞争性利益,可禁止他人“不劳而获”式抓取3,从而为数据资产入表与融资评估提供权利基础。

图片

4.风险

第一,投入回收风险:数据集合的整理、存储、维护需要持续资本支出,若法律赋予过强排他性,可能因“反公地悲剧”导致无法通过共享摊薄成本;

第二,质量衰减风险:数据具有时效性,集合若不能及时更新,将迅速贬值;

第三,替代性风险:竞争对手可通过独立收集或公开渠道获得相似集合,导致企业难以证明“不可替代性”进而无法获得强保护;

第四,合规外溢风险:虽然本文排除个人信息,但集合内若残留可重识别字段,仍可能被监管认定为“可复原”,从而触发个人信息保护义务,使企业面临整库删除或高额罚款。



(三)数据产品

图片

1.定义

数据产品是指企业在数据集合基础上,通过算法建模、深度挖掘、语义标注、可视化封装等创造性劳动,生成的具有独立功能、可直接满足终端需求、可单独交易的数据成果。其形态包括 API 接口、指数报告、预测模型、SaaS 分析工具等,是“纯企业数据”层级的最高形态。

图片

2.特征

(1)脱离原始数据可单独运行,用户无需接触底层集合即可获取结果,具备了功能的独立性;

(2)单条输出可能蕴含高商业决策价值,可重复销售且边际成本趋近于零;

(3)因凝结创造性算法与独特业务逻辑,他人难以通过独立收集复制;

(4)能够以许可证、订阅、一次性买断等方式进入市场,具备标准化合约与定价机制。

图片

3.价值

数据产品实现了从“原材料”到“终端消费品”的质变:其通过模型化封装,将隐含在集合中的相关性、趋势性信息转化为可直接指导生产、投资、风控的决策信号,从而完成数据要素的“资本化”跃迁。典型如“生意参谋”4将电商集合数据转化为销量预测 API,单年许可费高达数亿元;又如“企业电智绘”5利用电力数据生成信用评分,成功实现数据资产质押融资 1000 万元,标志着数据产品已具备金融属性。

图片

4.风险

第一,市场失效风险:数据产品生命周期短,若算法更新滞后,可能被竞品替代;

第二,算法偏见风险:模型训练隐含样本偏差,导致输出结果歧视性定价或“杀熟”,引发监管调查与集体诉讼;

第三,反向工程风险:竞争对手通过合法购买后实施逆向解析,虽触及商业秘密红线,但举证难度高、维权成本大;

第四,权利滥用风险:若企业对数据产品主张绝对排他,可能阻碍行业基准数据形成,诱发“数据垄断”。



三、制度缺位:集合与产品界限模糊

(一)问题的提出

在“原始—集合—产品”三级构造中,数据集合与数据产品本应承担截然不同的制度功能:前者是基础性、共享性资源,后者是终端性、可交易商品。然而,无论是成文法、监管规范还是司法解释,均未对二者给出可操作的区分标准,导致“同一对象、多种定性、多重保护”的混乱局面。立法者似乎默认“投入即财产”“加工即产品”,却未回答“投入多深算产品”“加工到哪一步不再是集合”这一关键追问。界限模糊已外化为三大痛点:确权环节“一物多权”、交易环节“一物多价”、救济环节“一案多判”。本文在纯企业数据范围内,系统梳理成文规范、监管与司法层面的缺位表现,并揭示其深层制度根源。


(二)立法解释缺位

1. 法律概念真空。

《民法典》第127条仅宣示性规定“法律对数据、网络虚拟财产的保护有规定的,依照其规定”,既未界定数据类型,更未区分集合与产品。紧随其后的《数据安全法》第3条将“数据”定义为“任何以电子或者其他方式对信息的记录”,依旧停留在“信息载体”层面,对“记录”是否经加工、是否可独立交易未置一词。《网络安全法》《电子商务法》聚焦个人信息与平台责任,对不含个人信息的纯企业数据几乎保持沉默。

2. 标准缺失。

现行法律规范对“何种数据值得何种保护”缺乏明确标准,呈现“要么过度、要么不足”的两极错位:

(1)过度保护——数据库版权的“汇编”陷阱。《著作权法》(2020修正)第15条对“汇编作品”要求“内容选择或者编排具有独创性”,但数字经济下多数数据集合依行业标准字段生成,难以达到独创性门槛。法院为救济投入,往往降低独创性认定标准,导致存在“对公开的数据进行识别、汇编、整理,设计后的数据库认定具有独创性,符合汇编作品特性”的扩张倾向6,变相赋予数据集合长达五十年的强排他保护,阻碍同业共享。

(2)保护不足——商业秘密的“秘密”困境。《反不正当竞争法》(2019修正)第9条将“秘密性”作为首要要件,但数据集合常通过API、指数报告等形式向客户开放,难以满足“不为公众所知悉”要求。企业被迫选择“封闭=保护”,宁可放弃潜在交易机会也不愿披露,抑制了数据流通。

(3)规则空白——数据产品的“权利真空”。对于经算法深度加工、具备独立功能的数据产品,现行法未设专门权利类型,企业只能回归合同或技术措施自保。一旦竞争对手通过“合法购买+逆向解析”方式复制核心算法,权利人将陷入“既非作品、又非秘密、更非专利”的三不管地带。


(三)司法裁判标准缺位

1. 案由选择混乱。

笔者通过阿尔法软件,通过搜索2021年1月1日至2025年10月1日之间,以“企业数据+数据库”为关键词的民事案件,共计四千七百余案件,涉及的案由有与公司、证券、保险、票据等有关的民事纠纷,知识产权与竞争纠纷类,合同、准合同纠纷,劳动争议,侵权责任纠纷等近十种案由;以“企业数据+数据集合”为关键词的民事案件,共计二十余件案件,涉及案由知识产权与竞争纠纷类,合同、准合同纠纷,劳动争议;以“企业数据+数据产品”为关键词的民事案件,共计八十余件案件,涉及案由与公司、证券、保险、票据等有关的民事纠纷,知识产权与竞争纠纷类,合同、准合同纠纷,劳动争议,侵权责任纠纷,特殊诉讼程序案件案由。

2. 保护强度不一。

法院对“投入”与“加工”程度的认定缺乏量化指标,出现“同案不同判”与“类案不同度”并存现象:

(1)“投入即保护”——部分判决将诸如网站用户的注册信息数据库认定为“商业秘密”,未界定其属于集合或者产品,通过商业秘密途径进行保护7;部分判决认定需要长期经营、投入大量人力财力累积聚集单一原始数据集合而成的数据资源整体,数据处理者享有竞争性权益。8

(2)“加工即产品”——亦有判决认为“只要经过算法脱敏即构成产品”,对后续竞争者一律禁止,忽视数据产品生命周期短、更新快的行业特性;

(3)“公开即自由”——亦有判决对公开数据集合倾向于“抓取自由”,但对已封装为 API 的数据产品又突然提高保护强度,造成“集合弱、产品强”的裁判直觉,却未提供过渡标准。


(四)监管认定标准缺位

《数据安全法》第21条提出“国家建立数据分类分级保护制度”,但配套标准至今停留在“重要数据”“个人信息”两大维度,对“企业数据”内部层级未再细分。全国信息安全标准化技术委员会发布的《网络安全标准实践指南——网络数据分类分级指引》将企业数据简单划分为“核心、重要、一般”三级,分类依据是“国家数据安全角度”,而非“加工深度或交易属性”,无法回应“集合—产品”区分需求。



四、根源剖析:

立法技术、行业特性与监管能力的三角困境


22a20bcb475f9fdf0de6a6ae757496cd.jpg

01

立法进度滞后

传统财产权以“客体特定、边界清晰”为要义,而数据集合与产品之间呈“连续光谱”状态,加工深度、价值密度、功能独立性均无法以单一数值划分。立法者担忧“一刀切”导致过度保护或创新抑制,倾向于原则性授权,却忽视配套技术标准的同步跟进。


02

行业特性快速迭代

数据产品平均生命周期6-12个月,远短于版权保护期;算法模型每周更新,集合与产品边界随之动态漂移。静态规则难以匹配动态事实,造成“规则出台即落后”的宿命。


03

监管能力不对称

主管部门缺乏对大数据处理流程的技术溯源手段,难以实时判断“集合是否已升级为产品”。企业则以“商业机密”为由拒绝披露算法细节,导致监管信息与市场主体信息严重不对称,只能依赖事后个案裁判填补规则空白。



End

结语

图片
图片

综上,立法解释缺位、司法裁判标准缺位、监管认定标准缺位相互叠加,使得“数据集合—数据产品”界限成为名副其实的“灰色地带”。企业不敢对集合进行大规模共享,担心一旦流出即被认定为“已公开”而丧失保护;也不敢对产品进行深度融资,因为法院可能以“仅为集合”为由否定财产价值。最终结果是:基础数据被锁定在“数据孤岛”,高附加值产品难以获得持续资本注入,要素市场化配置效率大打折扣。为打破僵局,唯有让集合安心流动、让产品放心交易,企业数据的财产意义才真正从“控得住”走向“定得清”,要素价值才能从“越用越旺”升级为“越清越强”。