数据合规：AI创业过程中数据素材使用的侵权判断框架

目力所及，AI领域的创业者大多在做两件事：

一是开发AI工具，构建独特的模型、Agent或工作流；二是应用AI工具，借助现有AI模型进行信息整合或作品创作。

开发AI工具，需要数据构建知识库，开展预训练和优化训练；应用AI工具，需要给定参考素材，引导AI生成符合预期的输出。

本文将结合现行法律和司法实践，给出一套AI领域数据/素材使用的合法性判断框架，帮助AI领域创业者规避侵权风险。

一、AI领域因数据/素材而生的侵权类型

AI领域因数据/素材使用引发的侵权主要包括三类：侵犯知识产权（以著作权为主）、侵犯人格权、不正当竞争。以下结合具体案例逐一展开。

（一）侵犯知识产权：以著作权为主，也可能涉及商标权

案例1：上海首例人工智能大模型著作权侵权案

原告是知名IP《斗破苍穹》系列动漫中美杜莎角色形象的著作权人。被告是国内头部AI图像生成平台运营商，依托LoRA模型为用户提供AI在线生图服务。被告李某是平台用户，将二十余张《斗破苍穹》系列动漫中美杜莎形象图片作为训练素材，使用平台的"训练LoRA"功能生成了美杜莎LoRA模型，供其它用户生图使用。

法院审理后认为，被告李某以商业使用为目的，在素材截取阶段及LoRA模型训练、发布及使用阶段再现在先作品的独创性表达，将"美杜莎"图集和短视频等素材通过网络提供给公众，侵害了原告对"美杜莎"作品享有的复制权和信息网络传播权。最终法院判令，李某停止侵害，赔偿原告经济损失3万元及维权合理开支2万元。

案例2：伦敦高等法院Getty诉Stability AI案

原告Getty Images是一家全球领先的视觉内容提供商，持有"GETTY IMAGES"、"ISTOCK"等注册商标，其内容均带有独特数字水印。被告Stability AI开发有Stable Diffusion模型，使用互联网抓取的海量图片进行图像生成训练，其数据集就包括Getty Images的版权图片。由于在训练时没有过滤掉水印信息，Stable Diffusion模型早期生成的少量图片中重现了Getty及iStock水印。

伦敦高等法院审理后认为，模型生成带有iStock水印的图片属于相同商标在同一市场（视觉内容市场）同类服务上的使用，可能引发消费者混淆，构成商标侵权。

（二）侵犯人格权：肖像权、声音权、姓名权/名称权、个人信息权益与一般人格权

案例3：何某诉某人工智能科技有限公司网络侵权责任纠纷案

原告何某是公众人物，知名度较高。被告某人工智能科技有限公司开发有一款创设"AI陪伴者"功能的软件，用户可以在该软件中设置陪伴者的名称、头像，并通过上传各类文字、肖像图片、动态表情生成互动语料。在该软件中，何某被大量用户设置为陪伴人物。

法院审理后认为，在被告的软件功能和算法设计下，用户使用何某的姓名、肖像创设虚拟人物，制作互动语料素材，将何某的姓名、肖像、人格特点等综合而成的整体形象投射到AI角色上，形成了何某的虚拟形象，是对包含何某肖像、姓名的整体人格形象的使用。该使用行为未获得何某的许可，构成对何某姓名权、肖像权和一般人格权的侵害。

案例4：廖某诉某科技文化有限公司网络侵权责任纠纷案

原告廖某是一名古风短视频博主。被告某科技文化有限公司在未经原告廖某授权同意的情况下，使用原告廖某出境的系列视频制作换脸模板，并上传至其软件中供用户使用。

法院审理后认为，被告收集了包含廖某人脸信息的出镜视频，将该视频中的廖某面部替换成自己提供照片中的面部。该合成过程需要将新的静态图片中的特征与原视频部分面部特征、表情等通过算法进行融合，涉及对廖某个人信息的收集、使用、分析等，属于对廖某个人信息的处理。被告处理该信息未经廖某同意，构成对廖某个人信息权益的侵害。

（三）不正当竞争：侵犯其它经营者对数据享有的竞争性权益

目前，我国还没有司法判例认定AI模型训练中的数据爬取构成不正当竞争，但传统网络数据爬取构成不正当竞争的案例已不胜枚举。将通过网络爬虫获得的结构化数据作为输入，使用AI工具输出整合后的信息，与传统的数据抓取行为没有实质差异。

案例5：杭州中院小红书平台数据抓取案

原告行吟公司是小红书系列平台运营方。被告某甲公司是某妈妈网站和"某小红"产品的运营者。为满足品牌方与博主的数据需求，被告某甲公司通过频繁更换用户ID、加速IP切换等技术手段，绕过行吟公司的防护措施，非法抓取小红书平台内包括用户账号信息、用户商业合作信息等四类数据，为用户提供小红书数据分析、榜单排行、数据监控等服务，并从中盈利。

法院审理后认为，案涉数据是规模化的具有商业价值的数据集合，是小红书平台享有竞争性权益的数据资源。某甲公司的行为破坏了小红书平台的授权登录机制和数据展示规则，分流了行吟公司本应获得的部分流量收益和交易机会，构成不正当竞争，故判决某甲公司停止侵权，赔偿经济损失490万元，并刊登声明消除影响。

同一种类的权利或利益，判定是否构成侵权的方法基本一致；不同种类的权利或利益，判定是否构成侵权的方法也不相同。基于此，判断自身的数据/素材使用行为是否构成侵权，可以从侵犯知识产权、侵犯人格权和不正当竞争这三个维度依次展开分析。

二、是否侵犯知识产权的判断方法

知识产权侵权可以分为直接侵权和间接侵权两类：

直接侵权：行为直接落入《著作权法》《商标法》等法律规定的权利人专有权利范围。
间接侵权：行为人没有直接实施受专有权利规制的直接侵权行为，但对于直接侵权行为起到了教唆、引诱或实质性帮助作用。

由于目前我国司法实践中还没有出现数据/素材使用侵犯商标权的案例，以下仅围绕著作权侵权展开论述。

（一）直接侵权

判断数据/素材使用构成著作权侵权的基本框架是：

1. 涉案数据/素材构成作品

开发或使用AI过程中利用的数据/素材构成著作权法上的作品，是著作权侵权的前提条件。

根据《著作权法》第3条的规定，作品应当同时符合以下要件：

具有独创性：作品须由作者独立创作完成，而且对表达的安排要能体现作者的选择和判断。
必须属于文学、艺术和科学领域内的创作：诸如体育领域中的特定动作、技术领域的特定工艺均不属于文艺科学领域内的创作。
具有一定的表现形式：著作权法不保护思想、感情、观点和研究结论。
必须是人类的智力成果：纯粹的自然风光、声音不构成作品。

2. 原告是涉案作品的著作权人

在无相反证据的情况下，根据作品上作者的署名，推定著作权归属于该作者。

当事人提供的涉及著作权的底稿、原件、合法出版物、著作权登记证书、认证机构的证明、取得权利的合同、符合行业惯例的权利人声明等可以作为证明权利归属的初步证据。

职务作品、合作作品、汇编作品、演绎作品、视听作品、委托作品等特殊类型作品的著作权人，应依法进行判断。

3. 被告实施了受《著作权法》专有权利规制范围的行为

目前司法实践中，AI领域对数据/素材的使用主要会落入复制权、改编权和信息网络传播权的范围：

复制权：以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利。
改编权：改变作品，创作出具有独创性的新作品的权利。
信息网络传播权：以有线或者无线方式向公众提供，使公众可以在其选定的时间和地点获得作品的权利。

以案例1（上海首例人工智能大模型著作权侵权案）为例，原告公司是"美杜莎"形象的著作权人，依法享有对该作品的复制权和信息网络传播权。被告李某在素材截取阶段及LoRA模型训练、发布及使用阶段在服务器上多次再现了"美杜莎"形象，这就落入了复制权的规制范围；被告李某将"美杜莎"形象通过网络提供给公众，这就落入了信息网络传播权的规制范围。但是，美杜莎LoRA模型及美杜莎人工智能文生图，未见被告李某的实质性智力投入，因此没有形成具有独创性的新作品，故不存在改编权侵权。

在AI领域，目前争议较大的问题是：模型训练前的数据收集和预处理行为，以及训练过程中将数据集转化为模型参数的行为，是否会落入复制权的规制范围。

（1）关于模型训练前的数据收集和预处理行为是否构成"临时复制"

受著作权法规制的复制行为，要求该行为将作品相对稳定和持久地"固定"在有形物质载体之上，例如将作品以各种技术手段存储在本地硬盘或网络服务器中。临时复制是指技术操作过程中产生的短暂复制行为，例如计算机内存或服务器缓存中生成的临时数据副本，会在关机、重启或信息覆盖后自动清理，不属于受著作权法规制的复制行为。

在数据的收集和预处理阶段，开发者通常以爬虫方式从公开网站、数据库等渠道抓取数据，并将这些数据以数字化的方式保存在服务器上，进行数据清理和标注，供后续模型训练使用。这一过程显然不同于发生在缓存区的临时复制，而是让作品相对稳定和持久地存储在了服务器上，因此绝大多数观点都认为其属于受著作权法规制的复制行为。但也有少数观点认为，是否具有传播目的和效果才是区分复制和临时复制的关键，因此准备训练数据集时的复制行为同样可以纳入临时复制的范围。

（2）关于将作品"固化"在AI神经网络及其参数之中是否构成"复制行为"

在前述案例2（伦敦高等法院Getty诉Stability AI案）中，Joanna Smith法官认为，AI通过学习生成参数化数学表达，形成的是有数十亿的参数或统计学表示；尽管模型参数会随着训练过程发生变化，但训练结束后，模型自身并没有存储任何版权作品，因此模型本身不构成侵权复制品。

而在欧洲生成式AI版权侵权第一案（GEMA诉OpenAI案）中，慕尼黑地方法院法官认为，以"任何方式或形式"进行的复制均构成复制，仅以概率值形式存在对于复制的认定而言无关紧要。当语言模型在训练期间不仅从训练数据集中提取信息，而且在训练后将训练数据完整地吸纳到特定参数中时，受到版权法上复制权的约束。

前述两个争议问题在我国司法实践中都还没有确定答案。在合规意义上，《生成式人工智能服务管理暂行办法》第7条要求，生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动时，应当使用具有合法来源的数据和基础模型；涉及知识产权的，不得侵害他人依法享有的知识产权。

4. 不属于合理使用等法定抗辩事由

基于社会利益的需要，我国著作权法规定了对著作权的两类限制：合理使用和法定许可。

其中，合理使用包括"为个人学习、研究或者欣赏使用""为介绍、评论某一作品或者说明某一问题适当引用"等十二种情形。在符合这些情形的情况下，使用作品可以不经著作权人许可，不向其支付报酬，但应当指明作者姓名或者名称、作品名称，并且不得影响该作品的正常使用，也不得不合理地损害著作权人的合法权益。

在规范层面，合理使用的情形必须由法律和行政法规明确规定。但是，目前将作品用于AI模型训练尚未被纳入合理使用的情形，不构成一般性的豁免。

司法实践层面，杭州互联网法院在奥特曼侵权案（（2024）浙0192民初1587号）中指出，"对于生成式人工智能应持审慎包容的态度，鼓励技术进步和商业发展。生成式人工智能的创设与发展，需要在输入端引入巨量的训练数据，其中不可避免会使用他人作品。鉴于生成式人工智能在数据训练阶段使用他人作品的目的，原则上应是用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容，从中提取出相应的规则、结构、模式、趋势，便于后续转换性创作新作品。该种使用行为聚合大量作品作为分析样本数据进行提高作品创作能力训练，并非以再现作品的独创性表达为目的，且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品，数据训练及生成过程中也未将在先作品展示给公众，因此，在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下，可以被认为是合理使用"。

因此，在司法实践层面，将未经授权使用的作品用于AI模型训练，尤其是在模型本身不会输出侵权作品、对原著作权人不会造成不利影响的情况下，具有被认定为合理使用的空间。

（二）间接侵权

间接侵权即行为人没有直接实施受专有权利规制的直接侵权行为，但对于直接侵权行为起到了教唆、引诱或实质性帮助作用。

AI领域因数据/素材而生的间接侵权，主要表现为用户直接侵权时，网络服务提供者（即平台）的侵权责任。根据《民法典》第1195-1197条，判断AI服务提供者构成间接侵权的基本框架是：

1. 被诉侵权行为是提供技术服务，而非直接提供作品内容

网络技术服务包括传统的自动接入、信息传输、信息存储空间、信息搜索、链接服务、文件分享技术等，当然也包括以平台方式提供的生成式AI服务。

2. 网络用户利用网络技术服务实施了侵权行为

在AI领域，这通常表现为用户利用平台提供的生成式AI服务侵犯了他人的著作权或人格权益。

例如，用户使用未经授权的参考图，利用平台提供的服务，生成了与原参考图在内容、表现形式等方面实质性相似的图片。又如，用户在未获授权的情况下，使用他人的肖像以及AI合成声音，在平台上为自己的产品进行宣传。

3. 网络服务提供者具有过错

网络服务提供者的过错主要从"通知-删除规则"和"明知或应知规则"进行界定。两条规则之间是并列关系，只要符合任意一条，就能够认定网络服务提供者的过错。

通知-删除规则：网络用户利用网络服务实施侵权行为的，权利人有权通知网络服务提供者采取删除、屏蔽、断开链接等必要措施。网络服务提供者接到通知后，应当及时将该通知转送相关网络用户，并根据构成侵权的初步证据和服务类型采取必要措施。只有在没有及时采取必要措施时，才需要就损害的扩大部分承担连带责任。由于网络服务提供者一般不负有审查网络用户是否利用其网络服务实施侵权行为的义务，故违反"通知-删除规则"被认为是网络服务提供者具有过错的表现。

明知或应知规则：网络服务提供者知道或者应当知道网络用户利用其网络服务侵害他人民事权益，未采取必要措施的，与该网络用户承担连带责任。"应知"的判断标准是网络用户侵害信息网络传播权的具体事实是否明显，并需要综合考虑网络服务提供者应当具备的信息管理能力、被侵权作品的知名度、网络服务提供者预防侵权的合理措施等因素加以判断。尤其是，网络服务提供者从网络用户提供的作品、表演、录音录像制品中直接获得经济利益时，负有较高的注意义务。

在杭州互联网法院奥特曼侵权案（（2024）浙0192民初1587号）中，法院就认定了提供Checkpoint基础模型和LoRA模型的触手AI平台的间接侵权责任。在该案件中，杭州互联网法院给出了生成式人工智能服务提供者构成侵权的过错判断标准：

（1）生成式人工智能服务提供者系提供生成式人工智能技术服务

对用户输入的提示词、训练图片等数据内容，以及生成物的传播等行为并不当然负有事先审查的义务，只有当其对具体侵权行为具有过错时，才可能构成帮助侵权。

（2）对于过错的认定规则

应综合考量生成式人工智能服务的性质、当前人工智能技术的发展水平、避免损害的替代设计的可行性与成本、可以采取的必要措施及其效果、侵权责任的承担对行业的影响等因素，通过动态地调整过错的认定标准，将平台注意义务控制在合理的程度。

（3）平台注意义务应以同质行业理性人标准予以考量

当生成式人工智能服务提供者可以证明施以同业一般服务提供者注意力难以发现该生成内容可能构成侵权，或者能够证明自身已经采取了符合损害发生时技术水平的必要措施来预防损害，但仍无法防止损害的发生，应认定其已尽到合理的注意义务，不具有过错。反之，则应认定其具有过错。

在该案件中，法院认为触手AI平台直接参与商业实践并基于定向生成的内容获益，应当对具体应用场景下的内容保持足够的了解，承担相应的注意义务；奥特曼作品在全球范围内具有相当高的知名度和影响力，相应侵权图片和侵权模型属于明显可感知的信息，而且被放置在"广场"等平台中明显可感知的位置，触手AI平台应当知道相关内容具有较大的侵权可能性；该奥特曼LoRA模型被调用次数多、侵权内容扩散态势明显；触手AI平台有能力采取审核、屏蔽等方式控制和过滤相关侵权内容却怠于采取这些必要措施。因此，法院最终认为平台方没有尽到合理注意义务，具有过错，构成帮助侵权。

需要注意的是，间接侵权不仅存在于知识产权侵权场合，在用户侵犯他人肖像权、声音权等人格权益时，平台同样可能承担间接侵权责任。

三、是否侵犯人格权的判断方法

在AI领域，因数据/素材使用引发的人格权侵权多表现为侵害肖像权、声音权、姓名权/名称权、个人信息权益以及一般人格权。侵犯人格权的一般判断框架如下：

（一）原告就涉案数据/素材享有特定人格权益

1. 肖像权

肖像是指通过影像、雕塑、绘画等方式在一定载体上所反映的特定自然人可以被识别的外部形象。

司法实践中，对于肖像的保护强调"可识别性"。只有当社会一般人能够从肖像载体中识别出特定的个人时，该肖像才能落入人格权的保护范围。

在前述案例4（廖某诉某科技文化有限公司网络侵权责任纠纷案）中，法院认为"AI换脸"模板是通过技术手段将原告的面部特征进行替换，无论是换脸模板本身还是使用模板生成的主体，都不能识别到原告个人，即不具有"可识别性"，因此法院没有认定肖像权侵权，而是将被告收集原告人脸信息的行为归入对原告个人信息权益的侵害。

2. 声音权

自然人声音是通过声带振动发出的声波，具有独特性、唯一性、稳定性的特点，能够对外标识个人的行为和身份。

与肖像权类似，声音权的保护也强调"可识别性"。即，在反复聆听的基础上，通过该声音特征能识别出特定自然人。

在涉人工智能典型案例"殷某某诉某智能科技公司等人格权侵权纠纷案"中，北京互联网法院明确指出，"自然人声音权益可及于AI生成声音""利用人工智能合成的声音，如果能使一般社会公众或者相关领域的公众根据其音色、语调和发音风格，关联到该自然人，则可以认定为具有可识别性"。

3. 姓名权/名称权

姓名是自然人的标识，名称是法人的标识。

自然人身份证、护照上的法定姓名，以及法人营业执照上的法定名称，天然属于人格权的保护范围。

笔名、艺名、网名、译名、字号、姓名和名称的简称等非法定姓名和名称，只有在具有一定的知名度、被他人使用足以造成公众混淆时，才能被纳入人格权的保护范围。

4. 个人信息权益

个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息，包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等，但不包括经匿名化处理已经不能识别到特定自然人的信息。

前述案例4中原告廖某的面部特征信息就属于个人信息。

5. 一般人格权

一般人格权是指除了法律规定的具体人格权外，自然人基于人身自由、人格尊严产生的其他人格权益。是否落入一般人格权的保护范围，由法院在审判过程中权衡各种价值和利益予以确定。

在前述案例3（何某诉某人工智能科技有限公司网络侵权责任纠纷案）中，法院就认定某人工智能科技有限公司开发的"AI陪伴者"功能将原告何某的整体人格形象投射到AI角色上，使用户可以任意设定虚拟身份关系以及相互称谓，制作语料素材"调教"角色，侵害了何某的人格尊严和人格自由利益，构成对何某一般人格权益的侵害。

（二）被告数据/素材使用行为落入了前述人格权益的权利保护范围

AI开发与应用过程中，数据/素材的使用落入人格权的权利范围，通常是将他人的肖像、声音、姓名/名称、个人信息以及其它承载着人格尊严的信息直接用于了模型训练或输入，使得训练过程本身或模型输出结果侵害了他人的人格权益：

制作、使用、公开他人肖像，以丑化、污损，或者利用信息技术手段伪造他人肖像，落入肖像权的保护范围。
恶意模仿、盗用他人的声音，落入声音权的保护范围。
盗用、假冒自然人姓名或法人名称，落入了姓名权/名称权的保护范围。
在个人信息收集、存储、使用、加工、传输、提供、公开、删除等全生命周期中，只要存在未遵循个人信息处理原则和规范的行为，就会落入个人信息保护的范围。

实践中，一旦被告行为落入了前述权利保护范围，通常就能推定原告人格权益因该行为而受有损害。

（三）被告行为没有征得原告本人的同意/许可

同意和许可使用，是人格权行使的重要方式，具有阻却行为的不法性，排除侵权的效果。相较于一般性的同意，许可使用更加的具体和正式，通常是约定被许可人有权在特定时间、特定地域、以特定方式行使特定权利，以实现许可人人格要素上的经济利益。

就个人信息而言，《个人信息保护法》第14条明确规定，基于个人同意处理个人信息的，该同意应当由个人在充分知情的前提下自愿、明确作出。个人信息的处理目的、处理方式和处理的个人信息种类发生变更的，应当重新取得个人同意。

四、是否构成不正当竞争的判断方法

在AI领域，因数据引发的不正当竞争多是非法数据抓取行为，因参考素材引发的不正当竞争多是落入了商业混淆行为的规制范围。

（一）数据抓取行为的合法性判断

《反不正当竞争法》（2025年修正）第13条第3款规定，经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式，获取、使用其他经营者合法持有的数据，损害其他经营者的合法权益，扰乱市场竞争秩序。

实践中，数据抓取行为是否构成不正当竞争，已经形成了相对明确的裁判规则，大致如下：

1. 原告对相关数据享有竞争性权益

原告数据来源合法。
原告在数据生成、处理中作出了相应贡献，或投入了劳动和资金对数据进行维护、管理和保护。
相关数据是商业领域的核心数据或数据集合，能为原告带来经济收益和竞争优势。

2. 被告实施了不正当获取和使用原告数据的行为

（1）数据的获取使用未获得原告的许可，不符合robots协议，也不属于对公开数据的合理使用

判断是否属于对公开数据的合理使用，北京知识产权法院在万某有限公司与G云图公司、G软件公司不正当竞争纠纷案中指出，"公开数据的持有者应当在一定程度上容忍他人获取其已公开的数据，否则将可能阻碍以公益研究或其他有益用途为目的的数据流通和利用""判断公开数据的获取行为时，关键在于从数据类型、数据公开的方式、用户协议约定、技术限制措施等客观情况以判断数据持有者的合理预期。如数据是完全公开的（如无需登录或认证即可访问）且数据持有者未施加任何技术限制措施（如Robots协议或API限制等），他人获取该公开数据的行为应不违背数据持有者的合理预期，难言不当。"

（2）数据的获取使用利用了欺诈、胁迫方式，或是采用了避开或破坏技术管理措施的不正当技术手段

实践中，常见的不正当技术手段有：

伪造或盗用身份标识：通过伪造HTTP请求头（如User-Agent）、盗用他人的账号（Cookie、Token）或通过自动化脚本模拟真实用户的操作行为，以绕过登录限制或访问权限控制。
破解反爬虫机制：例如频繁更换IP地址以规避基于IP的访问频率限制或封禁，通过图像识别技术（包括第三方打码平台）自动破解验证码等。
直接攻击或破坏技术屏障：利用网站的安全漏洞（如SQL注入、跨站脚本等）直接攻击服务器数据库，或对API接口进行逆向工程和未授权的调用。这一层次的技术不仅属于不正当技术手段，而且可能构成非法获取计算机信息系统数据罪等刑事犯罪。

（3）数据的获取使用妨碍、破坏了原告服务器的正常运行

例如，大量、高频次的请求会加重服务器负担，影响经营者的正常运营和服务质量，会被认定为妨碍、破坏他人网络产品或服务的正常运行。

3. 被告获取和使用数据用于自身的商业经营，并从中营利

4. 数据的获取使用对原告合法权益（如数据权益和用户流量）、消费者利益（如用户隐私和个人信息）和社会公共利益（如市场竞争秩序和行业发展）均造成损害

在指导性案例263号（某网络信息技术有限公司诉某信息科技有限公司不正当竞争纠纷案）中，法院指出，网络平台向用户提供关联账号服务，经用户授权后转移其在关联网络平台获取的数据，为用户在合理范围内处理该数据提供便利，未扰乱市场竞争秩序的，不构成不正当竞争行为。

（二）因参考素材使用引发的商业混淆不正当竞争

《反不正当竞争法》（2025年修正）第7条规定，经营者不得实施足以引人误认为是他人商品或者与他人存在特定联系的混淆行为，包括擅自使用与他人有一定影响的商品名称、包装、装潢等相同或者近似的标识等。同时，经营者不得帮助他人实施混淆行为。

实践中，AI图片生成和视频生成被广泛用于商业标识和广告的制作。使用这些工具通常需要给出参考图/首尾帧和提示词，以协助生成或调整输出成果。当参考图/首尾帧和提示词使用了其它经营者的宣传素材时，模型输出就可能带有其它经营者具有影响力的标识性元素。这样的输出成果一旦被用商业实践，会被认定为商业混淆行为，构成不正当竞争。

构成商业混淆不正当竞争的一般判断框架是：

1. 原标识是具有一定的市场知名度并具有区别商品来源的显著特征的标识

是否具有一定的市场知名度，应当综合考虑中国境内相关公众的知悉程度，商品销售的时间、区域、数额和对象，宣传的持续时间、程度和地域范围，标识受保护的情况等因素。

2. 涉案标识与原标识高度相似，容易使相关公众/消费者误认为是他人商品或者与他人存在特定联系

3. 行为人在生产经营活动中擅自使用了该标识

4. 该行为扰乱了市场竞争秩序，损害其他经营者或者消费者的合法权益

结论

对于AI领域的创业者，数据和参考素材的使用存在两种策略定位：

一是合规优先策略。 即确保模型训练、微调和输入的数据和参考素材都具有合法来源，在涉及知识产权/人格权益时已经取得权利人的合法授权，对于公开信息的爬取尊重robots协议等平台合理限制，不去突破技术防护措施。

二是风险控制策略。 即通过技术与管理手段，确保模型的最终输出不构成对著作权、肖像权/声音权、个人信息权益等的实质性侵权，并严禁使用不正当技术手段窃取平台商业数据。

创业者应根据自身的实际情况，综合考虑商业目标、技术可行性、融资阶段与法律风险，在专业律师的指导下选择相对安全有效的数据合规策略。

免责声明： 以上内容仅供参考阅读，不构成法律意见。具体问题请咨询律师。

作者信息

向文浩律师
工作单位：北京无畏律师事务所
单位地址：北京市朝阳区瑞辰国际中心（农展馆南路北）912室
联系电话：+86-17610815819
电子邮箱：xiangwenhao@wuwei-law.com