全球数字法律周动态｜Science 期刊引入 AI 工具检测造假图像；上海将组建大模型语料数据联盟

2024-01-0806:05

数字治理研究

2024-01-08 06:05

数字治理研究

2024-01-08 06:05

收藏文章

订阅专栏

本文约 6618 字，预计阅读时间 21 分钟

全球数字法律周动态第二卷第 1 期（2024/1/1-2024/1/7）

本期内容

法规标准

一、科技部发文规范生成式 AI 在科研中的使用

二、深圳前海印发措施打造深港 AI 产业集聚区；16 条政策支持 AI 高质量发展

行业实践

三、OpenAI 苹果争相购买媒体数据训练大模型

四、OpenAI 下周将推 GPT 商店用户可共享和销售定制聊天机器人

五、微软 Win11 PC 键盘将新增 Copilot 键

六、谷歌大模型一出闹剧，揭开中文数据荒

七、Science 期刊引入 AI 工具检测造假图像

多元解纷

八、最高院发布 2023 年十大经典案例，含首例涉虚拟数字人侵权案

执法守法

九、国家互联网信息办公室关于发布第三批深度合成服务算法备案信息的公告

十、新一代人工智能基础设施白皮书发布

数据要素

十一、国家数据局等印发数据要素 x 三年行动计划

十二、上海：组建大模型语料数据联盟

十三、江苏省数据局正式挂牌，首个省级数据局成立

法规标准

一、科技部发文规范生成式 AI 在科研中的使用

2023 年 12 月 21 日，科技部发布《负责任研究行为规范指引（2023）》，《指引》共 11 个部分，覆盖了科研活动的主要方面和重点环节，针对科研人员、科研单位、科研资助机构、科技类社团、学术期刊等不同主体，提出了开展负责任研究应普遍遵循的科学道德要求和学术研究规范。

《指引》从研究实施、数据管理、成果署名与发表、文献引用等方面对如何依规合理使用生成式人工智能作出了具体指引，同时提出不得使用生成式人工智能直接生成申报材料，不得将生成式人工智能列为成果共同完成人，不得直接使用未经核实的由生成式人工智能生成的参考文献等明确划出了具体边界。

信息来源：科技部

most.gov.cn/kjbgz/202312/W020231221582942330036.pdf

二、深圳前海印发措施打造深港 AI 产业集聚区；16 条政策支持 AI 高质量发展

2024 年 1 月 3 日，深圳市前海管理局关于印发《深圳市前海深港现代服务业合作区管理局关于支持人工智能高质量发展高水平应用的若干措施》的通知

《若干措施》共五部分，16 条具体支持措施。

第一部分为“推动人工智能产业集聚”，共 4 条措施。从租金补贴、所得税优惠、营收增长奖励、投融资支持等方面，支持优质人工智能企业在前海合作区集聚，做大做强。

第二部分为“强化人工智能关键要素供给”，共 3 条措施。针对算力、数据两大支撑人工智能产业发展的关键要素，予以重点支持。重点推动智能算力中心和算力调度平台同步发展建设，促进数据要素流通运用，以制度创新释放数据资源价值。加强人工智能共性通用技术发展，打造共性技术服务平台。

第三部分为“打造人工智能应用示范”，共 4 条措施。重点从推动“大模型 + 产业”应用创新、打造应用场景示范标杆、开展智能网联汽车商业化试点、推进低空智能交通试点等方面，支持人工智能前沿技术加快落地应用，形成商业闭环。

第四部分为“完善人工智能产业生态”，共 5 条措施。从支持技术赋能平台建设、支持关键技术科研攻关、促进行业组织发展、建立包容审慎监管机制等方面着力，加快集聚国内外创新资源，营造人工智能产业合作交流环境，构建具有国际竞争力的开放创新生态。优化产业创新配套环境，推动人工智能创新链、产业链、资金链、人才链深度融合。

第五部分为“附则”。主要为《若干措施》的支持范围、实施要求和有效期。

信息来源：深圳市前海管理局

http://qh.sz.gov.cn/sygnan/xxgk/xxgkml/zcfg/gfxwj/content/post_11083180.html

行业实践

三、OpenAI 苹果争相购买媒体数据训练大模型

据报道，OpenAI 将向出版商提供高达 500 万美元的新闻内容授权，以训练其大型语言模型（LLM），据说苹果公司也在进行类似的谈判。这一消息是在《纽约时报》宣布起诉 OpenAI 侵犯其版权一周之后发布的，《纽约时报》指控 OpenAI 未经其许可使用其文章训练 LLM。

目前大部分数据都是通过专门的网络爬虫或像 LAION 这样的开源数据提供商从互联网上抓取的信息，然后再进行审核和整理。这一整理过程在多大程度上包括删除受版权保护的数据仍是未知数，为保护数据，CNN、路透社和《纽约时报》等主要新闻机构于 2023 年 8 月在其网站上屏蔽了 OpenAI 的网络爬虫。

OpenAI 与主要媒体品牌进行许可谈判的决定最早由 The Information 报道，这可以被视为其避免未来类似诉讼的一种方式。目前，OpenAI 已经与美联社和阿克塞尔 - 施普林格（Axel Springer）达成了协议，与后者的协议将允许 OpenAI 的 ChatGPT 服务的用户接收来自阿克塞尔 - 施普林格新闻网站的内容摘要，并看到模型回答查询，同时注明文章来自出版商的档案。据 The Information 报道，OpenAI 为媒体公司提供的内容授权价格在 100 万至 500 万美元之间。与此同时，据报道苹果公司将提供更高的报酬，但同时要求对新闻内容拥有更广泛的使用权。

信息来源：TECHMONITOR

https://techmonitor.ai/technology/ai-and-automation/openai-apple-license-news-content-copyright

四、OpenAI 下周将推 GPT 商店用户可共享和销售定制聊天机器人

据外媒 1 月 4 日报道，人工智能初创企业 OpenAI 在发送给开发者的一封电子邮件中表示，该公司将在下周推出 GPT 商店。

OpenAI 所称的 GPT 商店将作为定制 GPT 的存储库，这些 GPT 可以使用 OpenAI 的生成器功能创建。该公司提出了一系列使用案例，包括数学教学、学习棋类游戏规则等。

"我们相信，最令人难以置信的 GPT 将来自社区中的构建者，"OpenAI 在去年 11 月说。"无论你是教育工作者、教练，还是只是一个喜欢构建有用工具的人，你都不需要懂编码就可以制作一个工具，并分享你的专业知识"。

邮件公告还指出，GPT 商店的内容将受到限制。OpenAI 的服务条款禁止明显的不良行为，包括非法活动、儿童性虐待材料和仇恨或暴力内容。这些条款还排除了恶意软件的生成（这已经是网络安全领域的一个严重问题）、赌博或其他造成潜在经济损失的行为、欺诈和剽窃、大多数类型的成人内容以及一系列其他高风险活动，如诊断疾病、提供法律建议或侵犯他人隐私。

信息来源：computerworld

https://www.computerworld.com/article/3712020/openai-to-launch-gpt-store-next-week.html

五、微软 Win11 PC 键盘将新增 Copilot 键

今日，微软宣布将在 Windows 11 电脑的键盘中引入 Copilot 键，使 AI 从系统、芯片到硬件无缝融入，这也是 Windows PC 键盘近三十年来的首次重大变化。

全新的 Copilot 键将取代几十年来与 Windows 键一同引入的菜单键（应用程序键），它将位于大多数键盘的右 Alt 键旁边，具体位置则由制造商和不同市场而定。2019 年，微软曾在自家键盘上添加了专用的 Office 键，Copilot 键的位置与此相同。Copilot 键的作用很简单，只需按一下，即可启动集成于 Windows 11 的 Windows Copilot，提供类似 ChatGPT 的聊天机器人功能，可解答问题甚至执行 Windows 内部操作。

如果 Windows Copilot 尚未在用户所在国家 / 地区推出，Copilot 键的功能将改为启动 Windows 搜索。虽然现有的 Windows 键可以打开开始菜单，或与其他按键组合成快捷键访问 Windows 功能以执行 Windows 功能，但 Copilot 键目前只是一个启动键。微软是否计划将来允许 Copilot 键与其他键组合使用尚不清楚。

信息来源：IT 之家

https://www.ithome.com/0/743/377.htm

六、谷歌大模型一出闹剧，揭开中文数据荒

不久前，谷歌宣布对公众免费开放其 Gemini Pro 的 API。然而，在 API 开放后不久，用户发现了一个有趣的现象。当连续用简体中文询问 Gemini Pro“你好”和“你是谁”这两个问题时，AI 竟然回答“我是百度文心大模型”。更令人惊讶的是，当进一步询问“你的创始人是谁”，它干脆回答“李彦宏”。这一现象引发了网友的热议和猜测。一种可能性是谷歌在训练 Gemini Pro 时，使用了百度文心一言的语料数据；另一种可能是，其训练所用的语料数据已经被其他 AI“污染”。在一系列事件引发热议的同时，也反映了大模型发展中难以回避的问题——数据匮乏。数据的重要性不言而喻，高质量数据更是稀缺品。但随着 AI 技术的迅猛发展，目前全球大模型都陷入了数据荒。

一项来自国外团队的研究结果表明，高质量的语言数据存量将在 2026 年耗尽，低质量的语言数据和图像数据的存量则分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。

更令人惊讶的是，目前的国际主流大模型，参数数据集以英文为主，此前中国工程院院士高文在演讲中提到，全球通用的 50 亿大模型数据训练集里，中文语料占比仅为 1.3%。一些主流数据集如 Common Crawl、BooksCorpus、WiKipedia、ROOT 等都以英文为主，最流行的 Common Crawl 中文数据也只占其 4.8%。

信息来源：腾讯新闻

https://new.qq.com/rain/a/20240103A05GZ800

七、Science 期刊引入 AI 工具检测造假图像

2024 年 1 月 4 日，国际顶刊《科学》（Science）宣布将在今年采用 AI 图像分析工具 Proofig 来检测旗下六种期刊中经过修改的图像，尤其是涉及到故意误导读者的。

Proofig 可筛查图像的复制和其他类型的篡改。《科学》杂志一直在对部分论文进行 "人眼 "图像检查，因此 Proofig 是自然而然的下一步。这一工具将加强《科学》杂志的审核流程，并减少人为错误的可能性，因为它能捕捉到更多的改动。

据称，Proofig 可筛查图像的复制和其他类型的篡改，它类似于《科学》杂志已使用 7 年的抄袭检测软件 iThenticate，但后者针对文字而不是图像。《科学》已经试用 Proofig 数月，有明确的证据表明，造假图像可以在论文发表前被检测出来，因此它的使用范围将扩大到所有提供相关图片的在审论文。

Proofig 将在作者修改研究论文后使用。分析图像后，该工具会生成一份报告，标出重复和其他异常情况，如旋转、比例失真和拼接。论文编辑会审查这些发现，并确定人工智能检测出的问题是否有问题。如果是，编辑会联系作者要求解释。如果作者的回复不能令人满意或引发更多问题，我们将进一步调查，并采取包括拒收论文在内的措施。如果《科学》期刊已发表的论文被提出图像完整性问题，我们将使用 Proofig 仔细检查可疑图像，并为后续行动（如更正或撤稿）提供依据。

信息来源；Science

https://www.science.org/doi/10.1126/science.adn7530

多元解纷

八、最高院发布 2023 年十大经典案例，含首例涉虚拟数字人侵权案

2023 年 12 月 4 日，由最高人民法院与中央广播电视总台共同主办的“新时代推动法治进程 2023 年度十大案件”宣传活动网络投票正式启动。经评选出的十大案件包括：河南胡阿弟非法经营案，小牛资本非法集资案，牟林翰虐待罪案，吴谢宇故意杀人、诈骗、买卖身份证件案，湖南华晨房地产公司等十三家企业实质合并破产重整案，全国首例银行间债券市场虚假陈述案，江苏孤寡残疾老人遗产指定管理人案，首例涉虚拟数字人侵权案，郑州破坏黄河矿产资源案，上海医疗设备软件著作权刑事案。

其中第八例案例为：首例涉虚拟数字人侵权案

杭州某网络公司通过网络发布视频，居中位置使用魔珐公司发布的相关视频内容，片头片尾替换有关标识，并添加虚拟数字人课程的营销信息。其中一段视频还添加有杭州某网络公司的注册商标，并将其他虚拟数字人名称写入标题。魔珐公司认为杭州某网络公司的行为构成侵权，诉至法院。

杭州互联网法院一审认定虚拟数字人的人物形象构成美术作品，涉诉视频分别构成视听作品和录像制品，原告享有相关著作权及邻接权，遂判决被告消除影响并赔偿经济损失 12 万元。二审维持了原判。

信息来源：最高人民法院微信公众号

https://mp.weixin.qq.com/s/JUS3_xCE71BP975DBUmSuA

执法守法

九、国家互联网信息办公室关于发布第三批深度合成服务算法备案信息的公告

2024 年 1 月 5 日，国家互联网信息办公室根据《互联网信息服务深度合成管理规定》，现公开发布第三批境内深度合成服务算法备案信息，具体信息可通过互联网信息服务算法备案系统（https://beian.cac.gov.cn）进行查询。

本次通过备案的 129 个算法分属 97 家公司，包括阿里、百度、网易、东方财富、贝壳、唯品会、哔哩哔哩等。算法功能覆盖智能对话系统、自然语言合成、虚拟主播数字人合成、公告内容提取、图片生成、语音合成等多种功能。

信息来源：国家互联网信息办公室官网

http://www.cac.gov.cn/2024-01/05/c_1706119043746644.htm

十、新一代人工智能基础设施白皮书发布

近日，中国信息通信研究院云计算与大数据研究所、中国智能算力产业联盟、人工智能算力产业生态联盟等机构联合发布了《新一代人工智能基础设施白皮书》（以下简称《白皮书》）。《白皮书》明确了“新一代 AI（人工智能）基础设施”的定义、特点和价值，并首次提出“新一代 AI 基础设施评估体系”。数据显示，过去 4 年，大模型参数量以年均 400% 复合增长，AI 算力需求增长超过 15 万倍。以 CPU（中央处理器）为中心的传统计算基础设施已无法满足大模型、生成式 AI 的新要求。《白皮书》明确了新一代 AI 基础设施的定义：以大模型能力输出为核心平台，集成算力资源、数据服务和云服务，专门设计用于最大限度提升大模型和生成式 AI 应用的表现。《白皮书》首次提出“新一代 AI 基础设施评估体系”，即通过产品技术、战略愿景、市场生态三大维度共 12 个评估指标，对 AI 基础设施厂商综合能力进行定性和定量的全面评估。

白皮书全文详见：

https://www.sensecore.cn/whitepaper.pdf

数据要素

十一、国家数据局等印发数据要素 x 三年行动计划

2024 年 1 月 4 日，国家数据局等 17 部门发布关于印发《“数据要素×”三年行动计划（2024—2026 年）》的通知。

行动计划主要包括 5 部分 23 条措施。国家数据局副局长沈竹林将其概括为：把握一条主线，做好三方面保障，实施五大举措，推动十二项行动。

把握一条主线，指以推动数据要素高水平应用为主线，以推进数据要素协同优化、复用增效、融合创新为重点，通过强化场景需求牵引，带动数据要素高质量供给、合规高效流通，培育新业态、新模式，充分实现数据要素价值，为推动高质量发展提供有力支撑。

三方面保障指提升数据供给水平、优化数据流通环境和加强数据安全保障。五大举措主要包括加强组织领导、开展试点示范、推动以赛促用、加强资金支持和加大宣传推广等。

十二项行动聚焦工业制造、现代农业、商贸流通、交通运输、金融服务、科技创新、文化旅游、医疗健康、应急管理、气象服务、城市治理、绿色低碳等 12 个行业和领域，明确发挥数据要素价值的典型场景，推动激活数据要素潜能。

计划提到，到 2026 年底，打造 300 个以上示范性强、显示度高、带动性广的典型应用场景，数据产业年均增速超过 20%。在交通运输领域，挖掘数据复用价值，加强 AI 工具应用。在科技创新领域，以科学数据支持大模型开发，建设高质量语料库和基础科学数据集，支持开展 AI 大模型开发和训练。提升数据供给水平，在科研、文化、交通运输等领域，推动科研机构、龙头企业等开展行业共性数据资源库建设，打造高质量 AI 大模型训练数据集。

信息来源：新华社

https://www.gov.cn/zhengce/202312/content_6923330.htm

通知全文详见

https://mp.weixin.qq.com/s/HH2St0P08odW1CxDXO2ENA

十二、上海：组建大模型语料数据联盟

2024 年 1 月 5 日，上海市人民政府办公厅发布关于印发《上海市促进在线新经济健康发展的若干政策措施》的通知。

《政策措施》提出梯度培育数字经济经营主体、建设宜居宜业的载体空间、打造支撑新质生产力的新型基础设施等重要措施，推动建设新一代算力基础设施，鼓励在线新经济优质企业参与本市 AI 算力中心建设。提升 AI 大模型创新能力，将符合条件的大模型应用纳入 AI 示范应用清单和创新产品推荐目录。组建大模型语料数据联盟，鼓励在线新经济企业共同推动高水平语料数据要素建设。赋能制造业数字化转型，建设智能工厂网络、行业特色数据空间、绿色低碳、供应链金融和 AI 大模型应用。

信息来源：上海市人民政府

https://www.shanghai.gov.cn/nw12344/20240104/79e4b125a91d4a45a6867e2ba515be72.html

十三、江苏省数据局正式挂牌，首个省级数据局成立

据悉，江苏省数据局已正式挂牌。此前，2021 年 5 月，江苏省已成立省大数据管理中心，是江苏省政务服务管理办公室管理的事业单位，为副厅级。

据不完全统计，在江苏数据局挂牌成立之前，已有北京、天津、广东、浙江、山东、贵州等十几个省市设立了省级层面的大数据管理机构，每个地方的大数据管理部门名称也不尽相同，省级层面大数据管理部门既有正厅规格，也有副厅规格。例如，北京 2018 年 11 月成立北京市大数据中心，隶属于北京市经济和信息化局。天津成立大数据管理中心，隶属于天津市委网信办。重庆市则是大数据应用发展管理局，贵州为贵州省大数据发展管理局。这些地方上的大数据管理机构尽管归口和级别迥异，但都承担着加强大数据领域行政管理职能和推动大数据产业发展的职责。

此次揭牌的江苏省数据局，名称和国家数据局保持一致，意味着省级层面的大数据管理机构将出现一个承上启下的管理部门，其在省域内发挥着顶层设计、总体布局统筹协调和整体推进作用，有利于建立起标准统一、上下协同、运行高效的数字治理组织体系，加快建设集约化、一体化的数字政府。此外，省级大数据局的机构设置和职能配置模式将对后续开展的市县机构改革起示范作用，促进省域内各级大数据局优化机构、调整职能，健全省市县三级协同联动机制。

信息来源：安全内参

https://www.secrss.com/articles/62541

主编丨张佳霖

顾问丨张烽

出品丨数字治理研究 / 万商天勤

【数据资产化实践与合规】数字治理研究 / 万商天勤团队目前与柚子工道等技术、合规、资产评估、会计等合作伙伴一起，组成可信数据服务生态联盟，开发了包括“数据资产化概述”“数据产品设计”“数据资产化相关政策解读”“数据合规评估”“数据交易”“数据资产入表案例解析”等相关课程，并与新华网与上海文化产权交易所发起的“新华数联”数据资产管理平台合作提供数据资产化操作服务，并欢迎咨询。

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。