2025 年 7 月初,中央通讯社对一名无偿分享繁体中文语料库的台大博士生提出着作权侵害告诉,引发国内 AI 社群譁然。这位博士生整理大型网路文本语料、并以开放资料授权在社群公开,却意外接到警方调查通知。他惊讶地表示,只是将繁体中文资料集开源分享给需要训练 AI 的人使用,竟陷入可能触法的处境。
此事件为台湾生成式 AI 发展的重要警讯:即便没有商业营利目的,蒐集并提供网路资料训练模型,仍可能遭认定侵害着作权。幸而最终这个案件以和解收场,却触发「训练 AI」与「着作权」间的冲突。
台湾案例曝露法制空白
除中央社案,之前新创公司「七法」(Lawsnote)也因爬取商业法律资料库「法源」内容遭重判:七法公司以爬虫抓取法源网站逾 50 万笔法规沿革与附件资料,载入自家法学资料库供用户检索。2025 年 6 月,新北地方法院依违反《着作权法》等罪,将七法两名创办人判处四年与两年徒刑,并连带赔偿法源公司约 1 亿 545 万元,如此高额刑民责任在台湾实属首例。
法院认定,七法几乎无偿取得法源多年累积的编辑成果,以低价服务与之竞争,侵害编辑着作权多达 98,068 笔,情节重大。即便许多人都对判决书是否存在「着作权」而引发争议,但也激发了相关法律红线的讨论,重新审视资料爬虫的风险。
对开源开发者而言,这些案件突显台湾在智慧财产权保护与 AI 创新之间的制度空白:当技术创新踩在法律灰色地带时,缺乏法律明文允许就难有「免死金牌」。
新闻媒体的焦虑
全球新闻出版业者近年面对生成式 AI 的崛起,也表露出强烈的版权焦虑:纽约时报、CNN、BBC 等知名媒体都已封锁 AI 爬虫抓取其网站资料。纽约时报曾尝试与 OpenAI、微软等公司洽谈付费授权,但多遭以「公平使用」为由拒绝。协商未果下,2023 年底,《纽约时报》控告 OpenAI 与微软未经同意複製使用其数百万篇新闻与调查报导等内容训练模型,认为此举损害了报社声誉及订阅、授权、广告收益,要求停止侵权并销毁模型和训练资料库。也有内容平台则乾脆祭出技术围堵:社群网站 Reddit、Twitter 去年修改介面或政策,以阻挡网路爬虫大规模撷取用户贴文资料。
除了诉诸法律,部分媒体选择与 AI 公司签订授权合约,用有偿授权换取资料使用的透明与利益分享。如美联社(AP)2023 年与 OpenAI 达成协议,授权后者使用其部分新闻稿库训练模型,换取技术交流支援。
训练需要资料,合法边界在哪里?
面对内容产业的强硬态度,AI 开发者与科技公司也展开法律和舆论双重反击。他们普遍主张使用网路公开资料训练 AI 属于合理使用,不应视为侵权。
例如《纽约时报》诉讼案,OpenAI 强调模型训练受美国着作权法「公平使用」原则保障。所谓「公平使用」,是美国等地着作权法的弹性条款,允许特定状况未经授权使用受保护作品。OpenAI 认为网际网路自 1990 年代以来,就是允许资料被複製与再利用,搜寻引擎等服务才能运作。
同时 AI 相关业者也认为模型输出的是全新内容、而非原作品片段。如图像领域,知名图片库 Getty Images 曾于 2023 年控告生成式 AI 新创公司 Stability AI 未经许可撷取超过 1,200 万张照片训练模型。Stability AI 之后承认确实使用 Getty 图片训练,但辩称只是「暂时複製」,最终产生图像是「全新且原创的合成图」,并未直接重现原作。
这类说法反映 AI 业界的「认知」:模型训练时,複製资料是技术所需的中间环节,重点在于输出成果是否侵犯创作版权。但为了避免情况越演越烈,AI 业者也开始主动找寻降低摩擦的方法。如尝试以付费授权方式合法获取训练资料,并与 Google 一同推出「拒绝撷取」的网页标记工具,允许网站营运者选择不让 AI 爬取资料。
从美国公平使用到日本例外条款
2025 年 6 月,旧金山联邦法院的裁定明确支持 AI 训练的「公平使用」立场:法官认定 Anthropic 公司在未经作者许可下,以受版权保护的书籍训练大型语言模型 Claude,符合着作权法下的合理使用要件。这项裁决被视为 AI 部署领域的重要先例,因为法院认为模型训练属转化性用途,目的并非取代原着,且 Claude 模型的输出并未再现原作品的创意表达或模仿作者风格。
不过,法院同时也强调,需要进一步调查 Anthropic 蒐集大量盗版电子书并永久存库的行为是否构成侵权,以及可能的赔偿责任,且实际爬取新闻也对媒体业者造成实质侵害。
另外,欧盟 2019 年通过的「数位单一市场着作权指令」,新增了「文本与资料探勘」例外,允许有合法存取权的研究者或企业为了资料探勘目的,複製大量受保护作品而无需事先徵得同意。该条款相当于为搜寻引擎式的大量内容分析开了绿灯,但仍限定于探勘资讯之用途。
日本早在 2018 年修法时,就新增《着作权法》相关规定:只要不是以「享受」原作品为目的,都可在必要範围内利用受保护作品进行资料分析。这使得日本被视为对生成式 AI 开发最友善的法域之一。有学者分析,日本没有照搬美国的自由心证式公平使用,而是以具体条款赋予 AI 训练合法空间,为平衡创新与版权提供了明确框架。
回到台湾这边,目前着作权法尚无针对 AI 训练资料的明文例外规定,相关争议只能寄望于法院个案中对「合理使用」的诠释。但在法律尚未鬆绑前,像七法和中央社语料库这样的案件可能陆续上演,对 AI 相关的创新发展造成寒蝉效应。相关单位和立法机关应已在这几次的事件中,注意到「着作权」与「创新」之间的冲突,开始评估要如何推进相关法条。
但不管如何规定,媒体都是受打击最大的那方:许多人都说新闻门槛低、记者没读书,但新闻资料却是从搜寻引擎→社群媒体,再到生成式 AI 被打击最大的受灾户。
(首图来源:Pixabay)
延伸阅读:
- 创新踩线还是侵权?七法与法源之争揭示 AI 时代的法律边界
- AI 横行,30 年前写给「君子」的 robots.txt 挡得住今日爬虫巨兽吗?
- AI 无偿使用新闻内容,美媒网站流量雪崩联手提告
- 浏览器外挂遭滥用成爬虫工具,你我都成网站资料抓取代理人