21:中外交流
上一版3   4下一版  
 
标题导航
 
3 上一篇   下一篇 4  
放大 缩小 默认   
国际出版商协会举办视频会
聚焦AI公司大模型训练及退出机制
  艾德·纽顿-雷克斯

  玛丽亚·帕兰特

  国际出版商协会(IPA)近期组织了一次视频会议,美国出版商协会(AAP)CEO玛丽亚·帕兰特(Maria Pallante)对Stability AI前高管艾德·纽顿-雷克斯(Ed Newton-Rex)进行了采访。双方就目前人工智能技术公司未经授权使用版权内容进行模型训练的政策现况及历史发展,透明度和授权原则,选择退出机制等热点话题展开对谈。

  玛丽亚在访谈中指出,目前美国已有30多起针对AI公司版权侵权的诉讼,在这些案件中,AI公司普遍以“合理使用”为由进行辩护,若法院作出对其有利的判决,则会从根本上削弱版权法。一些政府迫于大型科技公司的压力,正在考虑通过立法途径对版权法做出宽泛的例外规定,包括“避风港原则”以及“文本和数据挖掘”(TDM)的例外规定,这不仅会侵占作者和出版商宝贵的知识产权,还有可能导致图书、科技期刊和教材的市场被替代。同时应当看到,因为一些科技公司对合法获取和高质量内容感兴趣,授权许可案例也在美国和其他地方不断涌现。这些授权许可案例为创作者提供了新的市场机会,同时也有力驳斥了“合理使用“的主张以及某些科技公司“授权太难”的论调。玛丽亚强调,被创意界视为文学和创意作品的内容,被某些AI公司视为数据,更甚者通过盗版网站和翻越付费墙获取,这样的行为更加不可接受。

  模型训练是对版权的公然侵犯

  艾德从2010年左右开始就长期从事“创意式人工智能”(Creative AI)的工作。在那个年代,几乎没人在未经许可的情况下使用版权作品。 但是随着技术的飞跃,情况悄然改变。2022年,一些公司认为他们的大模型表现出色,进而将其商业化发布,这些模型是以学术研究的名义,通过“文本和数据挖掘”版权例外抓取数据训练出来的。艾德认为,这些公司无视法律,认为自己不会失败。这些公司快速筹集了巨额资金,增长之快令人震惊。艾德坦言,他之所以深度参与到为创作者维权的工作中来,原因之一是那些侵权行为令他痛苦。他说,我们本有另一条行业可以遵循的路径(授权许可),并且已经遵循了很长时间。

  2024年10月,Fairly Trained平台与包括AAP在内的多家创意权利组织合作,发起大规模的创作者维权声明,抗议AI公司未经授权使用版权内容训练模型。迄今为止,已有约3.6万名创作者签署了该声明。 公开声明得到了热烈响应和广泛支持,许多屡获殊荣的作家和创意产业的名人都签署了声明。

  艾德表示,现在,一些AI公司抱怨获取训练数据的授权太难。但玛丽亚表示,授权可能需要时间,但你最终会达到同样的目标,并获得同样强大的模型,而且不会破坏作者和出版商的生计。

  “选择退出”机制有失公平

  选择退出机制也是目前版权界多有争议的话题。玛利亚认为,它将颠覆版权体系,不是让用户在使用他人知识产权之前寻求许可,而是将责任放在创作者身上,要求他们监控未经授权的使用并选择退出。艾德认为,当前对选择退出机制的宣扬,已经开始固化“选择退出是默认规则,除非权利人站出来说‘我不想参与其中’。”这种论调。 艾德表示,世界上使用最广泛的选择退出方案是爬虫协议(Robot Exclusion Protocol),在网站上的robot.txt文件中可以写入选择退出代码,但实际上这在选择退出方面还远远不够。有很多原因,但主要一点是不能对内容的下游副本也做选择退出。也就是说,你可以在自己的网页上写入选择退出代码,但是你的作品会在合理使用范围内被其他人使用,或者被人截图分享到X网站或其他社交媒体上,这些情况经常发生。但是,你无法对这些通过其他形式传播出去的内容也作选择退出。因此,选择退出机制只是给权利人一种可以掌控自己内容的错觉。 选择退出机制还有许多其他问题,比如权利人不知道或没有及时采用选择退出等等。对于权利人来说,选择退出是个既没用又沉重的负担。如果采用选择退出机制,就意味着AI公司可以肆意获得他们想要的任何内容,而政府似乎希望人工智能公司在此博弈中获胜,这是很可怕的。

  仅有透明度原则远远不够

  艾德指出,当前很多国家都在不同程度上制定AI模型训练内容的透明度原则,比如欧盟刚刚推出的《通用人工智能实践准则(初稿)》(First Draft General-Purpose AI Code of Practice)中也有相关规定。但这只是名义上的透明,对权利人并不是真正的透明,因为它只会流向科技公司的AI办公室。尽管透明度这个提法本身是好的,甚至法律都没有明确定义透明度。艾德表示,关于透明度还有几个问题。首先,透明度本身并不能解决问题,如果允许未经授权使用版权内容训练模型,那么透明度又有什么用呢?此外,在立法和监管的讨论中,有重要的一个方面被忽略了,那就是合成数据。实际上,AI公司通常被他们的律师建议尽量使用合成数据来训练模型。合成数据是生成式AI模型根据版权内容生成的内容,这个过程实际是“版权洗白”,因为你的作品通常不会出现在合成数据中,但是他们被用来生成那些合成数据。目前的情况是,世界上还没有任何法规来规制合成数据,而透明度规则也不要求你说出合成数据的来源。(摘译自在华国际出版商联盟(IPCC)公众号)

3 上一篇   下一篇 4  
   第01版:一版要闻
   第02版:年终盘点/集团产经
   第03版:年终盘点/集团产经
   第04版:专版
   第05版:广告
   第06版:年终盘点/关键词
   第07版:年终盘点/数字出版
   第08版:专版
   第09版:年终盘点/大书城
   第10版:年终盘点/大书城
   第11版:年终盘点/书店直播
   第12版:创新营销人
   第13版:年终盘点/细分市场
   第14版:年终盘点/细分市场
   第15版:成长教育
   第16版:综合
   第17版:榜样团队
   第18版:榜样团队
   第19版:奇迹童书大赏
   第20版:奇迹童书大赏
   第21版:中外交流
   第22版:年终盘点/严选书单
   第23版:年终盘点/年度文学事件
   第24版:业者论坛
   第25版:民营书业特辑/专题
   第26版:民营书业特辑/访谈
   第27版:民营书业特辑/访谈
   第28版:民营书业特辑/广告
   第29版:民营书业特辑
   第30版:民营书业特辑
   第31版:民营书业特辑
   第32版:民营书业特辑
   第33版:民营书业特辑/广告
   第34版:精品精荐
   第35版:精品精荐
   第36版:行情报告·资讯
   第37版:中缝
   第38版:中缝
“看好以青年为受众的流行文化板块”
聚焦AI公司大模型训练及退出机制
法国开放科学政策实施见成效
《全球科研诚信十问》报告发布
爱思唯尔发布《未来医生白皮书(2024)》关注AI在医疗领域的应用与影响
中国出版传媒商报中外交流21聚焦AI公司大模型训练及退出机制 2024-12-27 2 2024年12月27日 星期五