作者:朱开鑫,腾讯研究院研究员
2023年5月22日,歌手孙燕姿发表博文《我的AI》对近期大火的“AI孙燕姿”事件正式回应。“我的粉丝已经接受我是一名冷门歌手的事实,而我的AI角色成为了目前的顶流。说真的,你怎么可能打得过一个在几分钟之内就能出一张新专辑的家伙?”据报道,“AI孙燕姿”翻唱歌曲总数已经逾越1000首,远超其出道23年以来的作品总和,在B站的单曲翻唱播放量都已经接近200万。
在国外,2023年4月14日,匿名网友“幽灵创作者”(Ghostwriter)利用歌手“Drake”和“the Weeknd”的声音训练AI模型并生成了歌曲《Heart on My Sleeve》,短短两天在TikTok点击量便超过1500万。但环球唱片公司对此斥责道,“使用我们旗下歌手训练AI,既违反协议也违反版权法!”[1]在其投诉下,Spotify、YouTube、TikTok等平台纷纷下架了该歌曲。
“AI音乐好听到让人感觉很危险。”2023年4月19日,《纽约时报》记者Joe Coscarelli就上述争议撰文直言,“AI歌手看似像一只无害的百灵鸟(harmless lark),实际上加剧了音乐行业一直以来的担忧,AI模型正在大规模学习并稀释歌手创作的价值。”
2023年5月17日,美国国会召开“交互中的人工智能与版权法”听证会,美国词曲作家协会(Society of Composers & Lyricists)主席、艾美奖得主Ashley Irwin不无担忧地表示,“除非在法律和市场机制等层面出台有效的举措,生成式AI的快速应用将会直接威胁音乐创作行业的生存延续。”[2]
“AI歌手翻唱”背后的技术原理
“AI歌手”之所以能够进行歌曲翻唱,背后依靠的也是当下大火的生成式人工智能(AIGC)技术,目前这一领域主流的模型是“SO-VITS-SVC”。“SO-VITS-SVC”源于2021年6月11日发布的“VITS”的开源项目。“VITS”是一种语音合成模型,可以实现“文生音”的效果。但“VITS”模型需要海量的训练数据(数千至上万条5-10秒左右的音频),并高度依赖于人们对语料数据的文本标记,应用门槛很高。[3]
2022年8月26日,一位名为“Rcell”的B站用户在“VITS”的基础上,结合了Soft-vc(内容编码器,用来提取音频语音特征)、VIsinger(端到端的歌声合成系统,用来简化歌声合成系统的训练流程)等,开发出了“SO-VITS-SVC”模型。“SO-VITS-SVC”可以理解是一个音色转换的AI模型,仅需十几分钟的音频数据,便可以拟合成具备特定主体音色的工具。[4]
“AI歌手”便是利用“SO-VITS-SVC”训练出具备目标歌手(例如孙燕姿)音色的声学模型,并对其他歌手的歌曲(例如周杰伦的《发如雪》)进行翻唱(即音色转换)。实践中,利用“SO-VITS-SVC”模型制作一首由“AI歌手”翻唱的歌曲,主要有如下三个步骤:
第一,获取包含目标歌手的语音文件,通过UVR5等音频工具将干声(纯人声)和伴奏、合音等进行分离,并通过Audio Slicer等音频工具将干声切分为多个不超过30秒的文件,形成目标歌手的音频数据集;
第二,利用上述音频数据集对“SO-VITS-SVC”模型进行训练,获得具备目标歌手音色的应用模型;
第三,选择希望翻唱的“目标歌曲”,制作“目标歌曲”的干声文件,利用训练好的目标歌手音色模型,对干声文件进行推理预测和音色转换,得到“AI歌手”翻唱的歌曲。[5]
“AI歌手”训练涉及哪些版权主客体?
从模型训练阶段来看,各界对于AIGC版权问题的关注重点集中于,被用来训练的数据内容是否存在侵权风险。“AI歌手”及其背后的“SO-VITS-SVC”模型,训练数据集中于音乐著作权及邻接权领域,涉及的客体内容和权利主体较为复杂。
目前来看,对“AI歌手”音色模型进行训练,涉及的语音文件数据主要包括两大类:一类是目标歌手的“音乐录音制品”;另一类是目标歌手的 “普通语音制品”,包括歌手的日常对话以及采访会、发布会对话的录音文件。
第一类情形,若利用目标歌手的“音乐录音制品”进行模型训练,“音乐录音制品”属于版权法上的客体录音制品,涉及三方主体及权利。一是,特定歌曲对应的词曲作品权利人,及其享有的“著作权”;二是,演唱这一歌曲的歌手,及其享有的“表演者权”;三是,制作这一“录音制品”的录音制作者,及其享有“录音制作者权”。
第二类情形,若利用目标歌手的“普通语音文件”进行模型训练,原则上仅需获得语音文件对应的录音制作者授权。但需要注意的是,若未经许可对目标歌手的声音对话进行私自录制,可能涉及隐私、声音等人格权侵权风险。若上述录音制品涉及目标歌手演讲、脱口秀之类具有一定表演意义的内容展示,此时与第一类情形相同,仍涉及到三方面的权利及相关主体。
“AI歌手”训练可能涉及哪些版权风险?
1、数据存储阶段——“复制权”问题
在利用目标歌手“音乐录音制品”和“普通语音文件”等数据,训练“AI歌手”音色模型的过程中,目前来看需要将原录音制品存储到AI模型的服务器,进行干声文件的制作和提取。从版权法角度看,这一行为首先可能涉及到各项权利主体“复制权”的许可问题。录音制品涉及的词曲作品版权人、录音制作者和表演者歌手都有享有复制权,因而原则上需要获得以上三方权利主体的授权。
值得注意,伴随内容生产和传播领域新技术的应用,也需要我们思考是否存在“过度的、孤立的看待‘复制权’的问题”。因为“复制”往往是依附于“作品主要利用行为”的准备过程而已,若不存在复制之后的发行、广播、信息网络传播等版权法规制的作品公开利用行为,侵权损害实际上无从谈起,权利人也无从发现自身作品是否被利用。时至今日,是否应为信息技术和商业模式的演进,预留出一定的“复制自由”,类似于“避风港制度”诞生之际创设的“缓存自由”一般,有待关注探讨。
2、模型训练阶段——“改编权”“兜底性权利”问题
下一步,便需要对上述含有目标歌手嗓音特征的训练数据加工处理,目的是获得目标歌手相关的音色、声纹并存储为模型参数,供后续调取使用。但模型内部的数据处理加工行为对应版权法上的何种权利存在疑问,且理论界和实务界目前尚未有明确结论。
有观点表示,上述行为可能落入“改编权”以及“兜底性权利”的规制范畴。根据我国现行《著作权法》,只有作品权利体系包括 “改编权”以及“兜底性权利”,而隶属于邻接权体系的录音制作者权和表演者权则未能涵摄上述权利范畴。由此,就“AI歌手”音色模型训练而言,依照上述分析思路,存在只保护音乐词曲作品版权人而不保护录音制作者和作为表演者歌手的尴尬境遇。
也有观点认为,上述行为不属于版权(包括邻接权)规制的权利范畴。模型内部的数据处理加工行为不是为了使用作品中的表达性要素,而是一种“非表达型机器利用”,属于在非版权法意义上的作品使用行为。因此,未经授权的模型内部训练加工行为不属于版权法上的侵权行为,不受版权法的规制。
需要明确的是,目标歌手即表演者的音色、声纹、演唱技巧等虽然不完全属于版权法保护的对象,但版权法对于表演者赋予了保护表演形象不受歪曲的权利。因此,不管是自然人亦或是AI模型,对于歌手演唱风格和技巧的模仿原则上都不会构成版权法上的侵权,但如果模仿有扭曲、丑化表演者等情形,则会侵犯表演者权中的保护表演形象不受歪曲的权利。
“AI歌手”训练是否构成“合理使用”?
我国《著作权法》规定了“合理使用”(对于作品的利用,可以不经版权人许可,不向其支付报酬)的具体情形,涉及音乐的部分大致包括“个人使用”“适当引用”“学习研究使用”以及“免费表演”等。但“AI歌手对歌曲的翻唱”在视听平台上被公开广泛传播,既与原词曲作品、录音制品的潜在市场高度重合,也存在流量、广告、打赏等多种收益途径。所以,目前来看“AI歌手”模型训练涉及的作品、制品利用等,很难归入“合理使用”的具体情形。
虽然2021年修订后的《著作权法》对于“合理使用”规定,增加了“一般要件”和“兜底条款”。但“兜底条款”是一个半开放的内容规定——“法律、行政法规规定的其他情形”,无法在司法实践中由法院根据案情直接适用。因此,“AI歌手”音色模型训练能否适用“合理使用”的豁免,仍有待后续专门立法加以确认,目前仍需要获得相关授权。
作为全球主要的唱片公司,环球音乐(Universal Music Group)从权利人视角表明了自身的态度, “我们对旗下音乐人负有道德和商业上的责任,应当防止未经授权的AI训练利用,阻止平台传播侵犯艺术家和其他创作者权利的内容”,并要求Spotify和Apple Music等主要流媒体平台切断AI公司对其内部音乐的访问权限。
值得关注,“AI歌手”训练涉及的作品、录音制品利用等只针对特定的“目标歌手”,类似于只针对一个画家的作品或一个小说家的作品进行“文生图”“文生文”模型训练,看似存在更高的版权风险。但实际上,“AI歌手”背后的“SO-VITS-SVC”声学模型,只涉及歌手音色的提取与利用,并非针对作品中的表达性要素甚至不是为了学习作品中的风格思想。因此,“AI歌手”模型训练对于相关作品、制品的利用,相较其他领域的模型而言似乎“转换性”更高。
从全球版权法演进趋势看,对于AI模型训练及背后的“文本与数据挖掘”行为,欧盟以及内部的德国、法国,英国,日本等已经在版权法中进行了回应。但各国建构的责任豁免机制绝非“一边倒”。以欧盟为例,不仅对公益目的和商业目的利用加以区分,规定版权人有权拒绝商业目的的模型训练:还强调训练数据必须是合法获取的,实际赋予版权人通过技术手段防止作品被利用的权利。
值得注意,2023年5月11日,由欧洲议会内部市场和公民自由两个委员会通过的“人工智能法案(授权谈判草案)”第28条指出,AIGC模型提供者需要记录并公开训练数据中受版权保护内容使用情况的详细说明。预计欧洲议会将在2023年6月对上述草案进行投票,如果获得批准,则有望在2023年7月西班牙担任欧盟理事会主席国期间,由欧洲议会、欧委会和各成员国进行“Trilogues磋商谈判”,就该法案文本达成最终一致意见。
而在2023年5月17日的美国国会听证会上,美国版权局前总法律顾问Sy Damle则直言:“任何强制模型对于训练数据内容付费许可的尝试,要么会使美国AI行业破产,消除我们在国际舞台上的竞争力;要么会驱使这些头部公司离开这个国家。”美国之所以成为全球AI产业的研发中心,很大原因依赖于版权法中独一无二、广泛灵活的合理使用条款,相信其依然可以适用于AIGC模型。这些模型从数十亿的训练数据中提取抽象的概念和模式(concepts and patterns),并创造出不同于且不侵权既有作品的全新内容。
如何避免对“被翻唱作品”的侵权?
从内容生成机制来看,“AI歌手”及其背后的“SO-VITS-SVC”模型,本质上是对既有录音制品进行音色替换,实现“AI歌手”对其他目标歌曲的翻唱。这与此前ChatGPT类产品相比——通过输入一段“prompts”随机生成文字、图像等,存在较为明显的差异,涉及的版权问题也更为复杂。
第一,因为“AI歌手”大多是对既有知名歌曲进行翻唱,所以首先需要获得目标歌曲涉及的词曲作品版权人的授权,这一权利属于“表演权”的范畴。
第二,在内容生成阶段,还是需要制作“目标歌曲”的干声文件,用作进一步的音色转换。这对应目标歌曲录音制品的服务器存储行为,会涉及到词曲作品版权人、录音制作者和表演者“复制权”的授权问题。
第三,若通过在线直播或者短视频等方式,传播“AI歌手的翻唱”,还需要获得目标歌曲的词曲作品版权人的额外授权,直播行为涉及“广播权”,短视频制作则涉及“复制权”和“信息网络传播权”。
第四,若将“AI歌手对歌曲的翻唱”制作录音制品,需要获得目标歌曲词曲作品版权人的许可。《著作权法》对于翻唱行为有法定许可制度,即如果目标歌曲已经被合法录制为录音制品,则可以不经版权人许可,但应当按照规定支付报酬。根据相应司法判例,支付前述报酬应在翻唱之日起3个月内完成;版权人声明不许使用的不得使用。
第五,“AI歌手”模仿其他歌手对知名歌曲的翻唱,并不存在对特定歌手表演者权以及特定录音制品制作者权的侵犯。因为表演者权利和录音制作者权利都没有“改编权”,模仿表演、录制风格等情形并不会构成对二者权利的侵权。
第六,若“AI歌手”对歌曲的翻唱,直接使用了目标歌曲原有的伴奏音频,则需要获得伴奏录音制品制作者的授权。但如果没有直接复制原伴奏音频,例如通过AI技术仿照原音频重新制作了一版伴奏,则不存在这一侵权风险。
“AI歌手”还存在哪些版权之外的侵权风险?
值得注意的是,在“AI歌手”音色模型的训练和应用过程中,也需要重点关注人格权领域的侵权风险。《民法典》颁布以后,进一步明确了姓名权、肖像权、声音权等均作为具体人格权受到保护:
《民法典》第1018条规定,“自然人享有肖像权,有权依法制作、使用、公开或者许可他人使用自己的肖像”;
《民法典》第1012条规定,“自然人享有姓名权,有权依法决定、使用、变更或者许可他人使用自己的姓名,但是不得违背公序良俗”;
《民法典》第1023条规定,“对自然人声音的保护,参照适用肖像权保护的有关规定”。
根据《民法典》上述规定,无论是姓名权、肖像权亦或是声音权都存在一项“许可他人使用”的权能,即可以许可他人使用自己的姓名、肖像、声音,获得一定的经济利益。所以,对于“AI歌手”而言,未经授权利用知名歌手的声音进行歌曲翻唱,以及未经授权以知名歌手的名义和照片图像发布翻唱歌曲,也存在人格权侵权风险。
2023年4月11日公开的《生成式人工智能服务管理办法(征求意见稿)》第7条规定,用于生成式人工智能产品的预训练、优化训练数据,包含个人信息的,应当征得个人信息主体同意。而根据2020年10月1日发布的《信息安全技术 个人信息安全规范》,声纹作为个人生物识别信息属于个人敏感信息。因此原则上,提取声纹进行AI模型训练前需要向目标歌手告知使用的目的、方式及范围等,并取得明示同意。
“AI歌手翻唱”如何进行侵权判定?
虽同属于AIGC领域,但基于模型技术原理和内容生成机制的差别,“AI歌手”类产品与目前大火的ChatGPT、Midjourney等“文生文”“文生图”应用相比,在模型训练阶段和内容输出阶段涉及的版权问题均存在明显差异之处。可以简单总结:虽然授权主体更复杂,但侵权判定更为明晰。
AIGC模型训练阶段的作品利用行为,本质上是一种机器内部的非外显性质的利用,这就导致了即使自身作品被侵权训练,版权人实际上也难以发现。但相较于此前的ChatGPT类产品,“AI歌手”以训练特定歌手音色模型为目标,所以作为权利人的歌手对于自身涉及到的作品、表演以及录音制品,是否被利用存在相对明确的认知。
前文已述,“AI歌手”模型训练,类似于“文生图”领域——只利用一位画家的作品训练“stable diffusion”模型,得到只生成特定画家风格内容的产品应用。因此,在“AI歌手”模型训练阶段不存在绝对意义上的“侵权发现困境”。即使具体利用了哪一首录音制品存在判定困难,但从人格权角度,对目标歌手“声音权”的利用当属无疑。
对于此前的ChatGPT类产品而言,在内容输出阶段AI模型实际是以一种难以预判的方式,生成和既有作品相区分的、全新的内容表达。由此,版权人在输出内容侵权比对过程中,往往陷入“似曾相识”但又“似是而非”的困顿。但“AI歌手翻唱”必然涉及对“目标歌曲”词曲作品的直接利用,是否获得授权、是否存在侵权存在较为清晰的判定。
从“是否会被取代”到“可以做些什么”
2023年3月16日,美国唱片业协会(RIAA)联合30余个社会团体,共同发起了“人类艺术运动”(Human Artistry Campaign),呼吁确保AI的开发和使用始终致力于促进人类文化和艺术的发展,而非取代或侵蚀人类自身的创作。[6]
2023年3月22日,华语歌手陈珊妮在微博宣布近期备受欢迎的新歌《教我如何做你的爱人》,实际是由自身音色训练的“AI陈珊妮”演唱,并希望借此推动艺术创作群体的思考——如果AI的时代必将到来,在意的或许不该是“是否会被取代”而是“可以做些什么”。
“AI音乐时代”未来已来、将至已至,技术发展和产业革新的趋势方兴未艾,创作人的兴奋与担忧并存。2023年5月11日,全球战略集团(GSG)发布的一项新研究显示,有42%的受访者认为内容创作者应该因AI模型训练使用他们的作品而获得补偿,但也有24%的受访者表达了相反态度。[7]
2023年5月17日,在美国国会“交互中的人工智能与版权法”听证会上,格莱美奖提名作曲家Dan Navarro重申了“人类艺术运动”提出的关于技术发展和艺术创作的“七大原则”:
一,新技术发明长期以来一直赋能人类创作,AI也不例外,艺术家将利用AI创作出伟大的新作品;
二,人类作品的独特价值将不会被取代,因为作品和受众之间连接的本质是内在思想的共情,而这只能由人类所理解和表达;
三,与所有此前的技术一样,如果AI是基于版权作品进行训练的,那么需要经过授权许可;
四,是否出台新的版权责任豁免条款需要谨慎,为AI训练提供权利捷径会削弱艺术创造的动力,长此以往,AI也将变成无源之水;
五,版权只应当保护人类智力创造的特有价值,版权保护的宪法意义是为了激励人类创作,而机器不需要被激励;
六,可信性和透明度对于AI至关重要,否则人们将无从知晓机器训练的真实情况,版权保护也无从谈起;
七,在新规则的制定中,艺术家需要占有一席之地,因为他们的创作、权利和生计正在受到AI的现实威胁。
在产业界拥抱新技术并赋能内容创作的同时,需要加快理论和规则层面思考和回应的步伐:科学的解决“AI歌手翻唱”可能带来的内容行业利益失衡问题,并在“AI模型研发者”“目标音色歌手”和“被翻唱歌曲权利人”之间构建版权领域应有的智力劳动合理回报机制。
本文内容仅代表作者个人研究观点。
参考资料来源:
[1]https://www.musicbusinessworldwide.com/universal-music-group-responds-to-fake-drake-ai-track-streaming-platforms-have-a-fundamental-responsibility/
[2]https://judiciary.house.gov/committee-activity/hearings/artificial-intelligence-and-intellectual-property-part-i
[3]https://zhuanlan.zhihu.com/p/474601997
[4]https://zh.moegirl.org.cn/zh-hans/So-vits-svc
[5]https://thelearness.com/how-to-clone-any-voice-with-ai-with-so-vits-svc-fork/
[6]https://www.digitalmusicnews.com/2023/03/16/major-labels-recording-academy-and-music-organizations-issue-list-of-ai-principles/
[7]https://www.humanartistrycampaign.com/news
免责声明:本文不代表米塔之家立场,且不构成投资建议,请谨慎对待。