人工智能生成物是否为作品
摘 要:随着人工智能的发展,文学艺术领域作品的创作不再是人类的“专利”,与此同时也引发了广泛的讨论:这一类创作物是否为真正的作品?遗憾的是,迄今为止,上述的创作物并不能被认定为作品。这是因为人工智能生成内容都处于人机协作模式之下,也就是说人工智能程序处于客体和工具地位,根本不具备创作的自主独立性。更为重要的是,其内容是在既定的算法、规则甚至模板的作用下所产生的结果,也无法体现创作者独特的个性。
关键词:人工智能;创作;模板;算法
早在2016年,联合国就发布了人工智能报告,表达了其对于人工智能的关注,并为应对人工智能及机器人技术的发展带来的各种问题,提出了全新的思考方式与解决路径[1]。与此同时,很多国家将人工智能的发展提高到国家战略层面,比如中国在2017年,将人工智能首次写入《政府工作报告》中[2]。为什么全世界如此关心人工智能的发展呢?这是因为AI已不是极客圈内的炫技,而是可以应用到生产实践中。特别地,在文艺创作方面的大量应用是令人最为震惊的。美联社与人工智能公司合作开发了人工智能新闻写作平台 Wordsmith;腾讯财经开发的写稿机器人Dreamwriter;微软公司研发的人工智能“小冰”“创作”了诗集《阳光失去了玻璃》并出版,“这也是人类历史上首部100%由人工智能创作的诗集”[3]。尽管AI飞入寻常百姓家,但“人工智能至今尚无统一的定义,要给人工智能下个准确的定义比较困难”[4],一般认为它描述了计算机模拟人的某些思维过程和智能行为(如学习、思考和推理)的过程。从这个方面讲,利用人工智能生成的内容似乎就有了智力创作的痕迹,事实上其外部表现的确与人类创作物并无明显区别。因此,与著作权相关的问题逐渐引发热议。譬如,对这些内容在著作权法中如何定性?它们能否受到著作权法的保护?关于人工智能创作物版权问题的思考,笔者认为可以先后从两个层面展开:首先考虑人工智能创作物是否符合独创性标准的要求﹐而使其可被视为作品;其次,在前一问题的基础上继续考虑智能作品的归属问题,即究竟是将作品权利归属于人工智能设计者,还是所有者,抑或是使用者,甚或突破性地赋予人工智能这一新的主体。有鉴于此,本文将重点论述版权问题的核心——人工智能生成物是否为作品。
《著作权法》第1条即开宗明义地规定“为……鼓励有益于社会主义精神文明、物质文明建设的作品的创作……根据宪法制定本法。”[5],该法律还对作品作了如下定义“文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。”[6]根据版权法的定义可看出,作品一定具备独创性。这里需特别指出,法律并未将独创性与人进行绑定,正如学者易继明所言“将‘人’的创作作为‘独创性’的内涵,混淆了权利客体的属性与权利归属在法律技术上的区别,破坏了法律的基本逻辑”[7]。基于上述的分析,考察AI生成物作品属性,应当对其生成过程进行定性,并判断最后的结果是否具有独创性。
在对生成过程定性之前,我们有必要先考虑相同内容源自于人类创作的情况下,该内容在表现形式上是否构成作品。如果相同的内容即使源于人类,也不可能构成作品,则对上述问题就丧失了研究的必要。因为“如果源自人类的相同内容都不属于作品,则无论该内容是源自于动物还是人工智能,都不可能被认定为作品,此时仅需要讨论作品的范围是否应当扩充,或者是否应当在著作权法中增设邻接权,以保护此种不构成作品的内容,但显然与人工智能无关。”[8]对于这类,在司法实践中已有较多的案例,比如利用人工智能将五线谱转化为简谱无法构成作品[9]。
如果表现形式上像作品,我们有必要判断其生成过程是否符合独创性的要求。具有“学习”能力是人工智能技术发展进步的标志。开发“阿尔法围棋”程序的“深度思维”公司首席执行官曾称该程序“拥有强大的自我学习能力……它是通过自我对局来优选最佳方法,这跟人类的思考方式一样”[10]。然而,人工智能所具有的“学习”能力并不意味着应用这种“学习"成果生成内容的过程是创作,以及生成的内容是作品。它只意味着与程序设计者预先确定可直接得出结果的固有规则(如简谱与五线谱之间的对应关系)不同,拥有人工智能的程序可以通过对大量数据的分析,自己找出事物之中更为具体、细致的规律。毫无疑问,这种“学习”能力在数据处理方面具有极大的优势,但它仍然属于应用特定算法获取最佳结果的过程,其作用在于从无数可能性中找到算法所认为的正确路径。因此一些人工智能的研究者如此描述:将神经——中枢——大脑的工作原理设计成一个不断迭代、不断抽象的过程,以便得到最优数据特征表示的机器学习算法[11]。
针对生成过程,我选取了当前当几种常见的AI创作样例进行分析。
“自动新闻写作”是目前AI写作最为成熟的应用。他是综合运用算法与模板的结果,其关键在于针对某一类型文章,如财经新闻、体育新闻等开发出针对原始数据进行分析的算法,再将其分类套入内置的各种模板。Dream writer负责人刘康表示:“报道奥运会的跳水比赛……每一个运动员都有一套专业得分,包含了走板、空中姿态、入水水花效果等。在Dreamwriter学习过程中,它把每一步的得分都打散了,在数据库里随意组合抓取,同时综合赛事本身的规则,最终把这些分数还原成一套表述。”[12]学者对自动写作方法的创新也基于“归纳”的思路。“针对NBA赛事,首先根据两支球队的比分差,构建比分差函数,并提出基于比分差函数性质的数据分片算法和数据合成算法。”[13]这就表明根据合并数据的特征撰写不同结论再生成模板是AI新闻写稿机器的基本流程。分析Dreamwriter所撰写的新闻,可以发现其具有高度的模板化特性,学者付晓光根据对Dreamwriter体育类新闻爬虫指出“体育类样本均为NBA赛况报道,内容由比赛结果、球员技术统计、比赛回顾、双方阵容四部分构成。多以简单判断为主,如“热火内线优势巨大,本节共抢下16个篮板,包括7个前场篮板,其中阿德巴约一人就贡献5个篮板球,凭借篮下优势取得3分领先优势”。多个“篮板球”判断形成归纳推理,得出“优势巨大”的判断,并按照新闻的倒金字塔结构将其前置。”[14]
对于计算机作曲,相关研究表明这是应用了统计学中的马尔可夫链选择音调。根据对大量音乐作品中音调之间的搭配与和谐关系的分析,可以发现其中的规律,“比如当前的音调是C,则下一个音调为G的概率为70%,为E的概率15%,为F的概率为10%,为A 的概率为5%,不同的概率由不同的马尔可夫链模型所决定”[15]。这样程序就可以通过三个步骤生成乐曲,首先是建立规则表和数学模型,然后是随机生成单个音符﹐最后是根据规则表和数学模型测试其和谐度“通过不断重复生产和测试环节,越来越多有效音符被选择出来并组成了完整的乐曲”[15]。如果将程序这种反复试错,筛选合格组合的过程称为“自我学习”,则它仍然是依据算法进行的有规律的运算过程。“初始因素具有随机性,所以程序设计者程也无法准确预测最后的结果,但在重复该运算过程并输入相同初始数据的情况下﹐同一程序得出的结果是有限的。这正是人工智能生成内容的本质特征——是计算而非创作”。[17]
由此可见,具有“学习”能力的人工智能与以往机械式处理手段的不同,在于能够根据算法分析数据并找出最优策略,再采取该策略产生最佳结果,而不是仅仅应用算法直接获取结果。但是,究其根本对最优策略的确定仍然是基于算法。尽管单凭算法,AI专家也许无法准确地预测计算机获得数据后会能得出怎样的最优策略,但不同的计算机运行同一程序,根据同一算法分析相同数据,得出的最优策略是相同的或有限的,而不同的计算机对相同的数据采取该最优策略,获取的结果也是相同的。换言之,对相同的原始材料,人工智能运用相同的策略进行处理,其结果具有高度的可重复性,这正说明对策略的应用不具备个性化的特征。为了更好的证实这一结论,笔者采用github上名为GPT2-Chinese[18]的AI写作项目(该项目截止2021年6月7日已获得4K stars)进行实验,在两台电脑上部署该软件,并进行相同的数据训练,再让二者对指定主题“秋天”输出散文,一台结果为“秋天,是一个多雨的季节,秋雨绵绵,秋意浓浓,秋雨梧桐叶飘零”,另一台的结果为“秋天,是个多雨的季节,秋雨梧桐叶落红,片片梧桐叶飘零”。可以发现具有高度相似性。与之形成鲜明对比的是,即使同一师门下的不同作者,就算严格遵循同一创作理念、原则或规律,使用相同原始素材创作的作品也会在内容上五花八门。这是因为创作理念、原则或规律仅仅属于创作背景或外部限定,它无法决定作品的内容。
综上所述,对于人工智能生成的内容而言﹐即便在表现形式上与人类创作的作品几无差别,但由于是应用算法﹑规则和模板的结果,其生成过程没有给人工智能留下发挥其“聪明才智”的空间,不具有个性特征,该内容并不符合独创性的要求,不能构成作品。
参考文献
[1]腾讯研究院.人工智能各国战略解读:联合国人工智能政策报告(J).电信网技术,2017,(2):26 -28.
[2]陈树琛.人工智能:人类能力的“无限延伸’(N).安徽日报, 2017-04 - 18(10).
[3]袁跃兴.“人工智能”技术能否取代诗人?(N).北京日报,2017-06-22(8)
[4]蔡自兴, 徐光福《人工智能及其应用》,北京: 清华大学出版社, 2004年,第36页。
[5]王迁《著作权法》,北京:中国人民大学出版社,2015年,第7页。
[6]王迁《著作权法》,北京:中国人民大学出版社,2015年,第17页。
[7]易继明《人工智能创作物是作品吗》,《西北政法大学学报》2017年第5期。
[8]王迁《论人工智能生成的内容在著作权法中的定性》,《西北政法大学学报》2017年第5期。
[9]北京市第一中级人民法院民事判决书(2009)一中知民初字第9159号。
[10] “阿尔法狗”之后的科技征途——眺望人机共存时代(N).经济参考报,2016-03-18(5).
[11]蔡自兴,等.《人工智能及其应用》.北京:清华大学出版社,2016.
[12] 陈钟昊,崔灿,王睿路,张研.腾讯Dreamwriter:自动化新闻发展之路媒体调研报告之六[R/OL].[2020-07-20]发https://mp.weixin.qq.comls/fF9v9YRkJsPzgA2HtInSfQ.
[13] 陈玉敬,吕学强,周建设,李宁《NBA赛事新闻的自动写作研究》.北京大学学报(自然科学版),2017(2):211-218.
[14]付晓光《论AI新闻写作的逻辑特征》,《现代出版》2021年第1期。
[15]李星燕《算出音乐来》.新发现,2009, (8):98.
[16] 李星燕《算出音乐来》.新发现,2009, (8):98.
[17]王迁《论人工智能生成的内容在著作权法中的定性》,《西北政法大学学报》2017年第5期。
[18] Morizeyao/GPT2-Chinese: Chinese version of GPT2 training code, using BERT tokenizer. (github.com)