#本文僅代表作者觀點,不代表IPRdaily立場,未經作者許可,禁止轉載#
“本文對人工智能數據訓練涉及的著作權問題進行討論?!?br/>
來源:IPRdaily中文網(iprdaily.cn)
作者:吳子芳 北京市融泰律師事務所
摘要
生成式人工智能的快速發展得益于包括既有作品等大量著作權客體在內的大數據資源,以滿足生成式人工智能數據訓練的要求。此種廣泛持續對他人作品的使用行為以人工智能生成物形式通過網絡輸出予以呈現。如何在實現生成式人工智能良性高效發展的同時,維護著作權法框架下權利人的合法權利,行政、司法機關已經開展積極探索。按照著作權法規定,生成式人工智能對他人作品等著作權客體的使用主要集中在信息網絡傳播權等相關權項,人工智能服務提供者有必要在取得授權的情況下開展數據訓練等活動,以避免因人工智能產品推向市場后被集中批量維權而影響其正常業務發展。
關鍵詞:生成式人工智能 著作權 數據訓練
2022年11月,OpenAI震撼推出對話式AI模型ChatGPT,引發了新一輪人工智能(Artificial Intelligence,AI)邁向大模型時代的浪潮?;凇按髷祿薄按笏懔Α焙汀皬娝惴ā鄙疃葘W習模型下的生成式人工智能[1](Artificial Intelligence Generated Content,AIGC,下文簡稱人工智能)開始深入普通人的日常生活,在極大便利人們工作、娛樂、藝術創作的同時,將可能顛覆性地改變對人類成果的權益劃分邊界和收益分配規則。人工智能所引發的各類法律爭議也紛至沓來,著作權糾紛是首先被關注的焦點。
PART 01
人工智能引發著作權糾紛的相關背景
在國內,北京互聯網法院于2023年下半年判決的首例“AI文生圖”著作權糾紛案認定用戶通過輸入提示詞使用AI繪畫工具所獲圖片構成作品[2],廣州互聯網法院判決的首例“生成式AI服務”著作權糾紛案認定作為人工智能企業的被告在提供生成式人工智能服務過程中侵害了原告對奧特曼作品所享有的著作權[3],兩案均引發了學界、業界的廣泛熱議。最高人民法院發布的《中國法院知識產權司法保護狀況(2023年)》中評價首例“AI文生圖”案探索了人工智能生成物的著作權保護路徑[4]。國內訴訟糾紛主要集中在討論人工智能生成物的客體性質以及提供人工智能生成物行為的侵權責任層面。
近期,《紐約每日新聞》等八家美國知名報紙媒體起訴了OpenAI和微軟。此前《紐約時報》作為首家報紙媒體就曾以OpenAI和微軟違規使用其百萬篇文章用于訓練兩家公司旗下的自動聊天機器人為由提起訴訟[5]。此外,國外已有《黎明的扎里亞》《太空歌劇院》等多幅漫畫或圖像,因缺乏人的創作性貢獻而被行政機關拒絕作為作品登記且得到法院支持的先例。相關爭議已經聚焦于人工智能大模型數據訓練[6]相關的著作權保護等問題。
人工智能是技術和數據的集合產物,其基于生成對抗網絡(GAN)和大型預訓練模型等人工智能技術,利用已有數據來尋找規律,并通過適當泛化能力來生成相關內容[7]。其中,利用已有數據尋找規律的過程主要為數據訓練過程。數據訓練通常是指在大量數據基礎上,利用機器學習、統計學以及數據庫等數據挖掘(Text Data Mining,TDM)、自動化分析數據技術,提煉分析文本內容以及其他有價值的信息,從文本或數據導出或組織信息的過程[8]?,F階段國內外爭議恰好反映了與人工智能相關的兩類焦點問題:一是人工智能輸入端問題,即根據人工智能生成物認定人工智能服務提供者在數據訓練中未經許可使用他人作品,并判斷該行為的法律責任。二是人工智能輸出端問題,即人工智能生成物能否成為著作權法保護的作品等權利客體;如果可以成為權利客體,如何認定權利主體。下文就前述問題展開討論。
PART 02
人工智能數據訓練涉及的著作權問題
為發展優化人工智能,尤其是生成式人工智能,需要“投喂”大量的數據(文字、圖像、音頻、視頻等)進行數據訓練。大數據模型不可避免地在進行數據訓練過程中使用他人已發表作品等公開的權利客體。但是僅僅只是訓練階段的使用,尚未提供給合作伙伴或者相關用戶使用其人工智能產品的,他人并沒有機會或者途徑了解到其作品被訓練使用的情況。正如OpenAI的ChatGPT研發訓練多年,在沒有向用戶提供廣泛使用前,并未發生普遍爭議。
人工智能若僅停留在單純數據訓練階段不進入應用階段是沒有現實意義的??陀^上國內外已有眾多人工智能產品面世進入應用領域,并且正是通過用戶的廣泛持續大量使用進一步完善數據訓練,提升人工智能產品的智能化水平和程度。如ChatGPT的用戶協議中約定,用戶輸入的內容將作為ChatGPT學習的文本數據之一,如果用戶不同意此使用方式,可以通過郵件等方式拒絕授權而不會影響其正常使用等[9]。
(一)從人工智能生成物看數據訓練行為
如果經過訓練階段人工智能產品后續必將推向市場進入公開使用階段,人工智能服務提供者一般有必要取得訓練階段所使用他人作品的授權,除非人工智能服務提供者能確保其人工智能產品智能化程度極高,人工智能生成物中完全看不出來使用他人作品的表達。但是目前,人工智能尚未達到如此高度。
按照目前著作權法“先授權后使用”的基本理論,不能因為權利人不知悉自身作品被使用的情況,不會啟動維權,而使人工智能服務提供者無需為其數據訓練所使用他人作品的行為取得授權。但是,客觀上,由于數據訓練過程中對作品的使用具有“黑盒”性質,包括權利人在內的他人并不知道具體的使用方式,也難以對應現行著作權法第10條中規定的具體權項所涉及的使用行為特征。所以往往只能通過人工智能生成物的表現形態再來主張數據訓練過程中對他人作品的使用行為實際可能影響的著作權權項。
實踐中,對數據訓練未經許可使用他人權利客體產生爭議的情形主要發生在用戶使用人工智能產品并獲得人工智能生成物后,權利人發現該生成物中體現了其權利客體內容,進而推知在人工智能數據訓練中未經許可使用其權利客體。此爭議發生的前提是人工智能生成物中能相對完整地體現他人的作品表達或者受保護的權利客體內容。假如首例“AI文生圖”案中《春風送來了溫柔》一圖中的人物肖像本身來自某攝影師的攝影作品,此時該攝影師可能會提出侵權主張,但如果該圖完全無法體現在先作品的痕跡,權利人要主張人工智能數據訓練中使用其作品將面臨舉證困難而難以得到支持。如果沒有利用他人享有著作權的作品生成類似風格的作品,原則上不應當認定構成對他人著作權的侵害[10]??梢灶A見,在未來的強人工智能時代[11],當前探討的一系列問題終將不成問題。
當然,目前的人工智能尚未脫離人的自主意識階段,正如《紐約時報》起訴OpenAI的訴訟中引用的案例顯示,當被問及相關時事時,ChatGPT有時會生成《紐約時報》文章的逐字摘錄,而這些文章在《紐約時報》的網站上是需要付費閱讀的[12]。所以,現階段通過人工智能生成物進而衍生探討人工智能數據訓練相關的著作權問題是有意義的。
(二)因人工智能數據訓練可能引發的著作權侵權責任
1、人工智能訓練數據是否構成對著作權權利客體的使用
使用大量已有數據進行數據訓練顯然是人工智能完成文本、圖像、語音等內容智能合成的必要條件。在大量數據集基礎上的訓練,通常包含對既有數據的收集、存儲、采樣、處理,以及在特定算法下的輸出等。在此過程中,有學者認為可能涉及對作品、制品的復制權、表演權、廣播權、信息網絡傳播權等著作權法項下多個權項的侵權行為[13]。我國《生成式人工智能服務管理暫行辦法》第七條規定了人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,使用具有合法來源的數據和基礎模型;涉及知識產權的,不得侵害他人依法享有的知識產權。不僅是我國,歐盟的《人工智能法案》(the AI Act),規定用于生成藝術、音樂和其他內容的生成基礎AI模型將受到嚴格的披露義務的約束。此類模型和生成內容的提供者必須披露內容是由AI而不是人類生成的,訓練和設計其模型以防止生成非法內容,并發布有關使用受版權法保護的訓練數據的信息[14]。該法案于當地時間2024年3月13日在歐洲議會通過,5月21日于歐盟理事會通過,將于近日在歐盟官方公報上公布,并在公布20天后生效。
當前,包括知識產權在內的數據已經成為重要的生產要素和經濟資源,人工智能數據訓練過程中尊重并保護知識產權的原則和方向無疑是正確的,但任何針對事物的討論不能僅停留在單純理論分析層面,而應結合法律基本規定對客觀事物本身的實現方式、應用特點、功能作用等展開分析,才能有的放矢,解析真問題。下文將對人工智能數據訓練過程中可能使用著作權權利客體的情形進行梳理。
(1)復制權
《著作權法》第十條第一款第五項規定,復制權指以印刷、復印、拓印、錄音、錄像、翻錄、翻拍、數字化等方式將作品制作一份或者多份的權利。按照法律釋義,復制權是將作品制成有形的復制品的權利[15]。復制權是著作權人之經濟權利的核心,因為對作品的利用大多離不開復制。這一結論在媒體融合時代也不會發生改變。[16]因此,部分觀點認為,在數據訓練過程中需對數據進行存儲,自然落入了復制權的規制范疇,復制權是數據訓練必須解決的問題,同時,人工智能生成的內容與原作品在表達上構成實質性相似,亦涉及復制權。部分觀點則認為不構成對復制權的侵害,理由涉及訓練階段的實際行為是臨時復制,是對原作品的轉換和分析而非使用獨創性表達等。
復制權體現了著作權人通過控制作品有形復制件數量從而控制對作品的使用。實踐中,作品的復制行為通常是作品其他使用行為的前期準備,通常與發行、信息網絡傳播等行為結合使用。
比如,北京高院在(2024)京民終234號民事判決書中認定,“至于復制權,可以認定三鼎夢公司在上傳涉案游戲過程中實施了復制涉案游戲的行為,但該行為系信息網絡傳播中直接提供行為的必要環節,在認定構成侵害信息網絡傳播權的情況下,沒有必要單獨進行認定,其也不單獨造成權利人的損失?!痹诒本└咴海?020)京民申3206號民事裁定書(簡稱3206號裁定書)中,該院認定,“芝蘭玉樹公司傳播的系以涉案作品的詞、曲及一定的卡通畫面合成的Flash動畫,其必然涉及利用一定的數字化設備進行合成、制作的過程,該過程包含了將涉案作品以數字化的形式固定在數字化設備上的復制行為,已落入著作權法所規定的復制權范疇。芝蘭玉樹公司后續在網站上提供含涉案詞曲Flash動畫的行為亦落入了著作權法所規定的信息網絡傳播權范疇?!?br/>
又如,作品復制權與發行權通常會結合使用,發行權是向公眾提供作品原件或復制件的權利?!吨鳈喾ā返诹龡l將作品的復制、發行明確規定為出版,故單純的復制權常發生在權利人發現印刷公司批量印刷了部分侵權圖書,尚未公開投入市場的情形中。
人工智能數據訓練過程中收集、存儲作品到用于訓練的數據庫中,此過程通常不強調作品復制件數量,甚至隨著技術發展有些數據訓練直接調用云端數據而不需要進行存儲到己方服務器。同時,由于在人工智能數據訓練階段,尚無復制行為之后的發行、信息網絡傳播等行為,是否造成實際損害也是未知。因此,除數據訓練階段有數據存儲情形涉及復制行為進而可能侵害復制權外,筆者不贊同人工智能數據訓練過程中使用他人作品的數據處理行為可能侵害復制權。
(2)表演權和表演者權
《著作權法》第十條第一款第九項規定,表演權指公開表演作品,以及用各種手段公開播送作品的表演的權利。公開表演作品通常是指“現場表演”或者“活表演”,典型情形如歌手在休閑廣場公開演唱歌曲,故人工智能訓練數據中使用他人作品首先可以排除系公開表演他人作品。對于表演權定義的后半段,一般理解為“機械表演”,即借助技術設備將“活表演”進行公開傳播,例如賓館、飯店大堂播放音樂。不論是“活表演”還是“機械表演”,都強調表演環境的“公開性”特點。顯然,人工智能數據訓練的過程中即使存在對作品的“表演”,也不具備公開性,正相反,數據訓練本身與人工智能的算法相結合,這顯然屬于人工智能核心技術內容,一般不會公之于眾。
關于表演者權,《著作權法》第三十九條規定的表演者所享有的權利包括表明身份、保護表演形象不受歪曲,許可他人從現場直播或公開傳送其現場表演,許可他人錄音錄像,許可他人復制、發行、出租錄有其表演的錄音錄像制品,許可他人通過信息網絡傳播其表演等。人工智能數據訓練過程中可能將既有的表演者形象、聲音等特征性要素作為數據內容進行訓練,有必要討論是否存在侵害表演者權的情形。表演者人身權通常為了規制他人使用表演者表演時割裂表演者與其表演的關系、影響表演者聲譽等行為,考慮到人工智能數據訓練一般不向表演者在內的普通用戶公開,數據訓練過程也不屬于錄音錄像,或者現場直播或公開傳播現場表演等行為。同時我國出于對個人信息的保護,目前在數據訓練階段對個人信息清洗的要求越來越規范和嚴格。因此,除“許可他人通過信息網絡傳播其表演”外,人工智能數據訓練一般不涉及表演者權的其他權項。
(3)廣播權
《著作權法》第十條第一款第十一項規定,廣播權指以有線或者無線方式公開傳播或者轉播作品,以及通過擴音器或者其他傳送符號、聲音、圖像的類似工具向公眾傳播廣播的作品的權利,但不包括本款第十二項規定的權利。由于廣播權強調實時性,通常適用于廣播電視或網絡直播場景,顯然與人工智能數據訓練的使用情形相距甚遠。
(4)信息網絡傳播權
《著作權法》第十條第一款第十二項規定,信息網絡傳播權指以有線或者無線方式向公眾提供,使公眾可以在其選定的時間和地點獲得作品的權利。信息網絡傳播權強調通過信息網絡向用戶交互式提供作品、錄音錄像制品以及表演??紤]到當前的人工智能產品主要以互動聊天方式提供人工智能生成物,因此,如果人工智能生成物中出現了他人享有信息網絡傳播權的客體或受保護的客體部分,則可以合理推定人工智能服務提供者將他人受保護客體用于數據訓練。此外,在數據訓練過程中亦涉及對算法進行測試及同行校驗,亦可能涉及信息網絡傳播權等向公眾傳播的權利。
我國著作權法框架下,信息網絡傳播權糾紛將可能成為人工智能數據訓練所要面臨的最主要的著作權問題。
(5)改編權等
《著作權法》第十條第一款還規定了改編權、翻譯權、匯編權等權項。如改編權,是指改變作品,創作出具有獨創性的新作品的權利。如果向用戶提供的人工智能生成物并非原樣提供他人作品,而是對他人作品進行改編后的作品,無疑也可以合理推定人工智能服務提供者將他人作品在數據訓練過程中進行了使用。翻譯權、匯編權亦如此。
綜上,根據著作權法規定的相關權項,結合人工智能數據訓練使用場景等具體情形,人工智能服務提供者在進行數據訓練過程中,有必要根據用于數據訓練的客體類型,取得作品信息網絡傳播權、改編權等權利。如錄音錄像制品權利人并無改編權,則無需取得該權利。
人工智能的發展帶動了訓練數據市場增長,部分公司為訓練更強大的人工智能模型獲得競爭優勢,規避侵權風險等,開始購買人工智能訓練數據,如Adobe公司購買視頻訓練AI模型。如權利人享有全部或部分權利的作品、制品可能被人工智能服務提供者用于數據訓練,則應結合自身所持有的客體類型明確對外授予的權利。
相對應地,如果發現人工智能服務提供者在數據訓練等過程中未經許可使用他人權利客體,權利人維權索賠主張可以結合作品等權利客體被使用的范圍、持續時間等具體使用情節提出。如果人工智能服務提供者實施侵權行為存在故意且情節嚴重的情形,權利人還可以依法提出懲罰性賠償請求。
2、人工智能數據訓練對他人著作權客體的使用是否構成合理使用
著作權合理使用是在指明作者或者作品名稱的情況下,可以不經著作權人許可,不支付報酬使用他人作品的情形?!吨鳈喾ā返诙臈l吸收借鑒《伯爾尼公約》第9條第2款規定了合理使用的基本要件,即“不得影響該作品的正常使用,也不得不合理地損害著作權人的合法權益”,同時還列舉了12項典型的合理使用情形。
當前,人工智能數據訓練所涉數據中包含他人享有權利的作品、制品等大量著作權客體,部分學者就是否構成合理使用問題從各種角度進行分析[17],但正如上文分析,僅針對數據訓練過程,包括數據挖掘、分析、處理等一系列方式對作品的使用一般不屬于著作權法所規定具體權項所涵蓋的行為范疇。實踐中,人工智能面向用戶使用的過程往往與數據訓練過程融合,由此通過人工智能生成物可以認定人工智能數據訓練中使用了他人著作權客體或者部分客體。對于作品而言,盡管是片段式的,但只要能體現作品的獨創性表達,都可獲得著作權保護。如北京互聯網法院曾認定13秒時長的短視頻構成類電影作品肯定其著作權[18]。因此,如果他人作品等著作權客體出現在人工智能生成物中,正如上文分析,不排除會侵害他人信息網絡傳播權、改編權等權項,被認定構成合理使用的難度較大。
至于部分學者提到的美國法中“轉換性使用”[19]等認定,因未在我國法律法規或司法解釋中予以規定,我國法院在司法實踐中極少適用相關理論作出裁判。
3、人工智能服務提供者取得權利主體的授權能否解決人工智能數據訓練可能產生的侵權責任
目前,我國出臺的一系列規范性文件,包括《生成式人工智能服務管理暫行辦法》《互聯網信息服務深度合成管理規定》《國家新一代人工智能標準體系建設指南》等,美國出臺的《人工智能應用規范指南》(Guidance for Regulation of Artificial Intelligence Applications)[20],歐盟《人工智能法案》等,均對人工智能數據訓練中的來源數據提出了要求。實踐中,多種權利主體呼吁或以提起維權訴訟等方式主張權利的行為,使不少涉及人工智能大模型數據訓練的企業已經意識到為了獲得全面、完整、穩定且高質量的訓練數據需要與相關權利人訂立合同取得授權,只有在授權范圍內的使用行為,才能最大程度避免侵權發生。
首先,從數據權利人處取得授權顯然較未經許可直接使用的侵權風險低。從長遠看,人工智能要順利健康可持續發展,必然是在各方權利安排有序、行為邊界清晰、利益分配合理的基礎上實現,依靠初始發展階段簡單粗暴的數據“拿來主義”顯然是不可行的。
其次,人工智能數據訓練中對不同類型的數據使用方式不同,如對文字作品可能是提取段落、語句等要素,而對音樂要采集曲調、旋律或節奏片段,對視頻則要提取場景、圖像、特效等畫面。不同類型的數據對應不同權利客體,亦對應不同的權利主體。因此,人工智能服務提供者就有必要結合其具體使用場景、期限、范圍、是否允許轉授權等需求與相關權利主體訂立許可使用合同,以解決人工智能數據訓練以及用戶使用、人工智能生成物后續傳播的著作權問題。
再次,與騰訊公司訴盈訊公司案中騰訊公司的主張不同,當前的人工智能服務提供者大多不再主張享有人工智能生成物可能產生的知識產權,而將這一權利讓渡給用戶。如首例“AI文生圖”案中,Stable Diffusion的用戶協議約定其“僅用于AIGC技術學習,其不對您使用模型生成的輸出聲稱任何權利。您對生成的輸出及其后續使用負有責任?!绷硪蝗斯ぶ悄墚a品Kimi[21]在用戶協議的“關于生成內容的知識產權”中明確“您基于Kimi智能助手生成的內容的版權由您自行維護并對其獨立判斷后使用,產生的任何知識產權問題都由您自行處理”。
在此情況下,是否意味著人工智能生成物侵權與否與人工智能服務提供者無關?答案顯然是否定的。對于被用于人工智能數據訓練而使用的著作權客體權利人而言,正是人工智能服務提供者首先使用其權利客體進行數據訓練,才導致在用戶使用人工智能產品后,相關包括了權利人客體的數據訓練成果以人工智能生成物形式出現。不論人工智能服務提供者保留或是讓渡人工智能生成物的權利,其使用他人作品的行為是客觀存在的,就應當為其未事先取得授權而使用的行為承擔相應的責任。
最后,從著作權客體權利人的角度考量,特別是在短視頻業務蓬勃發展的當下,對于視頻類客體權利人,如果本身的視頻內容并非原創,如從其他權利人處取得授權,再將所獲得的授權客體授予人工智能服務提供者時,還要注意以下方面:一是向人工智能服務提供者授權屬于轉授權行為,需要上手權利人授予轉授權權利方可實施。二是權利人僅能在自身取得授權范圍內向人工智能服務提供者授予權利,不能超出授權范圍。例如,取得權利的客體是動漫作品本身,并未取得其中特定角色形象的著作權,則不能向他人轉授權特定角色形象著作權。同樣地,對于人工智能服務提供者而言,其獲得著作權客體權利人的授權也應謹慎審查其授權范圍等效力,以免出現無效授權。
PART 03
人工智能生成物的客體性質及權利主體
(一)人工智能生成物能否作為著作權法的權利客體
人工智能生成物客體性質以及權利主體問題是當前司法實踐以及學者探討的重點問題。如上文提及的首例“AI文生圖”案,以及此前的菲林訴百度公司案[22]、騰訊公司訴盈訊公司案[23],三案生效判決在判決結果、審判思路方面存在不同。除了菲林訴百度公司案中法院否定人工智能生成的涉案文章內容構成作品,其余兩案均認定人工智能生成物構成作品?!癆I文生圖”案認定提供了提示詞的人工智能用戶是作者,而騰訊公司訴盈訊公司案認定提供人工智能服務的騰訊公司享有其人工智能自動生成文章的著作權。
學者們在積極討論過程中形成了旗幟鮮明的兩派觀點:以王遷教授為代表的學者認為,著作權法保護的作品須為人類的創作成果,包括ChatGPT在內的人工智能生成的內容在形式上的“獨創”,并不是構成作品的充分條件,人工智能生成的內容不屬于受著作權法保護的作品[24]。既然不是作品,也就無所謂作者以及著作權人。以李揚教授為代表的學者認為,人工智能僅是人的創作工具,且相較于著作權法規定的法人作品,既然能將具備法律主體資格的自然人視為創作工具,將無法律主體資格的人工智能視為創作工具在法理上更無障礙。雖然人工智能生成內容的獨創性來源于使用者對提示詞的選擇和安排,但排他權范圍僅延及人工智能最終生成的表達內容,單獨的提示詞屬于不受保護的事實性材料,因此對滿足獨創性標準的人工智能生成內容賦予著作權保護,不會過度限制公眾的行動自由[25]。還有觀點擴展解釋,著作權法的“寬進寬出”結構提示我們,將用戶作出獨創性表達的AIGC納入著作權法圖式是在認知層面最為經濟的利益平衡分析框架,承認AIGC獲得作品資格的可能性并不會過度妨礙公眾自由[26]。
能否將人工智能生成物作為著作權法的權利客體,既是對法律基礎問題的闡釋,同時也是對產業導向指引以及行業發展激勵等司法政策的理解。由于目前并無立法或政策明確規定人工智能生成物的客體性質,對生成式人工智能產生的法律問題,仍在個案中具體審理判斷,著作權法仍然是必須考慮的重要法律依據??紤]現階段人工智能發展水平,按照最新的“AI文生圖”案判決,人工智能本身不具備自由意志進而認定人工智能生成物因用戶提供提示詞的作用而屬于人的創作,可以構成作品。
(二)人工智能生成物客體性質差異對著作權權利主體的影響
當前國內司法實踐中既有認定人工智能生成物為作品的判決(如“AI文生圖”案),也有不認定人工智能生成物為作品的判決(如菲林訴百度公司案)。對于作品著作權人等權利主體而言,前述兩種裁判觀點是否影響其權利客體被人工智能服務提供者用于數據訓練活動,同樣值得討論。
一方面,不論人工智能生成物是否被認定為作品或其他受著作權法保護的客體,其中所體現的他人權利客體不因人工智能生成物本身被認定的客體性質而變化。仍假設《春風送來了溫柔》一圖中的人物肖像來自某攝影師的攝影作品,那么即使《春風送來了溫柔》一圖因系人工智能生成過程缺乏人的創作而不被認定為作品,但其中體現攝影師作品內容的部分仍可受到著作權法保護。
另一方面,對人工智能生成物客體性質的認定差異,直接影響被用于數據訓練權利客體的權利人如何選擇維權對象。如果人工智能生成物不構成作品等受保護的著作權客體,前述假設情景下的攝影師主張維權的對象僅有人工智能服務提供者。如果人工智能生成物構成作品等受保護的著作權客體,那么攝影師不僅可以向人工智能服務提供者提起維權訴訟,而且在用戶將人工智能生成物通過信息網絡傳播等實施了相關使用作品行為的情況下,攝影師還能向包括用戶在內的作品權利人提起維權訴訟。另外,在騰訊公司訴盈訊公司案中,人工智能服務提供者和用戶合一,就無所謂區別對待不同行為主體的問題。
PART 04
小結
2017年,國務院印發《關于新一代人工智能發展規劃》[27],明確提出人工智能發展進入新階段,將人工智能發展列入國家戰略的層面進行系統化布局,人工智能是引領未來的戰略性技術,是新一輪產業革命的核心驅動力。此后我國的人工智能進行快速發展階段,其中人工智能數據訓練的成效屬于人工智能發展進程的關鍵因素之一。用于數據訓練的數據集合中包含海量數據,顯然包括了大量他人享有著作權的權利客體。以ChatGPT為例,其訓練數據主要來源于維基百科(Wikipedia)、期刊雜志(Journals)、Common Crawl、書籍(Books)、Reddit社交新聞站點和其他數據集[28]。這些他人享有權利的數據是權利人通過數十年努力積累而成,人工智能的發展并不能忽視基于這些成果所形成的權利,而應在現有法律框架下合法取得數據并進行數據訓練,以此獲得人工智能高效、持續、良性發展。
注釋:
[1]按照國家互聯網信息辦公室等七部委于2023年7月10日聯合發布的《生成式人工智能服務管理暫行辦法》 第二十二條規定,生成式人工智能技術,是指具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術。生成式人工智能技術,是指具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術;生成式人工智能服務提供者,是指利用生成式人工智能技術提供生成式人工智能服務(包括通過提供可編程接口等方式提供生成式人工智能服務)的組織、個人;生成式人工智能服務使用者,是指使用生成式人工智能服務生成內容的組織、個人。
[2]北京互聯網法院(2023)京0491民初11279號民事判決書。
[3]廣州互聯網法院(2024)粵0192民初113號民事判決書。
[4]參見中國法院網,https://img.chinacourt.org/mup/uploadfile/2024/04/22/12/8fa944f259dcc2705ffe283a7c2be810.pdf.
[5]https://apnews.com/article/chatgpt-newspaper-copyright-lawsuit-openai-microsoft-2d5f52d1a720e0a8fa6910dfd59584a9.
[6]人工智能數據訓練(AI Training Data),也可稱為“數據挖掘、機器學習”等。
[7]高金智庫等于2023年10月發布的《2023生成式人工智能服務合規發展白皮書》,https://www.sohu.com/a/724688284_121763369.
[8]曹偉、萬靖瑜:《生成式人工智能訓練數據的治理與構建》,載微信公眾號“知識產權家”2023年10月5日發布,https://mp.weixin.qq.com/s?src=11×tamp=1715334042&ver=5252&signature=oExdYTAVJ7dzkN82IscznAd6dn40dm*TtzKfNLltUPLG8I8Sz1FTRzH*u6gRHRCi0SLSfVFNmqXsdxUmOcGroPSC0CfJUkL9yy6aM2PlGfWA5wPEv9lwjtOBbwsiUews&new=1.
[9]參見OpenAI官網,Introducing ChatGPT,https://openai.com/index/gpt-4/.
[10]王利明:《生成式人工智能侵權的法律應對》,載《中國應用法學》2023年第5期。
[11]強人工智能(Artificial General Intelligence,AGI,Strong AI),該詞最初是約翰·羅杰斯·希爾勒針對計算機和其它信息處理機器創造的,其定義為:“強人工智能觀點認為計算機不僅是用來研究人的思維的一種工具;相反,只要運行適當的程序,計算機本身就是有思維的?!?J Searle in Minds Brains and Programs. The Behavioral and Brain Sciences, vol. 3, 1980。參見百度百科“強人工智能”詞條。https://baike.baidu.com/item/%E5%BC%BA%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/10403678?fr=ge_ala.
[12]鄭栩彤:《大模型版權爭議再起 紐約時報起訴OpenAI和微軟》,載《第一財經資訊》微信公眾號2023年12月28日發布,https://mp.weixin.qq.com/s?src=11×tamp=1715265163&ver=5250&signature=GOPRMxOe6JOUGJIkOx7gO7s*BLWpB8zWRgg*MpSv-iDNFnrPu7L2r3C423bPgbZLPlUdH0SAM6aTi2vUO5VHaOtcwM3--EubdIpVxexYWoo=&new=1.
[13]焦和平、梁龍坤:《人工智能合成音樂的著作權風險及其化解》,載《知識產權》2023年第11期。
[14]https://artificialintelligenceact.eu/the-act/.
[15]黃薇、王雷鳴:《中華人民共和國著作權法導讀與釋義》,中國民主法制出版社2021年3月第1版,第84頁。
[16]王遷:《網絡著作權專有權利研究》,中國人民大學出版社2022年8月第1版,第17頁。
[17]劉禹:《機器利用數據行為構成著作權合理使用的經濟分析》,載微信公眾號“知識產權雜志”2024年4月22日發布, https://mp.weixin.qq.com/s?src=11×tamp=1715334228&ver=5252&signature=6U-Fyj*UyiNcWxVbLyUyncMKPI4hUOA3yg5AMZm7wHk1T0040fZJk6QQ0xUwZGIO-6lySxR4NzoP2po9jiveTyKNhwD7m8qr5-26lkN6j3-QrOyh-bnj*lfbhMQMLKIZ&new=1;宋海燕、陳佩齡:《淺析ChatGPT訓練數據之合理使用》,載于微信公眾號“金杜研究院”,2023年4月25日發布,https://mp.weixin.qq.com/s?src=11×tamp=1715334306&ver=5252&signature=5okG6V7JGzb7s7w9XE854nr4pDcGDyJQz40yuLW6hNITCYvPiKcorxxXV0ub06gTsK6fCgiwAQWLnd6sLNzglNKDAW0uYtpi8rswEYFWXKLsrkvVv8UOqEypiTKszMP9&new=1。
[18]北京互聯網法院(2018)京0491民初1號民事判決書。
[19]李楊:《著作權法中的轉換性使用理論闡釋與本土化適用》,載《河北法學》2022年第6期。
[20]https://www.whitehouse.gov/wp-content/uploads/2020/11/M-21-06.pdf.
[21]北京月之暗面科技有限公司推出的人工智能產品“Kimi智能助手”, https://kimi.moonshot.cn/?data_source=tracer&utm_campaign=TR_PbzLg2eV&utm_content=&utm_medium=%E5%BE%AE%E8%BD%AFbing&utm_source=bing&utm_term=&msclkid=4dd069f35a021fe9fed50fceb55599ed.
[22]北京互聯網法院(2018)京0491民初239號民事判決書。
[23]廣東省深圳市南山區人民法院(2019)粵0305民初14010號民事判決書。
[24]王遷:《ChatGPT生成的內容受著作權法保護嗎?》,載《探索與爭鳴》2023年第3期;《再論人工智能生成的內容在著作權法中的定性》,載《政法論壇》2023年第4期。
[25]李揚、涂藤:《論人工智能生成內容的可版權性標準》,載《知識產權》2024年第1期。
[26]蔣舸:《論人工智能生成內容的可版權性:以用戶的獨創性表達為視角》,載《知識產權》2024年第1期。
[27]中華人民共和國中央人民政府網站,https://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[28]姚前:《ChatGPT類大模型訓練數據的托管與治理》,載《中國金融》2023年第6期。
吳子芳作者專欄
(原標題:生成式人工智能發展中值得關注的著作權問題)
來源:IPRdaily中文網(iprdaily.cn)
作者:吳子芳 北京市融泰律師事務所
編輯:IPRdaily辛夷 校對:IPRdaily縱橫君
注:原文鏈接:生成式人工智能發展中值得關注的著作權問題(點擊標題查看原文)
「關于IPRdaily」
IPRdaily是全球領先的知識產權綜合信息服務提供商,致力于連接全球知識產權與科技創新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區的高科技公司及成長型科技企業的管理者及科技研發或知識產權負責人,還有來自政府、律師及代理事務所、研發或服務機構的全球近100萬用戶(國內70余萬+海外近30萬),2019年全年全網頁面瀏覽量已經突破過億次傳播。
(英文官網:iprdaily.com 中文官網:iprdaily.cn)
本文來自IPRdaily中文網(iprdaily.cn)并經IPRdaily.cn中文網編輯。轉載此文章須經權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉載,請注明出處:“http://www.meihaolucy.com