乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      「得數(shù)據(jù)者得天下」,但數(shù)據(jù)侵權如何界定?

       wupin 2024-01-03 發(fā)布于湖北

      2023年以來,隨著生成式AI的爆火,其不僅一定程度上給用戶提供了便利,也在不斷重塑互聯(lián)網行業(yè)的競爭格局,中外諸多廠商均加入了大模型開發(fā)的戰(zhàn)局,也間接引發(fā)了諸多的版權糾紛。

      本周,紐約時報起訴OpenAI和微軟違規(guī)收集其新聞進行訓練一事(紐約時報起訴OpenAI和微軟“不勞而獲”,要求消滅),再次將大模型開發(fā)中涉嫌違規(guī)采集數(shù)據(jù)的問題暴露在公眾視野之下。

      據(jù)不完全統(tǒng)計,今年僅在美國加州,就已經有數(shù)十起針對大模型開發(fā)商違規(guī)使用數(shù)據(jù)的訴訟。

      這些訴訟頻發(fā)的背后是目前版權法案中,存在大模型對數(shù)據(jù)極度渴求和數(shù)據(jù)供應難以迅速增長的矛盾,“先授權后使用”的現(xiàn)有版權法律體系并無法匹配AI時代的數(shù)據(jù)使用方式,也引發(fā)了法律監(jiān)管的新問題。

      大模型訓練階段究竟涉及哪些版權利用行為,這一過程可能存在哪些侵權風險?而全球監(jiān)管部門面對這個問題,也給出了各自的解答。

      數(shù)據(jù)為王,版權訴訟戰(zhàn)頻發(fā)

      在大模型爆炸性發(fā)展的2023年,紐約時報起訴OpenAI和微軟只不過是貫徹全年版權訴訟大戰(zhàn)的一個縮影。

      今年1月,圖庫網站Getty Images對AI圖像生成器研發(fā)公司Stability AI提起法律訴訟,指其非法復制和處理版權圖像作為模型訓練數(shù)據(jù)。

      4月,環(huán)球音樂集團發(fā)函要求Spotify等音樂流媒體平臺切斷AI公司的訪問權限,以阻止其版權歌曲被用于訓練模型和生成音樂。

      6月,國內的教培巨頭學而思也被爆出,未經授權利用合作伙伴筆神作文數(shù)據(jù)進行大模型訓練導致的紛爭。

      據(jù)不完全統(tǒng)計,自2022年11月至2023年10月,僅美國加州北區(qū)法院便已經受理了10起,版權人起訴Stability AI、Open AI、Meta、Alphabet等AIGC研發(fā)企業(yè)未經授權,利用版權作品進行模型訓練的案件。

      在被告名單上,可以看到各個互聯(lián)網巨頭均在其中,而侵權訴訟頻發(fā)的背后則是大模型企業(yè)對于數(shù)據(jù)的極度渴求。

      有業(yè)內人士對觀察者網表示:“目前的大模型競爭時代下,相比算法,得數(shù)據(jù)者得天下。”

      一方面,訓練數(shù)據(jù)是大模型訓練的基石和燃料,如果沒有數(shù)據(jù),大模型的訓練就無法開展和持續(xù)。另一方面,當前技術領域的研究顯示,各家大模型在算法層區(qū)別并不大,并且具有同質化的趨勢。在此背景下,訓練數(shù)據(jù)就成了真正區(qū)分且影響大模型性能的重要因素之一。

      以OpenAI的幾代GPT模型為例,訓練數(shù)據(jù)上,GPT-1預訓練數(shù)據(jù)量僅有5GB;到了GPT-2,這個數(shù)據(jù)則增加至40GB;而在GPT3模型下,OpenAI用以訓練模型的數(shù)據(jù)集數(shù)據(jù)量達到了驚人的45TB,而相比GPT3的1750億參數(shù)規(guī)模,GPT4相傳達到了100萬億規(guī)模的參數(shù),對于數(shù)據(jù)的需求呈指數(shù)型飆升。

      相比需求的爆炸性增長,對于各家大模型企業(yè)而言,自身數(shù)據(jù)和公開數(shù)據(jù)的供應顯然難以滿足這種指數(shù)型的需求,從互聯(lián)網和其他友商那“搭便車”成了行業(yè)內公開的秘密,也成為了目前版權訴訟頻發(fā)的根本原因。

      為了應對“偷數(shù)據(jù)”頻發(fā)的現(xiàn)象,除了通過訴訟手段外,不少互聯(lián)網企業(yè)也利用了技術手段開啟防御模式。

      目前,有多家處在“數(shù)據(jù)提供端”的公司對數(shù)據(jù)抓取、開源等做出了反應。比如X(原名Twitter)限制了用戶每天能查看的推文數(shù)量,幾乎使數(shù)據(jù)提供服務無法使用。馬斯克對此曾表示,這是對“數(shù)據(jù)抓取”和“系統(tǒng)操縱”的必要反應。

      2023年4月,Reddit官方宣布將對調用其API的公司收費,原因正是OpenAI、谷歌等公司利用該平臺上的數(shù)據(jù)訓練模型。

      此外,IT技術問答網站Stack Overflow也計劃向AI大模型的開發(fā)者及公司收取數(shù)據(jù)訪問費用。

      傳統(tǒng)法律難解大模型糾紛

      諸多訴訟的背后,除了大模型的迅速發(fā)展引發(fā)的數(shù)據(jù)饑荒外,還有一個重要的因素則是現(xiàn)有的傳統(tǒng)版權制度并沒有對大模型版權進行明確的規(guī)定,不僅存在巨大的法律盲區(qū)。現(xiàn)行的授權許可版權制度甚至反而可能成為大模型行業(yè)發(fā)展的桎梏。

      在傳統(tǒng)的授權許可制度下,基本都是本著先獲取授權,后進行使用的原則,而對于大模型訓練而言,其由于數(shù)據(jù)來源龐大,版權歸屬不同,如果采用預先獲取授權規(guī)則,不僅需要準確的將數(shù)據(jù)中涉及版權保護的部分分離并識別權利人,還需要和每一部版權作品的權利人各自協(xié)商,支付價格不一的授權費用,考慮到大模型的數(shù)據(jù)量級,即便大模型開發(fā)商愿意去申請授權,這個工作過程會極為漫長,且花費將會是天文數(shù)字,很難有廠家能夠落地操作。

      不僅如此,對于授權本身,目前的版權規(guī)定在大模型領域也存在異議。

      考慮到大模型訓練行為類似于自然人閱讀作品后吸收再創(chuàng)作的新聞,看書本身和對作品的模仿借鑒均不屬于現(xiàn)有版權法規(guī)制的問題,如何定義侵權本身對于業(yè)界依然存在著不小的討論空間。

      從版權法角度看,“獲取作品”或者說對于作品的接觸類似線上瀏覽網頁和線下閱讀書籍,只接觸不存在后續(xù)的傳播利用大概率并不會觸發(fā)版權侵權責任。這一階段的核心版權問題主要涉及是否存在破壞作品“技術保護措施”的行為。

      根據(jù)我國《著作權法》規(guī)定,違反保護作品技術措施的規(guī)定亦構成侵權。即使在滿足“合理使用制度”的情況下使用作品,但需要規(guī)避技術措施才可以獲得該作品,如果此種規(guī)避并不符合《著作權法》第50條關于避開技術措施的豁免規(guī)定,則可以在認定滿足合理使用的基礎上,同時認定構成違反技術措施而承擔侵權責任。

      我國《著作權法》曾規(guī)定5種豁免情形

      除了從法律層面存在不確定的空間,在實操中,如何認定侵權也是一件極其復雜的工作。

      對外經濟貿易大學數(shù)字經濟與法律創(chuàng)新研究中心執(zhí)行主任張欣就曾表示:“大模型監(jiān)管的落地,還存在事后難追溯等問題,尤其在算法復雜度日益攀升、出現(xiàn)“算法黑箱”等情況下,如果從事后去還原和追溯數(shù)據(jù)集是否合規(guī),十分依賴大模型開發(fā)商提供數(shù)據(jù)處理記錄和日志,很難從外部進行確認?!?/p>

      有行業(yè)人士認為,如果一味地求穩(wěn)減少數(shù)據(jù)獲取來源,那么最終訓練的模型將由于規(guī)模不足和數(shù)據(jù)質量不高導致毫無競爭力。而假如想通過更大規(guī)模的數(shù)據(jù)去訓練大模型,在現(xiàn)行法律法規(guī)下,無論是高昂的潛在授權成本,還是存在高度不確定性的侵權風險,對于大模型行業(yè)的發(fā)展都是不小的隱患。

      責任豁免,各國都在怎么做?

      實際上,面對這個行業(yè)發(fā)展帶來的實操問題,目前全球各國均開始了探索和立法,其中 美國、歐盟和日本均就AI大模型訓練來源的版權問題給出了自己的解釋和規(guī)定。

      在美國版權法107條中,對專利的合理使用給出了4條考慮要素,分別是:(1)使用的目的與性質;(2)該版權作品的性質;(3)使用部分占被利用作品質與量的比例;(4)該使用對版權作品潛在市場或價值所產生的影響。這被稱為合理使用認定“四要素標準”。

      在這四要素中,美國法院最初認為第四要素即商業(yè)利益起主要作用,后來則強調*要素即使用目的重要意義,并引申出了轉換性使用(transformative use)這個實操中常見的名詞。

      正和*要素“使用的意圖和特征”相關,是法院在侵權案件中重點考察的內容。

      轉換性使用(transformative use)是指如下作品使用方式:使用人借用其他版權人作品,并在此作品基礎上產生具有新信息、新美感、新洞察和新理解的新作品。

      這個定義可能讓人比較迷糊,這里舉一個中國應用轉換性判決的案例。

      2014年,“葫蘆娃”和“黑貓警長”作品的著作權人美影廠向法院提起訴訟,請求判令新影年代公司侵權,理由是新影年代公司制作的電影《80后的獨立宣言》宣傳海報上有包括“葫蘆娃”和“黑貓警長”卡通形象在內的諸多美術形象。2015年,上海知識產權法院認為,電影海報引用“葫蘆娃”“黑貓警長”美術作品的目的,是為了反映兒童時代曾經經歷此動畫片盛播的影片主角擁有的代表性童年記憶,而不是單純再現(xiàn)這二部美術作品的藝術美感。電影海報雖然引用原告美術作品,但這二部美術作品原有藝術價值功能發(fā)生轉換,應當屬于合理使用情形,不構成侵權。

      不過值得注意的是,由于目前尚未有相關訴訟判決出臺,美國司法界是否認可AI訓練素材符合轉換性使用尚且不能定論。

      不過在2023年5月美國國會召開“交互中的人工智能與版權法”聽證會,美國版權局前總法律顧問Sy Damle表示:“任何強制模型對于訓練內容付費許可的嘗試,要么會使美國AI行業(yè)破產,消除我們在國際舞臺上的競爭力;要么會驅使這些頭部AI公司離開這個國家?!?/p>

      可以看出美國對于大模型數(shù)據(jù)侵權這塊態(tài)度較為開放。

      2018年日本對《著作權法》進行了修改,在第30條第4款設置了新的合理使用條款——“不以欣賞作品原有價值為目的的利用”。根據(jù)日本文化廳的解讀,此次修改整體上擴大了對于著作權的限制,其目的是鼓勵創(chuàng)新,迎接以人工智能、物聯(lián)網和大數(shù)據(jù)為代表的第四次產業(yè)革命。值得注意的是,新一輪的日本《著作權法》修正案已于2023年5月17日通過參議院表決,并未對第30條第4款進行修改。

      在《著作權法》修改的同時,2023年5月,日本政府公開了自身對于版權法領域模型訓練行為的態(tài)度——不會對AIGC模型訓練中使用的內容加以版權保護。

      日本文部科學大臣長岡惠子(Keiko Nagaoka)表示,日本法律不會保護AIGC模型訓練集中使用的版權材料,也即允許AIGC模型訓練對于版權人作品的利用,無論是出于非營利或商業(yè)目的,無論是復制還是復制以外的行為。這在一定程度驗證了,日本《著作權法》第30條第4款“不以欣賞作品原有價值為目的利用”的責任豁免,能夠適用于當下的AIGC模型訓練行為。

      相比美日,歐盟最新的法案則對AI大模型數(shù)據(jù)來源的要求做了更加明確的規(guī)定,并制定了侵權的罰款標準。

      2023年的6月14日,歐洲議會投票通過了《人工智能法案》,這也是全世界*部通過議會程序、專門針對人工智能(特別是AIGC)的綜合性立法。

      在該法案中,就明確規(guī)定了ChatGPT這樣的生成式AI系統(tǒng),將需要遵守透明度要求,包括披露內容是由AI生成的、幫助區(qū)分所謂的深度偽造圖像和真實圖像等。同時這些工具需要具備防止生成非法內容的保障措施。更重要的是,OpenAI等廠商需要公開,他們在訓練模型過程中,用了哪些受版權保護的數(shù)據(jù)。

      若違反AI法案,公司將面對最高年營收7%或3000萬歐元的罰金,以哪個數(shù)字更高為準。

      我國數(shù)據(jù)問題如何解決?

      值得注意的是,相比其他國家對于版權使用的定義,我國目前的著作權法無法直接契合AI大模型訓練,存在一定的法律缺位。

      《著作權法》第二十四條規(guī)定了“合理使用”(對于作品的利用,可以不經版權人許可,不向其支付報酬)的具體情形,涉及AIGC模型訓練的具體規(guī)則大致包括“個人使用”“適當引用”“學習研究使用”等。

      “個人使用”適用目的存在嚴格限制,而目前AIGC模型最終落腳于對不特定主體的商業(yè)性服務,難以與之契合;

      “適當引用”適用前提是“為介紹、評論說明某一作品”或“說明某一問題”,AIGC模型商業(yè)化應用顯然難以歸于此類;

      “科學研究”對作品的利用限定在“學校課堂教學或者科學研究”,同時還強調僅能“少量復制”,AIGC模型大量復制與利用作品的現(xiàn)狀無法符合該項要求。

      雖然2021年修訂后的《著作權法》對于“合理使用”規(guī)定,增加了“一般要件”和“兜底條款”。但“兜底條款”是一個半開放的內容規(guī)定——“法律、行政法規(guī)規(guī)定的其他情形”,無法在司法實踐中由法院結合“一般要件”,根據(jù)具體案情直接適用。因此,AIGC模型訓練能否適用“合理使用”的豁免,仍有待后續(xù)《著作權法》《著作權實施條例》等相關立法的修訂加以明確。

      此外,我國《著作權法》對于“法定許可”的規(guī)定較為分散,總結起來主要包括“期刊轉載”“文藝團體表演”“錄音唱片制作錄音制品”“廣播電臺和電視臺使用他人已發(fā)表的作品制作廣播和電視節(jié)目”四大類,和模型訓練行為差異甚大,難以匹配適用。

      不過值得注意的是,大模型抓取外部數(shù)據(jù)雖然較難認定違反我國《著作權法》,但是有律師認為其可能涉及違反《著作安全法》。

      陜西華格律師事務所律師葛偉超表示:“利用抓取技術破壞他人市場競爭優(yōu)勢,具有并存在為自己謀取競爭優(yōu)勢的主觀故意,違反誠實信用原則,擾亂競爭秩序的數(shù)據(jù)抓取行為,可能構成不正當競爭行為。同時也直接違反了《數(shù)據(jù)安全法》相關規(guī)定?!?/p>

      今年六月,中文在線、同方知網、中國工人出版社等26家單位共同發(fā)布了國內首份有關AIGC訓練數(shù)據(jù)版權的倡議書。作為業(yè)內首份AIGC數(shù)據(jù)版權倡議書,業(yè)內認為其*的價值在于兩點:一是喚醒了國內AI企業(yè)關于大模型訓練數(shù)據(jù)的版權意識;二是為AIGC研發(fā)者規(guī)避版權爭議提供了方向性指引。

      從內容上看,雖然這份倡議書不具備事實上的法律效應,但它更多是前期喚醒公眾、學者及相關部委重視AI版權現(xiàn)狀的問題。面向AIGC領域專家、學者及AIGC從業(yè)機構,分別從深化版權問題研究、版權賦能產業(yè)發(fā)展、避免侵權、引導AI生成內容的合理使用、提升版權保護意識、優(yōu)化內容授權渠道這六個方面提出了倡議。覆蓋了從AIGC模型研發(fā)到產品使用,從版權問題理論研究到數(shù)據(jù)流通實踐的各個環(huán)節(jié)。

      大模型的開發(fā)離不開海量數(shù)據(jù)助力。當前,數(shù)據(jù)來源的知識產權已經成為大模型發(fā)展的阿喀琉斯之踵。AI模型開發(fā)主體以何種方式、需要承擔何種程度的法律義務以獲取訓練數(shù)據(jù),是當前產業(yè)需要解決的核心問題。

        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多