四月份,書籍作家和出版商抗議使用版權書籍進行人工智能培訓的使用
Wook Walked/Alami Live News
十億美元的危險是決定科技公司是否可以在美國和英國的版權書籍上合法培訓其人工智能模型。作家和出版商已經就此問題提起了幾項訴訟,在新的回合中,研究人員表明,至少有一個AI模型不僅在他的培訓數據中使用了流行的書籍,而且還記得其內容的詞彙。
事實證明,大多數持續的爭議是使用版權作品的合法權利,而無需詢問AI開發人員。在先前的研究中,許多大型語言模型(LLM)在“書3”數據集中接受了培訓,其中包括流行的AI聊天機器人和其他製造AI計劃,包括大約200,000本版權書籍,包括許多盜版書籍。對該主題訓練模型的AI開發人員認為,他們不違反法律,因為LLM根據其培訓來保留最新的單詞組合,而不是反映受版權保護的工作。
但是現在,研究人員已經測試了多個樣本,以查看從詞彙中撤回訓練的程度。許多模型發現,他們在培訓數據中沒有保留書籍的確切文本,但是元模型之一記得幾乎整本書的總和。研究人員估計,如果法官對公司裁定,至少將負責10億美元的賠償。
“一方面,人工智能模型不僅是’剝削機’,而且還指控一些模型,而且還沒有做更多的事情,而不是學習單詞之間的正常關係,” 馬克·萊姆利 在加利福尼亞的斯坦福大學。 “預訂答案模型和預訂書籍的模型不同,這意味著在所有情況下都很難確定明顯的法律規則。”
萊姆利(Lemley)在一個稱為Codry V Meta平台的製造AI的版權案例中為META辯護。使用書籍訓練Meta的AI模型的作者已針對侵犯版權的技術巨頭提起了集體訴訟。在加利福尼亞北部地區,仍在審理此案。
2025年1月,萊姆利 宣布 儘管他仍然認為該公司會贏得此案,但他還是強迫Meta作為客戶。 Emil Vazquage元代表說,“負擔得起的受版權材料對於開發公司的AI模型非常重要。”他說:“我們不同意原告,並告訴不同的記錄有不同的記錄。”
在這項最新研究中,Lemley和他的同事通過將小書籍面霜分為兩個部分(一個前綴和後綴部分)來測試書籍的AI記憶 – 看看是否使用前綴提示該模型。例如,他們是F. Scott分為Fitzgerald的報價 偉大的蓋茨比 “他們是粗心的人,湯姆和黛西 – 他們破解了東西和生物,後來又退縮了”,“他們被粗心地重新進入他們,或者將他們放在一起,讓其他人清理混亂。 “
研究人員估計每個AI模型摘要都根據其結果完成詞彙的可能性。然後,他們通過隨機機會將這些潛力與模型的不平等進行了比較。
在摘要中,有36本受版權保護的書籍中有部分文本,包括喬治·RR Martin等著名書籍 權力遊戲 和Sheryl Sandburg 很薄。研究人員已經測試了原告在Cadrey V. Platform Case中寫的書中的傳票。
研究人員將這些實驗帶入了13個開源AI模型,包括Meta,Google,Depsik,Elytheroi和Microsoft開發和發布。大多數公司以及META都沒有回應評論請求,微軟拒絕發表評論。
這樣的測試表明,梅塔喇嘛3.1 70b型JK Rowlings中的第一本書 哈利·波特 系列也是如此 偉大的蓋茨比 和喬治·阿爾韋爾的反烏托邦小說 1984。其他大多數模型在書中的記憶很少,包括適合人寫的示例書。梅塔拒絕對這些結果發表評論。
研究人員估計,AI模型僅侵犯了僅3%的書籍書籍的版權,幾乎違反了10億的合法薪酬獎項 – 並且基於違反AI開發人員的大獎項。
該技術可能是確定AI內存範圍的“好法醫工具”, 蘭迪·麥卡蒂(Randy McCarti) 在俄克拉荷馬州的Hall Estle Law Furm中。這無法解決公司是否可以在版權下合法培訓其AI模型。
麥卡蒂說,AI公司通常會在版權材料上訓練其模型。 “問題是,他們有權這樣做嗎?”他問。
另一方面,在英國,記憶“從版權的角度來看非常重要” 羅伯特·蘭斯(Robert Lands) 在倫敦的霍華德·肯尼迪律師事務所。 《英國版權法》遵循“公平交易”的概念,該概念比美國公平使用理論提供了侵犯版權的非常狹窄的例外。因此,記住盜版書籍的AI模型不太可能有資格獲得豁免。 ”他說。
事物:
- 人工智慧/ / / / / / / / / / /
- 法律