比特幣行情 比特幣行情
Ctrl+D 比特幣行情
ads
首頁 > 萊特幣 > Info

AIG:AIGC創業 用爬蟲技術做個知乎版GPT機器人合法嗎?

Author:

Time:1900/1/1 0:00:00

今年,GPT、AI繪畫等人工智能大模型工具火熱,許多人也想來追一波AI創業熱潮,相關創業項目層出不窮。優質數據對AI大模型訓練至關重要,只有擁有足夠多的數據,才能訓練出智能、強大的AI工具。我國互聯網蓬勃發展二十余年,還能缺少數據?這不,曼昆律師最近接到網友咨詢,準備用爬蟲爬取知乎數據,做一個知乎GPT機器人豈不美哉?且慢,這其中的法律風險不可忽視。

01 爬蟲是把雙刃劍

爬蟲技術是一種通過編程自動從互聯網上獲取數據的技術。它的名字形象、生動地表明了它的工作原理:模擬人類在網頁瀏覽器中瀏覽網頁的過程,進行數據采集和數據抓取。

網絡爬蟲廣泛應用于搜索引擎、數據采集、廣告過濾、大數據分析等領域。作為一種功能強大的信息采集程序,它能夠顯著提高工作效率,尤其是對海量數據的收集和整理。

英國法院批準Craig Wright在比特幣權利訴訟案中繼續上訴:金色財經報道,英國一家法院于7月20日批準了一項上訴,賦予澳本聰Craig Wright在訴訟中辯稱比特幣文件格式定義明確,足以獲得版權保護的權利。該決定推翻了二月份的一項裁決,該裁決認為Wright的論點不足以表明比特幣文件格式最初是如何記錄的,下次審判日期定于2024年1月進行。

Craig Wright自2016年以來一直聲稱自己是比特幣的發明者,對13名比特幣核心開發者和包括Blockstream、Coinbase 和Block在內的公司發起訴訟,指控侵犯了他對比特幣白皮書的版權、比特幣區塊鏈的文件格式和數據庫權利。[2023/7/22 15:51:44]

然而,一旦技術被不正當使用,也會引發“蟲災”,導致網絡擁堵、崩潰、服務器癱瘓甚至引發數據安全風險。我們熟悉的“裁判文書網”也不能幸免:

DigiDaigaku Free NFT Factory即將上線,Digi Genesis收藏者將獲得Bitcoin NFT:2月16日消息,DigiDaigaku母公司Limit Break首席執行官Gabriel Leydon發推稱,正在設置Limit Break比特幣節點。DigiDaigaku Free NFT Factory將很快投入運營。Digi Genesis收藏者將可以獲得一個Free Bitcoin NFT。[2023/2/16 12:11:17]

圖:2019年,最高人民法院發布的《關于“中國裁判文書網”網站建設建議的答復》

02 使用爬蟲技術的風險

Web3瀏覽器Opera宣布將集成人工智能生成內容(AIGC)服務:2月11日消息,Web3瀏覽器Opera宣布將集成人工智能生成內容 (AIGC) 服務,并計劃將現有AI程序擴展到該服務中以支持瀏覽器、新聞和游戲等產品。

此外,Opera還透露其瀏覽器記錄功能也將與AI集成。(PR Newswire)[2023/2/11 12:01:04]

爬蟲作為一項獲取數據的技術手段,并未被法律禁止。但使用方式及使用目的決定了是否會產生違法的行為和后果。

使用爬蟲技術, 能在短時間內對網站進行大量訪問,頻繁抓取頁面和數據。這可能會導致網站的帶寬和服務器負載急劇增加,從而影響網站的正常運行,甚至導致宕機或響應緩慢,干擾被訪問網站的正常運營,嚴重時可構成犯罪。

楊某授權公司員工張某開發某信貸系統軟件,該軟件內的“網絡爬蟲"功能能與深圳市居住證網站鏈接。2018年5月,該軟件連續兩小時對深圳市居住證系統查詢大量訪問,致使深圳市居住證系統無法正常運作,極大地影響了該居住證系統使用方深圳市局人口管理處的日常運作。二人均構成破壞計算機信息系統罪。[(2019)粵0305刑初193號]

動態 | 美國版權局不會“認可”Craig Wright為中本聰:據coindesk報道,美國版權局周二表示,不會“認可”Craig Wright為中本聰(Satoshi)。美國版權局在新聞稿中寫道:“作為一般規則,當版權局收到注冊申請時,申請人會證明提交材料中所作陳述的真實性。版權局不會調查任何陳述的真實性。如果作品是以假名注冊的,版權局不會調查申訴人與假名作者之間是否存在可證明的聯系。”[2019/5/23]

與使用方式相比,如何使用爬取的信息和數據,對爬蟲行為的定性影響更大。

非法使用爬取的數據和信息主要有:

(1)盜取個人信息:使用爬蟲技術惡意抓取網站上的個人信息,可能涉及侵犯他人隱私、個人信息,嚴重可構成侵犯公民個人信息罪。

Craig Wright自稱中本聰 澳當局介入調查:24日,有媒體爆料,澳大利亞企業家 Craig Wright 公開承認自己是比特幣的創始人“中本聰”。媒體爆料后,澳大利亞當局很快搜查了Wright住所。但是澳大利亞稅務部門說,搜查行動與比特幣無關,而是對納稅問題進行的一項長期調查。[2018/2/25]

(2)商業競爭中的不正當行為:使用爬蟲技術獲取競爭對手的商業秘密、定價信息、用戶數據等,對數據整合后“搬家”到其他平臺,通過這種便捷的方式獲取大量有價值的數據、信息,以謀取不正當競爭優勢。

 在“酷米客訴車來不正當競爭糾紛案”中,法院認為,未經權利人許可,利用網絡爬蟲技術進入權利人的服務器后臺的方式非法獲取并無償使用權利人的實時公交信息數據的行為,實為一種“不勞而獲”、“食人而肥”的行為,且具有非法占用他人無形財產權益,破壞他人市場競爭優勢,構成不正當競爭。

(3)侵犯知識產權:爬取受版權保護的內容,然后用于未經授權的公開傳播或商業用途,屬于侵犯知識產權的行為。

03 爬蟲數據“投喂”大模型的風險

通過前面的分析可知,使用爬蟲技術的風險主要在于爬取的方式以及爬取的內容,那是不是控制爬取的頻率和內容,爬取公開內容,用來訓練機器人就沒有什么風險了呢?

首先,知乎官方賬號早在2018年就發布了《關于知乎用戶權益保護升級的公告》,提到:知乎對第三方開放知乎內容的使用采取白名單制,第三方需要通過官方合作渠道進行申請。如果爬取行為違反了知乎的服務條款,知乎可能采取封禁賬號、IP地址或者其他法律行動。

摘自《知乎機構號使用規范》(試行)

其次,知乎上的內容通常由用戶原創或授權發布,著作權歸用戶本人所有。未經授權地爬取和使用這些內容,可能涉及侵犯知乎的版權和著作權。

其實,訓練AI大模型,“數據盜竊”并非個案。上個月,筆神作文公開指控昔日合作伙伴學而思,認為學而思通過爬蟲方式“偷數據”訓練自家AI產品。筆神作文表示,將通過司法程序解決糾紛,要求“學而思”支付1元賠償金,公開道歉,并刪除已爬取的數據。

04 小結

在人工智能創業的熱潮中,數據變得越來越重要。在面對爬蟲技術帶來的誘惑時,應當認識到,雖然爬蟲技術本身并未被禁止,但其不當使用可能導致法律問題,尤其是在涉及個人信息、隱私、版權和不正當競爭等方面。

《生成式人工智能服務管理暫行辦法》中明確提到,訓練數據處理活動時,應當使用具有合法來源的數據和基礎模型。各位老板在創業過程中,要確保數據采集的合法性和道德性。如果想要使用爬取的數據訓練AI大模型,務必事先獲得數據來源方的授權,并遵守相關平臺的規定。

劉紅林律師

個人專欄

閱讀更多

Foresight News

金色財經 Jason.

白話區塊鏈

金色早8點

LD Capital

-R3PO

MarsBit

深潮TechFlow

Tags:AIG比特幣GHTCRAAIG價格比特幣價格實時行情幣價格NightClubBABY CRAZY TIGER

萊特幣
Curve:金色觀察 | 逃出生天的Curve Finance還有多少信任值?

作者:Climber,金色財經7月30日,智能合約編程語言 Vyper 的部分版本被發現存在嚴重漏洞,導致包括Curve  Finance 在內的一些重要項目遭受攻擊.

1900/1/1 0:00:00
區塊鏈:幣圈刑案3.0 違法所得如何核減?合理支出如何扣除?

Web3.0有沒有到來不知道,幣圈刑事案件3.0肯定是來了。我19年開始專門做幣圈刑事辯護,大體上的直觀感受是,plustoken案件以前,可以稱為幣圈刑案1.0,彼時公檢法辦案人員對涉幣案件內.

1900/1/1 0:00:00
金字塔:擺脫內卷:從城市居民到數字居民

作者:馮光能;歪脖三觀 在《生境與希望:從躺平無為到照亮世界的數字游民》一文中,鄙人論證了現代文明最緊迫的問題在于公共生活逐漸消解.

1900/1/1 0:00:00
DAO:Arthur Hayes:DAO 是 AI 時代的公司 DEX 是 AI 時代的金融市場

作者:Arthur Hayes;編譯:Kate, Marsbit為我們優雅而混亂的宇宙帶來秩序需要兩個基本組成部分的結合。第一個也是最明顯的一個是大量的能量消耗,混亂的成型是非常耗能的.

1900/1/1 0:00:00
比特幣:阿聯酋:日益崛起的比特幣挖礦地區 炎熱是大難題

作者:Jaran Mellerud / Erick Vera;編譯:吳說阿聯酋(UAE)以其穩定、友好的商業環境、強大的資本市場和豐富的能源資源.

1900/1/1 0:00:00
WEB:?篇不正經的Web3?機評測?

不會評測手機的韭菜不是好的web3研究員。作為?個鏈上數據還沒完全吃透的web3 研究員,沒想到有朝??還要評測?機.

1900/1/1 0:00:00
ads