別靠近,公開數據正在「洩露輻射」

投資者教育
Banner Img
October 10, 2025

多年來,科技行業一直推崇一句口號:「數據是新的石油。」這本是褒義——意在將資訊提升為世界上最寶貴的資源。然而,石油並不是可以任意取得的。它屬於特定的所有者,受監管並需要許可。相比之下,數據長期以來卻被視為空氣般的存在——在網路中自由飄浮,任何擁有爬蟲或 API 金鑰的人都能取得,彷彿「看得見」就代表「可以用」。

但這種幻覺如今已經破滅。公開數據不再是免費的。曾經被視為開放領地的內容,正被重新歸類為私有財產,受到合約法、隱私法規以及平台授權協議的保護。在這個新崛起的環境中,數據不再只是石油;它更像是鈾。它依然擁有巨大的能量,但也天生具有危險性。如果處理不當,依賴它的公司可能會遭受嚴重損害。

這引出了新時代的關鍵提問:如果數據是公開可見的,你是否真的擁有使用它的權利?還是你其實在不知不覺中已經構成「擅闖」?

圖片來源: Wrytin

支配網際網路的無聲規則

在網際網路發展的很長一段時間裡,企業遵循著一條不成文的原則:只要內容是公開可存取的,就可以被收集、分析和再利用。任何發布在網路上的內容,都被默認為可以被開發利用。

對沖基金從餐廳評論中提取消費者情緒,HR 分析工具抓取 LinkedIn 數據來監控員工流動情況,搜尋引擎以「索引」為名複製整個網站,而 AI 開發者則將數以百萬計的部落格文章、評論、自拍照和論壇討論整合進訓練數據集中。

很少有人提出反對,而那些提出質疑的人,往往被嘲笑為「不了解網際網路是如何運作的」。然而,大家其實心知肚明;問題在於缺乏法律上的追索管道。而這種格局,如今已經改變。

終結公開數據「自由採集時代」的三股力量

從「先抓了再說,事後再道歉」的粗放模式轉變,並不是因為道德突然覺醒,而是法律、經濟與平台策略三股力量共同作用的結果。

• 法律框架追上了現實操作: 美國、歐洲與亞洲的法院開始明確裁定:可見不等於同意。公開可存取性並不等於進入公開領域。版權保護依然有效,隱私權受到保障,而合約限制(例如平台使用條款)越來越被視為具有法律約束力的協議。

• 平台開始收「租金」: 當 Twitter 將企業級 API 價格提高到每月 42,000 美元時,這不僅是商業化舉措,更是立場變化的宣告——推文不再被視為「自由言論」,而是被授權的內容資產。Reddit 隨後對批量存取收費,LinkedIn 在戰勝 hiQ Labs 的訴訟後進一步收緊資料匯出限制。平台從中立的仲介轉變為數據的房東。

• 監管者將數據重新定義為「個人身份」: 在 Clearview AI 案件中,該公司抓取了數十億張社群媒體圖片用於人臉識別,隱私監管機構介入時重點並非版權問題,而是生物識別法規。他們的立場明確無疑:你的臉屬於你自己,即便你公開了它,也不代表可以成為別人的演算法素材。

如今,信號已經無比明確:無授權數據抓取的時代即將終結。

什麼才算「合理使用」(Fair Use)?

許多公司依然習慣以「合理使用」作為通用防禦理由,認為只要不直接轉售原始數據,自己的使用方式就應當是合法的。然而,這其實是對法律的誤解。

圖片來源: Clipground

法院在評估「合理使用」時,會依據以下四個關鍵因素:

1. 是否具備「轉化性使用」(Transformative Use):這次使用是否創造了新的意義或功能?單純複製整篇文章或圖片用於訓練系統,並不必然構成轉化性使用。真正的轉化需包含評論、批評、諷刺或顯著的再語境化。默默地「餵入模型」通常無法滿足這一標準。

2. 原始素材的性質(Nature of the Source Material):素材是創作類還是事實類?使用者生成內容——無論是 Yelp 評論還是個人照片——通常被視為創作表達,享有更高保護。抓取政府的事實數據表是一回事,吞掉別人的人生故事則完全是另一回事。

3. 提取的數量(Amount Taken):是否只提取了必要部分?合理使用傾向於「精確」而非「海量」。一次性抓取數百萬條內容,幾乎總會被認定為超過合理範圍。

4. 對市場的影響(Market Harm):該使用是否損害了原內容的經濟市場?如果你的系統讓使用者無需訪問原始來源就能取得答案——例如對付費新聞進行總結——法院可能會認定你在替代原始市場。

這些問題不再只是理論推演,而是正在真實的法律訴訟中被逐一檢驗。

重新定義「公開數據」的法律轉折點

三起具有里程碑意義的案件明確確立了一個核心原則:公開可見,並不代表可以合法使用。這些案件共同推動了數據取得、授權與防禦方式的結構性轉變。

1. 《紐約時報》訴 OpenAI 與微軟:AI 與新聞業之間的首場版權之戰

《紐約時報》起訴 OpenAI 和微軟,指控其在未經許可的情況下使用受版權保護的文章來訓練 GPT 模型。爭議的焦點並不在於 AI 模型是否可以「閱讀」內容,而在於它是否會「復現」內容。法庭文件顯示,GPT 模型曾生成與付費牆後的文章「幾乎逐字一致」的片段。如果法院認定這種行為具有系統性,那麼「轉化性使用」的法律防線可能全面崩潰。一旦 OpenAI 被要求支付授權費用,其他 AI 公司也將被迫跟進。

圖片來源:Reuters

2. Getty Images 訴 Stability AI:當浮水印成為法律取證工具

Getty Images 在美國和英國同時對 Stability AI 提起訴訟,因為他們發現 AI 生成的圖像中出現了扭曲的 Getty 浮水印。Getty 的論點非常直接:AI 並沒有抹除版權侵權,反而讓它更加顯眼。這些被破壞的浮水印成為證據,證明模型在訓練中使用了受版權保護的素材卻沒有做足抽象處理。如果 Getty 勝訴,視覺內容授權將從「禮貌性行為」升級為「法律義務」。

圖片來源:EnCause

3. LinkedIn 訴 hiQ Labs:「公開 ≠ 可以隨便拿」的終結

hiQ Labs 是一家分析員工流動情況的初創公司,它抓取了公開可存取的 LinkedIn 個人資料。LinkedIn 發出「停止並終止」(cease-and-desist)通知,引發了一場漫長的法律戰。hiQ 主張抓取是合理的,因為這些頁面是公開的;LinkedIn 則反駁稱此舉違反服務條款,是對合約的破壞。最終,法院支持了 LinkedIn,確立了關鍵先例:服務條款具有合約效力,即使頁面是公開的,也不代表屬於公開領域。

圖片來源:Grepsr

這些案件的結果正在重塑數位商業的規則。法律已不再詢問「數據是否可存取」,而是追問:你是否擁有使用它的授權?

可持續護城河的關鍵不在於數據量,而在於數據「所有權」

多年來,企業一直將「規模」等同於「實力」。他們的邏輯是:誰擁有最多的數據,誰就能打造出最強的模型,從而獲得競爭優勢。而如今,這一邏輯已經在法律層面被倒轉——數據越多,風險越大,除非你能證明這些數據是「合法擁有」的。

現代數據風險主要體現在以下三大裂縫中:

圖片來源:Poseidon

其中任何一項風險都足以使一個產品線陷入癱瘓;若多項風險疊加,更會形成連鎖暴露效應——導致整個數據集或模型體系都面臨被質疑的威脅,而不僅僅是它的輸出結果。

這正凸顯出「數據來源可追溯性」(Data Provenance)的重要性——記錄數據來源、取得條件以及允許用途的能力,正從一種「合規上的加分項」演變為必須具備的法律防線。

合法數據戰略:一種架構層面的必然選擇

以「合理使用」(fair use)、「內部測試」或「公開領域」為理由進行辯護,已經不再具有說服力。任何希望實現規模化的公司,必須建立明確的數據取得模式。

至少有三種具備可辯護性的架構路徑:

1. 授權式取得(Licensed Acquisition):讓合約成為競爭優勢

透過與平台、出版方或數據聯盟直接談判,取得正式存取權限。雖然成本高於爬取數據,但這種方式能夠確保法律上的確定性與差異化競爭力。

2. 基於使用者同意的採集(Consent-Based Collection):將使用者視為「合作方」,而非「資源礦」

建立清晰的授權機制,讓使用者以明確的價值交換授予不同層級的使用權——參與應是一種合作關係,而非單方面提取。

3. 聯邦式或合成式訓練(Federated or Synthetic Training):在數據所在之處進行計算

當數據無法集中時,讓模型前往數據所在地執行——或者使用統計方式生成的代理數據進行訓練。此時的控制力來源於授權範圍而非數據所有權本身。

採用這些模式的公司並不會變慢——它們會更具韌性、更具收購價值,也更容易獲得保險保障。在受監管行業中,這種「可被信賴的合法性」正成為真正的核心優勢。

全新的投資準則:將數據權利視為一種資產類別

在過去十多年裡,投資人評估 AI 公司的主要標準是模型表現——準確率、推理速度、單位經濟效益。然而,這些指標如今已不足以構成投資依據。

一個性能卓越卻建立在非法數據基礎上的模型,不是資產,而是一枚即將引爆的法律炸彈。

每一位嚴肅的投資人現在都必須提出以下問題:

1. 你有多少比例的數據是基於明確授權、記錄在案的使用者同意,或符合法律豁免條款的?

2. 你能否提供一份可以追溯的數據來源帳本(data provenance ledger)?

3. 如果遭到質疑,你是否能證明模型權重來源合法——而不只是技術上表現優越?

這與軟體授權問題如出一轍。正如沒有負責任的投資人會投資建立在盜版程式碼之上的公司,資本同樣不會支持訓練於可疑數據之上的模型。

數據權利正在演變為智慧財產權,而智慧財產權決定著:是否可以轉讓、是否具備法律效力、是否具備退出價值。

圖片來源:Merl Tech

結語

「快速行動,瘋狂抓取」的時代已經結束。公開網際網路不再是無主之地,而是被切分為一個個合約領地、隱私保護區與專屬資產區域。

下一個十年的贏家,不會是最激進的掠奪者,而是最自律的數據管家——他們不只是收集數據,而是真正擁有它、獲得其授權,並能在必要時為其辯護。

數據依然會是本世紀最強大的燃料,但它不再是粗糙的石油,而是裂變級的核材料——威力巨大,也極其危險。

在這樣的環境中,優勢不再屬於跑得最快的人,而屬於行動合法的人。

免責聲明

  1. 本網站內容僅旨在向專業投資者(定義見《證券及期貨條例》(香港法例第571章)或者該條例下制定的規章)提供。

  2. 本網頁內之資料只可作為資訊的用途,並不構成提供服務的建議或報價。

  3. 本網頁內之所有資料不可視為專業或投資意見。因此,閣下應尋求獨立的專業意見。任何使用本網頁及其內容的風險由閣下自負。

  4. 本公司可隨時終止或更改本網頁所提供之資料,產品或服務,而毋須事先通知閣下。

  5. 非經取得作者授權,不得任意轉載或公開傳輸任何內網站之內容。