October 10, 2025

多年來，科技行業一直推崇一句口號：「數據是新的石油。」這本是褒義——意在將資訊提升為世界上最寶貴的資源。然而，石油並不是可以任意取得的。它屬於特定的所有者，受監管並需要許可。相比之下，數據長期以來卻被視為空氣般的存在——在網路中自由飄浮，任何擁有爬蟲或 API 金鑰的人都能取得，彷彿「看得見」就代表「可以用」。

但這種幻覺如今已經破滅。公開數據不再是免費的。曾經被視為開放領地的內容，正被重新歸類為私有財產，受到合約法、隱私法規以及平台授權協議的保護。在這個新崛起的環境中，數據不再只是石油；它更像是鈾。它依然擁有巨大的能量，但也天生具有危險性。如果處理不當，依賴它的公司可能會遭受嚴重損害。

這引出了新時代的關鍵提問：如果數據是公開可見的，你是否真的擁有使用它的權利？還是你其實在不知不覺中已經構成「擅闖」？

‍

支配網際網路的無聲規則

在網際網路發展的很長一段時間裡，企業遵循著一條不成文的原則：只要內容是公開可存取的，就可以被收集、分析和再利用。任何發布在網路上的內容，都被默認為可以被開發利用。

對沖基金從餐廳評論中提取消費者情緒，HR 分析工具抓取 LinkedIn 數據來監控員工流動情況，搜尋引擎以「索引」為名複製整個網站，而 AI 開發者則將數以百萬計的部落格文章、評論、自拍照和論壇討論整合進訓練數據集中。

很少有人提出反對，而那些提出質疑的人，往往被嘲笑為「不了解網際網路是如何運作的」。然而，大家其實心知肚明；問題在於缺乏法律上的追索管道。而這種格局，如今已經改變。

‍

終結公開數據「自由採集時代」的三股力量

從「先抓了再說，事後再道歉」的粗放模式轉變，並不是因為道德突然覺醒，而是法律、經濟與平台策略三股力量共同作用的結果。

• 法律框架追上了現實操作：美國、歐洲與亞洲的法院開始明確裁定：可見不等於同意。公開可存取性並不等於進入公開領域。版權保護依然有效，隱私權受到保障，而合約限制（例如平台使用條款）越來越被視為具有法律約束力的協議。

• 平台開始收「租金」：當 Twitter 將企業級 API 價格提高到每月 42,000 美元時，這不僅是商業化舉措，更是立場變化的宣告——推文不再被視為「自由言論」，而是被授權的內容資產。Reddit 隨後對批量存取收費，LinkedIn 在戰勝 hiQ Labs 的訴訟後進一步收緊資料匯出限制。平台從中立的仲介轉變為數據的房東。

• 監管者將數據重新定義為「個人身份」：在 Clearview AI 案件中，該公司抓取了數十億張社群媒體圖片用於人臉識別，隱私監管機構介入時重點並非版權問題，而是生物識別法規。他們的立場明確無疑：你的臉屬於你自己，即便你公開了它，也不代表可以成為別人的演算法素材。

如今，信號已經無比明確：無授權數據抓取的時代即將終結。

‍

什麼才算「合理使用」（Fair Use）？

許多公司依然習慣以「合理使用」作為通用防禦理由，認為只要不直接轉售原始數據，自己的使用方式就應當是合法的。然而，這其實是對法律的誤解。

法院在評估「合理使用」時，會依據以下四個關鍵因素：

1. 是否具備「轉化性使用」（Transformative Use）：這次使用是否創造了新的意義或功能？單純複製整篇文章或圖片用於訓練系統，並不必然構成轉化性使用。真正的轉化需包含評論、批評、諷刺或顯著的再語境化。默默地「餵入模型」通常無法滿足這一標準。

2. 原始素材的性質（Nature of the Source Material）：素材是創作類還是事實類？使用者生成內容——無論是 Yelp 評論還是個人照片——通常被視為創作表達，享有更高保護。抓取政府的事實數據表是一回事，吞掉別人的人生故事則完全是另一回事。

3. 提取的數量（Amount Taken）：是否只提取了必要部分？合理使用傾向於「精確」而非「海量」。一次性抓取數百萬條內容，幾乎總會被認定為超過合理範圍。

4. 對市場的影響（Market Harm）：該使用是否損害了原內容的經濟市場？如果你的系統讓使用者無需訪問原始來源就能取得答案——例如對付費新聞進行總結——法院可能會認定你在替代原始市場。

這些問題不再只是理論推演，而是正在真實的法律訴訟中被逐一檢驗。

‍

重新定義「公開數據」的法律轉折點

三起具有里程碑意義的案件明確確立了一個核心原則：公開可見，並不代表可以合法使用。這些案件共同推動了數據取得、授權與防禦方式的結構性轉變。

1. 《紐約時報》訴 OpenAI 與微軟：AI 與新聞業之間的首場版權之戰

《紐約時報》起訴 OpenAI 和微軟，指控其在未經許可的情況下使用受版權保護的文章來訓練 GPT 模型。爭議的焦點並不在於 AI 模型是否可以「閱讀」內容，而在於它是否會「復現」內容。法庭文件顯示，GPT 模型曾生成與付費牆後的文章「幾乎逐字一致」的片段。如果法院認定這種行為具有系統性，那麼「轉化性使用」的法律防線可能全面崩潰。一旦 OpenAI 被要求支付授權費用，其他 AI 公司也將被迫跟進。

2. Getty Images 訴 Stability AI：當浮水印成為法律取證工具

Getty Images 在美國和英國同時對 Stability AI 提起訴訟，因為他們發現 AI 生成的圖像中出現了扭曲的 Getty 浮水印。Getty 的論點非常直接：AI 並沒有抹除版權侵權，反而讓它更加顯眼。這些被破壞的浮水印成為證據，證明模型在訓練中使用了受版權保護的素材卻沒有做足抽象處理。如果 Getty 勝訴，視覺內容授權將從「禮貌性行為」升級為「法律義務」。

3. LinkedIn 訴 hiQ Labs：「公開 ≠ 可以隨便拿」的終結

hiQ Labs 是一家分析員工流動情況的初創公司，它抓取了公開可存取的 LinkedIn 個人資料。LinkedIn 發出「停止並終止」（cease-and-desist）通知，引發了一場漫長的法律戰。hiQ 主張抓取是合理的，因為這些頁面是公開的；LinkedIn 則反駁稱此舉違反服務條款，是對合約的破壞。最終，法院支持了 LinkedIn，確立了關鍵先例：服務條款具有合約效力，即使頁面是公開的，也不代表屬於公開領域。