用國際大模型數據會流向海外？首部生成式人工智能立法明確了

Question

**來源：**AI先鋒官![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ca39e06195-dd1a6f-7649e1) *圖片來源：由無界AI工俱生成*由GPT引發的“千模大戰”逐漸進入了“數據決勝局”。“高質量數據”以及“數據量”成為大模型迅速建立壁壘、角逐未來的關鍵。據中信智庫專家委員會主任、中信建投證券研究所所長武超測算，“未來一個模型的好壞，20%由算法決定，80%由數據質量決定。接下來高質量的數據將是提升模型性能的關鍵。”然而事實數據正在變得稀缺。 ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”。一篇聯合研究《Will we run out of data？ 》給出了一個期限：由人類原生的數據，未來可能會越來越稀缺，而高質量的自然語言數據，最快可能在2026年就會被大語言模型耗盡。如何保障源源不斷的數據來供給大模型訓練？國際開源組織和商業巨頭一面不斷嘗試，一面飽受齟齬，數據收集所帶來的產權保護、數據隱私、網絡安全等方面的質疑不絕於耳。今年三月，不少Windows11用戶反饋被“強制彈窗”，提示“你的數據將在你所在的國家或地區之外進行處理”，且沒有“取消”這一選擇，只能點擊“下一步”這一個選項，否則就無法進入系統桌面。此舉引發了Windows操作系統用戶對隱私數據洩露到國外的擔心。對此，微軟表示用戶更新使用Windows11後，會將數據傳出中國。因微軟的軟件註冊中心在美國，ChatGPT整合到Bing搜索和Edge瀏覽器中後，也需要美國數據中心的支持，所以中國用戶的數據可能傳送到國外。微軟的好基友Open AI，在獲益於前者的海量數據之餘，也同樣遭遇著質疑。 6月底，OpenAI遭集體訴訟，被指竊取“大量個人數據”來訓練ChatGPT。馬斯克7月1日以此理由對推特的閱讀條數實行了臨時限制。Alphabet警告員工不可盲目使用聊天機器人，包括其正在全球市場上大力推廣的谷歌Bard。 6月1日，谷歌更新了隱私聲明，敬告用戶“請不要在與Bard的對話中涉及機密或敏感信息。”一方面瘋狂All-in面向全球用戶搭建數據飛輪，另一方面對自己的商業數據慎之又慎，這種“雙標”使得全球大多數企業不得已採取“主動防禦”。三星、亞馬遜等全球多家企業已經開始為AI聊天機器人設置護欄。而微軟和谷歌適時推出了面向商業客戶的對話工具，保證不會將數據吸納至公共AI模型內，只不過客戶需要為此支付高昂費用。關於AIGC使用及獲取數據的方式可能引發的風險，各國監管機構紛紛出手干預。**意大利數據監管機構Garante於2023年3月31日宣布全面禁用ChatGPT**，並禁止OpenAI處理意大利用戶數據，在OpenAI承諾做出相應改進後，ChatGPT恢復了在意大利的服務。隨後，**德國、法國、愛爾蘭也陸續採取應對措施**，西班牙要求歐盟數據保護委員會（EDPB）評估ChatGPT的隱私保護問題，韓國個人信息保護委員會也表示對ChatGPT韓國用戶數據洩露情況展開調查。我國也早早行動。 7月13日，**國家網信辦聯合多部委發布《生成式人工智能服務管理暫行辦法》**（簡稱“《暫行辦法》”）。這是我國首部針對生成式人工智能領域的專門立法。該《暫行辦法》首次明確原則，“對來源於中華人民共和國境外向境內提供生成式人工智能服務不符合法律、行政法規和本辦法規定的，國家網信部門應當通知有關機構採取技術措施和其他必要措施予以處置。”此外，它還明確了本辦法適用的範圍：適用於面向中國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務，並明確將不向境內公眾提供服務的研發、應用活動排除在適用範圍之外。這意味著**境外AIGC服務提供者（無論是模型層還是應用層），無論是直接向境內提供相關服務，還是通過API接口或“封裝”、“嵌套”後提供間接服務，都將受限於《暫行辦法》的相關規定**。對於國內廠商，則是無論是否獲得境外AIGC服務提供商的適當授權，都將適用於《暫行辦法》。數據無國界，數據安全有國界。 《暫行辦法》的出台，為國內大模型科技公司和從事大模型相關的創業者劃定了邊界，並為接下來頒布的《人工智能法》提供經驗參考。對此，學界和企業普遍認為，該《暫行辦法》出台及時，且為中國人工智能發展樹立了信心。除了立法層面，產業也通過自己的努力尋求突破。近半年推出大模型的科技公司紛紛表達了對《暫行辦法》中提到的安全、可信等內容的重視。百度表示，只有建立健全保障人工智能健康發展的法律法規、制度體系、倫理道德，才能營造良好的創新生態。 360提出，要打造“安全可信、可控易用”的專有大模型。阿里雲提出，“構建安全可信的人工智能”逐步成為行業共識。京東雲表示，下一代數字基礎設施，需滿足融合開放、高效協同、極致性價比、安全可控四大特徵。基於地域的產業佈局也早已開始探索。前不久北京對外發布了“數據二十條”，就產業協同，打造數據可信流通體系給出了意見：支持北京經濟技術開發區等開展數據基礎制度先行先試，打造政策高地、可信空間和數據工場。事實上，早在今年5月，北京市經濟和信息化局聯合市科委中關村管委會、市發改委共同啟動了“北京市通用人工智能產業創新夥伴計劃”，如今已經公示了第二期夥伴名單。該計劃期望匯集北京自主可信的創新企業，推動人工智能產業合規、高質發展。名單包含了阿里雲等算力夥伴，北京市大數據中心等數據夥伴，百度等模型夥伴，統信UOS、WPS等應用夥伴，以及IDG、鼎暉等投資夥伴。該計劃囊括了人工智能產業鏈各關鍵節點頭部公司，為對標以open AI+微軟+英偉達的人工智能生態奠定了中國自主可信的生態基礎。。結尾。