【原】生成式人工智能對個人信息保護的挑戰(zhàn)與治理路徑

ChinaAET 2024-05-13 發(fā)布于北京

展開全文

作者：

萬美秀

作者單位：

1.南昌大學法學院

摘要：

以ChatGPT為代表的生成式人工智能技術給各行各業(yè)帶來顛覆性變革，但也引發(fā)個人信息泄露、算法偏見、虛假信息傳播等個人信息侵權危機。傳統(tǒng)“基于權利保護”的路徑過于強調個人信息保護而阻礙人工智能產(chǎn)業(yè)的發(fā)展，“基于風險防范”的路徑則更加凸顯個人信息的合理利用價值，價值選擇上更優(yōu)。但以權利保護和風險保護共同治理，才能實現(xiàn)利益平衡并建立個人信息的長效保護機制。在個人信息處理規(guī)則上，以“弱同意”規(guī)則取代僵化嚴苛的知情同意規(guī)則；在目的限制原則上，以“風險限定”取代“目的限定”；在個人信息最小化原則上，以“風險最小化”取代“目的最小化”。在此基礎上，進一步加強生成式人工智能數(shù)據(jù)來源合規(guī)監(jiān)管，提升算法透明性和可解釋性，強化科技倫理規(guī)范和侵權責任追究。

0引言

以ChatGPT為代表的生成式人工智能掀起了全球第四次科技革命浪潮，成為帶動全球經(jīng)濟增長的新引擎［1］。然而，作為新一代人工智能技術，生成式人工智能在不斷迭代更新與變革生產(chǎn)關系的同時，也帶來了諸多個人信息保護的法律風險。生成式人工智能的運行以海量用戶的個人信息為基礎，在輸入端、模擬訓練端、模擬優(yōu)化端、輸出端等各環(huán)節(jié)都離不開個人信息的使用。在大規(guī)模的數(shù)據(jù)處理和不透明的算法黑箱背景下，生成式人工智能便產(chǎn)生了違法收集個人信息、制造虛假有害信息、算法偏見與歧視等問題。

對此，各國監(jiān)管部門廣泛關注，美國、法國、意大利、西班牙、加拿大等多國政府已宣布對ChatGPT進行調查監(jiān)管，并出臺了相應監(jiān)管規(guī)范。2023年7月10日，我國網(wǎng)信辦等七部門也聯(lián)合發(fā)布了《生成式人工智能服務管理暫行辦法》（以下簡稱“《暫行辦法》”），明確了促進生成式人工智能技術發(fā)展的具體措施，對支持和規(guī)范生成式人工智能發(fā)展作出了積極有力的回應。但需要注意的是，《暫行辦法》對個人信息保護的規(guī)定僅在第4、7、9、11、19條中援引《個人信息保護法》的相關規(guī)定，對使用生成式人工智能技術侵犯個人信息權益呈現(xiàn)出的新問題缺乏專門規(guī)定，而繼續(xù)延用《個人信息保護法》面臨諸多適用困境。如何在促進生成式人工智能技術創(chuàng)新發(fā)展與個人信息安全之間尋求平衡，是新一代人工智能技術向人類提出的時代難題。鑒于此，本文擬以生成式人工智能技術的運行邏輯出發(fā)，分析生成式人工智能對個人信息保護帶來的挑戰(zhàn)，并以《民法典》《個人信息保護法》《暫行辦法》體現(xiàn)的精神為線索，從個人信息保護的治理原則和治理路徑方面展開討論，在此基礎上提出具體治理對策，以期為生成式人工智能技術應用對個人信息保護帶來的系列問題提供初步解決方案，為解決人工智能時代個人信息保護問題作出有益探索。

1生成式人工智能的運行邏輯

目前人工智能技術主要有兩種類型：決策式人工智能/分析式人工智能（Discriminant/Analytical AI）和生成式人工智能（Generative AI）［2］。其中，決策式人工智能是利用機器學習、深度學習和計算機視覺技術來訓練數(shù)據(jù)中的條件概率分布情況并做出決策，判斷樣本數(shù)據(jù)屬于特定目標的概率。而生成式人工智能是利用深度神經(jīng)網(wǎng)絡學習輸入和訓練數(shù)據(jù)，并對已有的大規(guī)模數(shù)據(jù)集進行歸納總結，從中抽象出數(shù)據(jù)的本質規(guī)律和概率分布，再基于這些規(guī)律和概率分布情況生成新的數(shù)據(jù)。2014年提出的“生成式對抗網(wǎng)絡”深度學習模型最具影響力，其通過生成器和判別器使生成的數(shù)據(jù)富有原創(chuàng)性。此后，隨著自然語言處理算法“循環(huán)神經(jīng)網(wǎng)絡”“預訓練語言模型”“Transformer”等技術的突破，生成式人工智能迅速發(fā)展，廣泛應用于內(nèi)容生成、人機交互、產(chǎn)品設計等領域。以ChatGPT為例，由美國OpenAI公司推出的GPT4是以Transformer模型為基礎，預訓練用于預測文檔中的下一個指令，使用公開可用的數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))和第三方提供商許可的數(shù)據(jù)，對來自人類的反饋強化學習模型進行微調［3］。經(jīng)過預先訓練，當用戶輸入問題時，ChatGPT會將問題轉換為計算機數(shù)據(jù)并使用算法模型形成相應的文本、圖片、視頻等數(shù)據(jù)集，通過不斷改進和優(yōu)化，最終從符合要求的數(shù)據(jù)集中輸出具有一定原創(chuàng)性的新內(nèi)容。其運行原理如圖1所示。

圖1生成式人工智能的運行原理

從ChatGPT的底層運行邏輯可以看出，新一代生成式人工智能的發(fā)展得益于算法、算力與數(shù)據(jù)的應用和技術突破。在算法層面，它以預訓練語言模型（LM）作為初始模型生成基本符合要求的內(nèi)容，再收集數(shù)據(jù)并訓練打分模型（BM）以評估生成內(nèi)容是否符合人類的方式，最后通過強化學習（RL）迭代式更新打分模型以生成高質量且符合人類認知的內(nèi)容［4］。在算力層面，生成式人工智能的運行需要有效地執(zhí)行復雜的計算任務并通過不斷訓練和推理來優(yōu)化生成內(nèi)容。在數(shù)據(jù)層面，訓練和優(yōu)化人工智能模型需要大量的數(shù)據(jù)，而運用網(wǎng)絡爬蟲技術便可以獲得來自社交媒體、公共機構、傳感器等多渠道的海量數(shù)據(jù)。因此，生成式人工智能的不斷優(yōu)化與迭代發(fā)展，離不開上述算力、算法與數(shù)據(jù)三駕馬車的驅動，數(shù)據(jù)是生成式人工智能訓練的基礎，算法是生成式人工智能優(yōu)化的核心，算力則為生成式人工智能發(fā)展提供技術支撐和保障。然而，作為生成式人工智能訓練基礎的海量數(shù)據(jù)是開發(fā)者通過各種方式收集的，其中涉及大量的個人信息處理行為，開發(fā)者并沒有完全依據(jù)《個人信息保護法》等相關規(guī)定來處理，給個人信息保護帶來諸多風險和挑戰(zhàn)。

2生成式人工智能對個人信息保護的挑戰(zhàn)

21輸入端：非法抓取與過度收集

生成式人工智能的輸入端是個人信息泄露的源頭，其法律風險主要集中在兩個階段：一是模擬訓練端的初始數(shù)據(jù)庫，二是模擬優(yōu)化端的更新數(shù)據(jù)庫。

從初始數(shù)據(jù)庫來看，生成式人工智能存在大量非法抓取個人信息的“黑歷史”，處理個人信息的告知同意規(guī)則被虛置。我國《個人信息保護法》《民法典》等明確規(guī)定了處理個人信息應當履行告知義務并取得個人同意，合理處理公開的個人信息則無須個人同意，但也應當履行告知義務［5］。以生成式人工智能ChatGPT為例，其初始數(shù)據(jù)庫主要是利用網(wǎng)絡爬蟲技術從公開渠道獲取的2021年之前的數(shù)據(jù)，其中包含大量賬戶信息、社交媒體信息、行蹤軌跡等個人信息。然而大部分用戶并不知曉個人數(shù)據(jù)被用于模擬訓練，更談不上“同意”。在深度學習與無監(jiān)督式學習模式下，大量對個人權益有重大影響的公開個人信息被非法抓取，告知同意規(guī)則形同虛設。據(jù)此，對于現(xiàn)階段已經(jīng)抓取并應用于生成式人工智能模擬訓練的初始數(shù)據(jù)庫，應當如何確保其合理使用并防止對個人權益造成侵害便成為當下亟需解決的難題。

從更新數(shù)據(jù)庫來看，生成式人工智能存在長期過度收集個人信息的“不良行為”，個人信息最小化原則被架空。與人類一樣，生成式人工智能并不能憑借固有的知識體系一勞永逸地生存，其也需要不斷更新數(shù)據(jù)以提高輸出內(nèi)容的準確度和可信度。但事實上，該階段的個人信息收集和處理規(guī)則也并沒有得到貫徹。

第一，目的限制原則面臨適用困境。我國《個人信息保護法》第6條第1款規(guī)定，處理個人信息應當具備明確、合理的目的，并與處理目的直接相關。第17條規(guī)定，處理個人信息發(fā)生變更的應當及時告知。從OpenAI官網(wǎng)公布的企業(yè)隱私政策來看，其宣稱可能將個人信息用于“改善服務、開發(fā)新的項目、防止濫用服務實施犯罪、進行業(yè)務轉讓等目的”［6］，但該表述具有高度的概括性和模糊性，對個人信息的保存期限、刪除、變更告知情況也沒有作出相應說明，用戶只能選擇接受否則便無法繼續(xù)使用。此外，從技術層面看，目前生成式人工智能也無法自動識別“與處理目的有關的信息”，而是采取“一攬子概括協(xié)議”全部抓取，無疑加劇了個人信息權益侵害的風險。

第二，個人信息最小化原則面臨適用困境。根據(jù)《個人信息保護法》第6條第2款規(guī)定，收集個人信息應當限于實現(xiàn)處理目的的最小范圍，即所謂的“個人信息最小化原則”。從OpenAI官網(wǎng)公布的隱私政策第1、2、3條來看，其可以收集包括用戶賬戶信息、通信信息、技術信息、社交信息、輸入或上傳的內(nèi)容信息以及提供的其他任何信息。但諸如訪問設備類型、操作系統(tǒng)、服務互動方式、其他任何可獲取的信息等并非使用生成式人工智能服務所必備的信息，OpenAI公司將所有用戶信息全部囊括其中，顯然屬于過度收集個人信息的行為，違反個人信息最小必要原則。

第三，敏感個人信息處理規(guī)則面臨適用困境?！秱€人信息保護法》將個人信息分為一般個人信息和敏感個人信息，由于敏感個人信息泄露將對個人人身、財產(chǎn)造成嚴重威脅，因而法律規(guī)定了特別處理規(guī)則。根據(jù)《個人信息保護法》第28、29條，處理個人敏感信息應當在特定目的和充分必要的情況下取得個人單獨同意并采取嚴格的保護措施。然而，生成式人工智能在收集用戶個人信息時并未作任何區(qū)分。更為重要的是，其將用戶使用的所有歷史信息傳輸至終端服務器并實時保存于云端，用于未來模型的優(yōu)化訓練。雖然OpenAI官網(wǎng)隱私政策第2條中宣稱ChatGPT收集到的所有個人信息會進行匯總或標識化處理，但第3條隨即指出將與第三方進行共享。而一旦借助第三方額外信息和有關技術手段，即使經(jīng)過匿名化處理的信息仍然具有可識別性［7］。去標識化處理的個人信息將面臨重新識別的風險，由此便加劇了個人信息泄露危機。2023年3月20日ChatGPT就發(fā)生過部分用戶聊天記錄、信用卡付款信息和電子郵件等敏感個人信息泄露事件，引發(fā)各國監(jiān)管部門對個人信息保護的擔憂。由此可見，現(xiàn)行立法對生成式人工智能侵害個人信息權益的行為缺乏專門性規(guī)定，無法給個人提供明確的行為預期。

22模擬訓練端：算法黑箱和過度挖掘

在生成式人工智能的模擬訓練端，離不開算法的運用，而不公開、不透明的“算法黑箱”引發(fā)個人數(shù)據(jù)侵權危機，處理個人信息的公開透明原則難以貫徹。根據(jù)《個人信息保護法》第7條、24條規(guī)定，處理個人信息應當遵循公開透明原則，利用個人信息進行自動化決策的也應當保證決策的透明度和結果公平、公正。而生成式人工智能的算法運行的本質是數(shù)據(jù)輸入、輸出的過程，但在輸入和輸出之間存在無法解釋的“黑洞”，引發(fā)“算法黑箱”問題［8］。更為重要的是，生成式人工智能的算法較此前的人工智能有了進一步提升，其并不遵循傳統(tǒng)算法數(shù)據(jù)輸入、邏輯推理、預測的過程，而是借助于深度學習模型逐漸具備了一定的自主學習、自主決策能力，直接在原始數(shù)據(jù)的基礎上經(jīng)過自主學習而生成新作品［9］。隨著生成式人工智能算法自主學習的頻次不斷增加，算法不斷迭代，導致技術隱層愈發(fā)復雜，而其邏輯又超越了一般大眾所能理解的范圍，加之信息上的不對稱更加深了算法的不透明度與不可理解性，加劇了算法的“黑箱”屬性，顯然無法保障算法背后隱含的結果公平公正，直接違背個人信息處理的公開透明原則。目前ChatGPT至今未曾公布其算法規(guī)則，百度推出的“文心一言”、阿里云推出的“通義千問”等亦未公布，顯然對《個人信息保護法》規(guī)定的公開透明原則提出了嚴峻挑戰(zhàn)。

在模擬訓練和模擬優(yōu)化過程中，生成式人工智能通過深度學習的算法模型對個人信息過度挖掘，使得去標識化的個人信息甚至匿名化信息被重新識別，加劇了個人信息泄露風險。生成式人工智能對個人信息的使用并不局限于傳統(tǒng)人工智能的簡單加工，而是通過極強的推理能力進行深度挖掘，發(fā)現(xiàn)信息主體之間隱藏的內(nèi)在聯(lián)系。如加州大學伯克利分校的一項研究表明，人工智能系統(tǒng)可以分析用戶在 AR 和 VR 環(huán)境中的運動數(shù)據(jù)，從中推斷出數(shù)百個相關參數(shù)，并以驚人的準確性揭示個人信息。事實上，在現(xiàn)有技術條件下即使生成式人工智能訓練數(shù)據(jù)集中沒有某人的個人信息，但結合其他信息在深度挖掘的基礎上也可以推測出其特征，比如性別、年齡、種族、學歷等?？梢?，新一代人工智能表現(xiàn)出極強的自主學習能力、深度合成能力和邏輯推理能力，對個人信息保護帶來極大挑戰(zhàn)。

23輸出端：算法偏見和虛假信息

在生成式人工智能的輸出端，由于算法本身不具有技術中立性，而“算法黑箱”又加劇了算法非中立性，引發(fā)輸出結果偏見。首先，在算法設計上，生成式人工智能的底層算法都是由帶有主觀偏好的開發(fā)者設計的，而開發(fā)者的固有認知偏見不可避免地會形成算法偏見。其次，在深度學習技術上，生成式人工智能的自主學習能力不斷迭代發(fā)展，但機器學習不會對數(shù)據(jù)庫中的信息進行價值取向篩選，導致生成式人工智能形成并加深開發(fā)者嵌入其中的算法偏見。最后，在數(shù)據(jù)來源上，模擬訓練的數(shù)據(jù)質量參差不齊，大量虛假數(shù)據(jù)、缺失數(shù)據(jù)、污染數(shù)據(jù)、不全面數(shù)據(jù)輸入導致最終生成帶有歧視性的內(nèi)容。另外，“算法黑箱”所具有的不公開、不透明性為“算法偏見”披上了合理的技術外衣，導致偏見行為難以被發(fā)現(xiàn)，從而加劇對特定群體的歧視和偏見，也給傳統(tǒng)的平等權保護帶來危機［10］。盡管OpenAI公司在其官網(wǎng)上聲明，ChatGPT已通過算法設置和模擬訓練進行了優(yōu)化，能在一定程度上拒絕用戶不合理的請求，比如生成帶有性別歧視、種族歧視、暴力、血腥、色情等違反法律、公序良俗的內(nèi)容，但事實上，其給使用者和非使用者帶來的風險依然存在。此前亞馬遜便被爆出利用人工智能訓練的算法進行招聘，存在重男輕女的性別歧視問題?？梢姡惴ㄆ姵尸F(xiàn)出種種不合理的區(qū)別對待，引發(fā)深層次的不平等和歧視問題。

在生成式人工智能的輸出端，行為人還可以利用深度偽造、深度合成等技術生成虛假信息來實施侮辱誹謗、造謠傳謠、財產(chǎn)詐騙等犯罪，《個人信息保護法》第7條規(guī)定的個人信息真實性、準確性無法得到保障。由于生成式人工智能對輸入數(shù)據(jù)的真實性和準確性并沒有甄別能力，因此它也并不保證輸出結果的真實性和準確性，可能出現(xiàn)“一本正經(jīng)地胡說八道”、輸出“正確的廢話”、制造虛假新聞等問題，從而侵犯個人信息權益。更為重要的是，這一缺陷很容易被不法分子利用來實施犯罪。2023年4月25日甘肅洪某便利用人工智能技術炮制了一則“今晨甘肅一火車撞上修路工人，致9人死亡”的虛假信息牟利被警方立案調查。可見，生成式人工智能的出現(xiàn)導致大量虛假信息的生成和傳播，侵害個人信息權益，引發(fā)嚴重的社會問題。

生成式人工智能對個人信息保護的挑戰(zhàn)如圖2所示。

圖2生成式人工智能對個人信息保護的挑戰(zhàn)

3生成式人工智能背景下個人信息保護的治理路徑

31“權利保護”與“風險防范”共同治理

基于上述，生成式人工智能對個人信息保護帶來諸多風險和挑戰(zhàn)。對此，《民法典》《個人信息保護法》《暫行辦法》規(guī)定的傳統(tǒng)個人信息保護規(guī)則均面臨適用困境。究其根源，在于個體主義與靜態(tài)化的個人信息保護進路難以適應科技的發(fā)展，亟需尋求更為合理的個人信息保護制度緩和二者之間的張力?；谝匀藶楸镜睦砟睿髲娀瘋€人信息保護；基于促進和規(guī)范人工智能產(chǎn)業(yè)的發(fā)展、鼓勵創(chuàng)新的理念，要求對個人信息保護進行一定限制。因此，唯有正確認識并協(xié)調個人信息保護與生成式人工智能創(chuàng)新發(fā)展之間的關系，才能讓人工智能更好地服務于經(jīng)濟的發(fā)展和社會的進步。

從總體監(jiān)管原則來看，世界各國對生成式人工智能的發(fā)展存在“保守”與“開放”兩種立法態(tài)度，并出臺了相應法律法規(guī)進行規(guī)制。歐洲國家基于兩次世界大戰(zhàn)及法西斯大規(guī)模嚴重侵害人權的慘劇，高度重視人格尊嚴與人格自由等基本人權的保護［11］，因此，長期以來對人工智能的監(jiān)管較為謹慎，采取“先規(guī)范后發(fā)展，穩(wěn)步推動監(jiān)管”的治理原則，以《通用數(shù)據(jù)保護條例》《可信AI倫理指南》確立了歐盟地區(qū)人工智能發(fā)展的倫理框架，以《人工智能法》《可信賴的人工智能倫理準則》進一步加強了可操作化法律規(guī)制。美國則基于ChatGPT產(chǎn)生的巨大影響以及維持自身在人工智能領域國際領先地位的需要，對人工智能的治理相對開放，采取“審慎監(jiān)管以促進產(chǎn)業(yè)創(chuàng)新”的治理原則，相繼出臺《美國人工智能倡議》《人工智能能力和透明度法案》等以企業(yè)自我規(guī)制和政府規(guī)制相結合推進人工智能產(chǎn)業(yè)發(fā)展［12］。從我國《暫行辦法》第3條來看，我國對生成式人工智能的發(fā)展總體上秉持開放包容的態(tài)度，穩(wěn)步推進人工智能產(chǎn)業(yè)的發(fā)展。一方面，堅持以人為本的理念保障基本人權，維護個人信息和個人利益以實現(xiàn)個人自治。另一方面，兼顧人工智能時代個人信息利用的新環(huán)境和新方式，對個人信息保護作出必要限制以維護公共利益和社會利益。換言之，在個人信息相對安全的前提下調整個人信息強保護規(guī)則，合理開發(fā)和利用個人信息以推動人工智能產(chǎn)業(yè)的發(fā)展，從而在個人權益保護與企業(yè)利益維護之間尋求平衡。

從具體個人信息保護規(guī)則來看，生成式人工智能背景下我國個人信息保護存在“基于權利保護”與“基于風險防范”兩種路徑。其中，“基于權利保護”路徑源于美國1973年誕生的公平信息實踐原則，其通過對個人進行信息賦權和對信息處理者施加義務的方式保障個體行使控制性權利［13］。但由于個人信息不僅關系到個人利益，還具有公共性和社會性［14］，個人信息強保護的規(guī)則難以維護公共利益并適應人工智能時代的發(fā)展。因此，一種“基于風險防范”的方法被提出，并逐步應用于各國個人信息保護的立法。2013年，知名智庫數(shù)字歐洲提出了改革歐盟個人數(shù)據(jù)保護法的方案，從強化企業(yè)負責性而非信息主體的控制權利切入，要求企業(yè)設計規(guī)則防止風險的發(fā)生［15］。其后歐盟《通用數(shù)據(jù)保護條例》在修改其個人數(shù)據(jù)保護法時,就引入了這種“基于風險”(risk-based)防范的方法。在歐盟《人工智能法案》中也確立了以風險分級治理的規(guī)制路徑并對各等級進行差異化監(jiān)管。我國制定的《個人信息保護法》也體現(xiàn)了“基于風險”防范的理論。比如將個人信息區(qū)分為“一般個人信息”與“敏感個人信息”并且分別規(guī)定了不同的處理規(guī)則，實際上就隱含了一種先驗的、抽象于具體場景的風險推定，即對敏感個人信息的處理可能對個人和社會產(chǎn)生較為嚴重的不利影響［16］。

筆者認為，“基于風險防范”理論能夠更好地應對生成式人工智能對個人信息權益侵害帶來的系列問題，適用該理論具有正當性。第一，《暫行辦法》體現(xiàn)了我國政策制定者嘗試從“基于風險防范”的治理路徑出發(fā)解決生成式人工智能帶來的個人信息保護難題。從《暫行辦法》第5條第2款可以看出，個人信息處理者仍有義務采取適當措施來防范個人信息處理過程中可能出現(xiàn)的各種社會風險。從某種意義上看，該政策的出臺也為未來人工智能領域法律的制定及風險防范理論的應用提供了有效指引。第二，“風險社會”要求“風險控制”。當代社會是一個“風險社會”，風險無處不在、不可預測且常常帶來難以彌補的損害。一旦生成式人工智能收集的個人信息被泄露或不當使用，將給個人信息主體帶來不可逆轉的損害。因此，改變以往單一的賦權保護模式和事后追責機制，從風險防范的角度強化事先風險預防更具有制度優(yōu)勢，即從風險控制的維度構建個人信息的全面保護制度，強化信息處理者的風險防范責任與信息主體的個人預防責任。第三，“基于風險防范”的路徑有利于實現(xiàn)利益平衡，促進人工智能產(chǎn)業(yè)的發(fā)展。相較而言，“基于權利保護”路徑對個人信息進行“強保護”而忽視了個人信息的合理利用價值，無法應對新時代的發(fā)展和風險日益突出的現(xiàn)代社會個人信息侵權危機?！盎陲L險防范”路徑則是一種折中治理方案，通過適當擴張個人信息合理利用的范圍，從風險控制的角度強化信息處理者的風險防范義務與信息主體的個人風險責任，并對具體場景可能發(fā)生的風險進行事先預防與責任分配，在預防風險的發(fā)生與事后救濟上價值選擇更優(yōu)。但需要注意的是，本文主張的“基于風險防范”的治理路徑并非完全拋開“基于權利保護”來談，而是弱化“強權利”保護模式以實現(xiàn)個人信息的合理利用價值。誠然，個人信息權益作為自然人最基本的人格權，仍然應當?shù)玫交镜臋嗬Ｗo。堅持“基于權利保護”和“基于風險防范”兩種路徑共同治理，才能實現(xiàn)各主體的利益平衡，構建個人信息的長效保護機制。

32構建數(shù)據(jù)來源合規(guī)監(jiān)管機制

解決生成式人工智能輸入端的非法抓取和過度收集個人信息問題，要從數(shù)據(jù)源頭預防，建立數(shù)據(jù)來源合規(guī)監(jiān)管機制。對于初始數(shù)據(jù)庫，由于信息權利人已經(jīng)喪失了個人信息的自主控制權，應當尋求事后補救措施來維護其合法權益。第一，在技術層面上，服務提供者應當采取嚴格的保護措施防止個人信息泄露。比如對已經(jīng)去標識化的信息采取脫敏、加密等技術手段進一步匿名化，使其無法重新識別到特定自然人。第二，在侵權責任承擔上，要考慮生成式人工智能事先未經(jīng)許可收集個人信息存在過錯、對侵權行為發(fā)生沒有盡到必要注意義務、事后未采取補救措施等因素對其加重處罰。倒逼服務提供者對已經(jīng)收集而未經(jīng)許可獲取的個人信息原始數(shù)據(jù)庫定期開展合規(guī)監(jiān)測，強化其個人信息安全保障義務。

對于更新數(shù)據(jù)庫，服務提供者也應當強化數(shù)據(jù)來源合規(guī)監(jiān)管，嚴格遵循個人信息收集處理規(guī)則。第一，建立個人信息的影響評估機制。我國《個人信息保護法》第55條明確了個人信息處理者對特定個人信息處理的事先評估義務，其中包括處理敏感個人信息、對個人權益有重大影響的情形。個人信息影響評估是服務提供者處理個人信息的前提，也是其持續(xù)、穩(wěn)定經(jīng)營的基礎。因此，服務提供者應當在個人信息處理前開展影響評估，自行評估爬取的數(shù)據(jù)來源是否合規(guī)，是否侵犯個人信息權益、他人知識產(chǎn)權、公平競爭權益等，根據(jù)不同影響采取相應保護措施。第二，構建個人信息分類分級監(jiān)管機制?！稌盒修k法》第3條、第16條兩次提到“分類分級監(jiān)管”，但并未具體說明。筆者認為，服務提供者在收集個人信息時，應當區(qū)分不同類型的個人信息，并確立不同的信息處理機制：（1）區(qū)分一般個人信息與敏感個人信息。對于一般個人信息的處理，僵化嚴苛的知情同意原則難以適應維護公共利益和數(shù)字經(jīng)濟發(fā)展的需要［17］，應當在個人信息保護與利用之間建立“弱同意”規(guī)則并采用“基于風險防范”路徑要求服務提供者事先評估個人信息處理行為的合法性、合規(guī)性和合理性。在目的限制原則上，以“風險限定”取代“目的限定”，企業(yè)對個人信息的后續(xù)利用在不超過“原有程度、用戶無法預測”的風險范圍內(nèi)無須用戶再次授權，將風險控制在實現(xiàn)特定目的的合理水平。在個人信息最小化原則上，以“風險最小化”取代“目的最小化”，企業(yè)對個人信息的二次利用應當采取匿名化等措施將風險降至實現(xiàn)目的的最低水平［18］。但對于敏感個人信息則嚴格遵循告知同意規(guī)則，避免造成人格權益侵害。在必要情況下處理敏感個人信息的，嚴格采取匿名化等脫敏、加密技術措施，而非簡單的去標識化處理。（2）區(qū)分對個人權益有重大影響與對個人權益無重大影響。服務提供者在信息處理之前，應當對個人信息進行風險評估。對個人權益有重大影響的，嚴格遵循告知同意規(guī)則取得個人單獨同意。對個人權益無重大影響的，無需取得個人單獨同意，但仍應當采取技術措施防止對個人權益造成侵害。第三，定期開展企業(yè)數(shù)據(jù)合規(guī)監(jiān)測。生成式人工智能服務提供者應當建立長期的個人信息處理風險防范機制，定期對產(chǎn)品或服務中涉及個人信息處理的行為進行合規(guī)審查，發(fā)現(xiàn)潛在風險或安全隱患的及時采取必要措施加以防范。

33提升算法的透明性和可解釋性

生成式人工智能模擬訓練端存在的“算法黑箱”問題，本質在于復雜的算法既無法觀察，也難以為常人所理解。因此治理“算法黑箱”首先要打開“黑箱”，推動算法的公開化和透明化。但需要注意的是，算法的公開化、透明化并不意味著要公開算法的具體代碼、編程等，而是要對算法作出必要說明和解釋［19］。其原因在于，一方面，算法的源代碼異常復雜，即使公開公眾也很難理解，公開甚至會引發(fā)黑客攻擊、被不法分子利用實施犯罪。另一方面，算法的公開成本較大，大部分涉及公司商業(yè)秘密，企業(yè)基于自身利益一般不會自覺公開。因此，推動生成式人工智能算法的透明化，要從算法的設計、算法功能、算法風險、算法邏輯、算法種類等涉及用戶重大利益的方面進行公開說明，接受算法監(jiān)管部門的審查和社會的監(jiān)督，以保障算法公平、公正、負責。其次，要加強算法的可解釋性。由于算法具有高度的技術性和復雜性，僅僅憑借公開難以令公眾知曉算法背后的決策，因此要加強算法的可解釋性，利用算法的可解釋性技術最大程度揭示算法開發(fā)的過程、結果和應用經(jīng)過，揭開算法自動化決策內(nèi)部群體不平等的面紗［20］。比如歐盟《通用數(shù)據(jù)保護條例》第12條就規(guī)定了算法控制者負有以“簡潔、透明、易懂、易獲取并清晰直白的語言”提供信息的義務。換言之，算法解釋必須以能夠為一般人所知曉的程度來開展，否則算法解釋就失去了意義。當然，對算法可解釋性適用范圍、技術要求等仍有待進一步研究。最后，引入第三方進行算法監(jiān)管。探索引入第三方獨立組織、支持學術性組織、非營利機構等專業(yè)機構對算法進行評估、審查、備案等，化解“算法黑箱”帶來的個人信息侵害風險，實現(xiàn)算法安全、可控。目前德國已經(jīng)發(fā)展出了由技術專家和資深媒體人挑頭成立的非營利性組織以評估和監(jiān)控影響公共生活的算法決策過程［21］。美國紐約州也頒布了《算法問責法案》要求將公民組織代表納入監(jiān)督自動化決策的工作組，以確保算法公開和透明［22］。我國目前針對算法的監(jiān)管尚有不足，建立第三方獨立機構監(jiān)管有待進一步探究。此外，對個人信息過度挖掘問題同上述數(shù)據(jù)來源合規(guī)方面的監(jiān)管機制類似，應當在生成式人工智能算法設計中進一步限制個人信息抓取的范圍、目的和方式，以法律規(guī)制手段防范技術風險。

34強化倫理規(guī)范和侵權責任追究

在生成式人工智能的輸出端，算法偏見引發(fā)輸出結果歧視，嚴重侵害個人信息權益。唯有對算法偏見善加治理，才能更好地利用算法造福人類。而算法偏見之所以會轉化為算法歧視，本質在于人的作用，算法的開發(fā)者和使用者要為算法歧視負責［23］。因此，緩解算法偏見帶來的算法歧視，其根源在于優(yōu)化人工智能的倫理治理，堅持“以人為本”和“科技為民”的理念對人工智能進行開發(fā)設計?！稌盒修k法》第4條亦對此作出了回應。提供和使用生成式人工智能服務應當遵守倫理道德要求。第一，完善人工智能行業(yè)道德倫理規(guī)范，加強算法設計者的倫理審查和考核。通過定期開展科研倫理培訓等對算法設計者的行為進行約束以強化其道德自律，并進一步提高算法設計者的行業(yè)準入門檻。第二，構建算法備案審查制度，強化事前監(jiān)督。在算法研發(fā)后投入使用之前要求其向有關監(jiān)管部門報備，經(jīng)初步審查符合要求的準予進入市場應用，不符合要求的予以退回。通過監(jiān)管部門的事前監(jiān)督，可以有效防范存在嚴重偏見的算法投入市場。第三，建立算法分類分級管理和風險監(jiān)測制度，健全問責機制。服務提供者要對算法進行分類分級管理，規(guī)制“信息繭房”導致的算法歧視。從損害結果出發(fā)，按照“誰設計誰負責，誰主管誰負責”的標準進行事后問責，從源頭上遏制與預防算法歧視［24］。第四，健全人工智能倫理風險評估機制，嚴格進行倫理規(guī)范審查。對于嵌入生成式人工智能的算法模型，服務提供者要開展自查和定期評估，梳理倫理風險的來源、種類、原因等并制定相應風險應對方案。算法設計要秉持平等、公平的理念，防止設計人員利用算法進行歧視。

對于生成式人工智能輸出端帶來的虛假信息治理問題，本質也是人的作用。行為人的非法目的誘使其利用生成式人工智能作為輔助工具制造或傳播虛假信息、實施犯罪。因此，規(guī)制生成式人工智能帶來的虛假信息問題，應當從侵權責任的事先預防、事中控制和事后處理入手。第一，在事先預防上，對生成式人工智能生成作品進行深度合成標識。生成式人工智能服務提供者要嚴格依據(jù)《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》《暫行辦法》等規(guī)定，對深度合成內(nèi)容進行標識和分類分級管理，對生成內(nèi)容中可能引起公正混淆或誤認的內(nèi)容作出風險提示，推動生成式人工智能的透明化。使用深度合成標識技術，也可以有效追蹤虛假信息來源，提高虛假信息識別率，同時追究相關責任人的主體責任。第二，在事中控制上，建立多元主體協(xié)同共管機制。考慮政府、人工智能企業(yè)、用戶等主體在虛假信息的生成、傳播與治理中的行為模式和參與度，建立平衡各方利益的監(jiān)管機制。第三，在事后處理上，合理分配各方責任。生成式人工智能的研發(fā)者、使用者、服務提供者等主體在各自過錯范圍內(nèi)承擔虛假信息生成、傳播的法律責任?；诠膭顒?chuàng)新的理念，適用過錯責任原則，同時基于生成式人工智能侵害個人信息權益的侵權主體多元性，需要根據(jù)具體情況分析各方主體責任，對服務提供者類推“通知刪除”規(guī)則［25］。由此，進一步完善利用生成式人工智能侵害個人信息權益的侵權責任追究制度。

綜上，生成式人工智能下個人信息保護的治理路徑如圖3所示。

圖3生成式人工智能下個人信息保護的治理路徑

4結論

放眼全球，生成式人工智能的技術革新給世界各國帶來了巨大的發(fā)展機遇，但與此同時也引發(fā)了個人信息泄露、算法偏見、虛假信息傳播等諸多個人信息侵權危機。究其本質，在于如何平衡個人信息權益保護與科技創(chuàng)新發(fā)展之間的關系。“基于權利保護”路徑過于強調個人信息保護，僵化嚴苛的告知同意規(guī)則難以適應人工智能時代的發(fā)展，“基于風險防范”路徑則適度擴張個人信息合理利用的范圍并綜合考慮各責任主體的風險防范義務，具有穩(wěn)定性和前瞻性。但應對生成式人工智能對個人信息保護帶來的挑戰(zhàn)，權利保護和風險防范是兩個不可或缺的維度。堅持以人為本和鼓勵科技創(chuàng)新發(fā)展的理念，要進一步加強生成式人工智能輸入端、模擬訓練端、模擬優(yōu)化端、輸出端等各環(huán)節(jié)的風險管控，實現(xiàn)個人信息保護與利用之間的平衡。著眼于未來，我們要更加關注科技發(fā)展給倫理道德、人格權保護帶來的系列沖擊，加強人格權保護制度研究，以實現(xiàn)保障基本人權與科技進步之間的平衡。

文章來源：《網(wǎng)絡安全與數(shù)據(jù)治理》雜志2024年4月刊