重磅干貨,第一時間送達 我做了一個機器學習示例,它使用了曾經(jīng)最受歡迎的ImageNet 數(shù)據(jù)集,這是目前每個機器學習從業(yè)者都知道的經(jīng)典圖像分類問題。這是一張圖片,對1000個類別中的哪一個進行分類。 但這次我注意到了一些奇怪的地方,首先網(wǎng)站崩潰了,當它恢復時,一切都變了,ImageNet 維護者修改了數(shù)據(jù)集中的每一張圖像,以模糊人臉。 這一決定背后的理由是崇高的,他們想讓數(shù)據(jù)集更具“隱私意識”。今天,大多數(shù)最先進的計算機視覺模型都在 ImageNet 上進行了預訓練,它們所呈現(xiàn)的自然情境和對象為大多數(shù)計算機視覺問題提供了強有力的基礎。 研究小組發(fā)布的一篇關于ImageNet中人臉模糊處理的研究報告,告訴了我們原因。日常圖像共享,通常包含敏感信息,向公眾發(fā)布大型數(shù)據(jù)集顯然會帶來許多潛在的巨大隱私風險。由于 ImageNet 的挑戰(zhàn)不是識別人,而是識別物體,因此團隊決定進一步模糊數(shù)據(jù)集中人的面孔,最后,他們修改了 243,198 張圖片。 我們很難找到一個不同意保護人們隱私的人,數(shù)化據(jù)匿名是數(shù)據(jù)科學的核心部分,可以保護從個人身份到健康記錄的所有內(nèi)容。 在機器學習中,我們有機會以安全為核心。互聯(lián)網(wǎng)起源于一個不同的時代,在這個時代,安全和隱私是人們事后才想到的,互聯(lián)網(wǎng)的創(chuàng)造者看不到所有可能出錯的事情。但是今天,我們可以看到這些問題離我們很近,我們現(xiàn)在可以通過將隱私和安全作為數(shù)據(jù)科學的核心來解決這些問題。 但是有一個問題,如果我們想把隱私保護作為機器學習的中心,那么我們必須接受我們的數(shù)據(jù)會不斷變化,并導致我們面臨更大的問題。 機器學習中存在再現(xiàn)性危機,而且這種危機只會越來越大。 Nature 2016 年再現(xiàn)性調(diào)查主要結(jié)果 再現(xiàn)性是科學方法的基礎,為了從化學和量子力學方面獲得可靠的見解,我們依賴于再現(xiàn)性,機器學習也不例外。作為計算機視覺背后的主要技術,神經(jīng)網(wǎng)絡在規(guī)模和復雜性上都有了巨大的發(fā)展,通常需要大量的GPU集群、大量的數(shù)據(jù)集,以及對訓練過程進行微妙的調(diào)整,而這些往往沒有在出版物中報道。即使發(fā)布了源代碼,復制研究的成本也可能使除了資金最雄厚的機構之外的所有機構都無法實現(xiàn)。 這個問題在機器學習研究中變得如此普遍,以至于 2019 年神經(jīng)信息處理系統(tǒng) (NeurIPS) 會議引入了一個再現(xiàn)性檢查表,其中包含“數(shù)據(jù)集或模擬環(huán)境的可下載版本的鏈接”。 因此,我們遇到了困難,如果我們不能使用用于訓練模型的原始數(shù)據(jù)集,我們就無法復制它。我們可以在新數(shù)據(jù)集上重新訓練模型,但我們無法復制或與之前的研究進行比較。 這意味著所有建立在原始 ImageNet 上的模型現(xiàn)在都無法重新創(chuàng)建。十多年來每個人都引用和依賴的挑戰(zhàn)不再能夠作為標準的計算機視覺基準,因為數(shù)據(jù)集不一樣。由于缺乏可再現(xiàn)性,ImageNet 已淪為基準計算機視覺數(shù)據(jù)集。 這就把我們帶到了問題的關鍵,我們?nèi)绾卧谠试S數(shù)據(jù)包含隱私變更的同時保持再現(xiàn)性? 我們必須開始將數(shù)據(jù)放在首位,數(shù)據(jù)集開發(fā)階段不再只是模型開發(fā)之前的一步,這是一個持續(xù)的過程,對我們的數(shù)據(jù)集的更改是不可避免的。從減少偏差到提高準確性,對我們的數(shù)據(jù)集的修改是不可避免的,我們需要接受數(shù)據(jù)更改而不是避免數(shù)據(jù)更改。 但這是否意味著我們失去了再現(xiàn)性?如果我們從一開始就考慮到這一點,那就不會了。我們已經(jīng)習慣了這種代碼思維方式,我們知道它是動態(tài)的,它會改變的。多人將就此進行合作,預計會有新功能、錯誤修復、性能改進的變化,我們也需要將這種想法擴展到數(shù)據(jù)。 但與在軟件開發(fā)中編寫代碼不同,在機器學習中,我們有兩個移動的部分,代碼和數(shù)據(jù),它們生成我們的模型。我在完成機器學習循環(huán)中寫了大量關于這個主題的文章,重點是,我們需要支持能夠在下圖所示的每個“兩個循環(huán)”中進行迭代的流程和工具。 機器學習生命周期中的“兩個循環(huán)”。在機器學習開發(fā)中,我們有兩個移動部分需要組合在一起來生成我們的模型:代碼和數(shù)據(jù)。兩個循環(huán)代表每個循環(huán)的開發(fā)生命周期,每個循環(huán)都在不斷迭代。 我們不僅需要能夠迭代,還需要跟蹤所有移動的部分以獲得再現(xiàn)性。需要捕獲對數(shù)據(jù)集的每次修改以及代碼中的任何新訓練技術,以再現(xiàn)由它們生成的模型,當我們的數(shù)據(jù)發(fā)生變化時,我們需要我們的實驗過程來更新。 這就是Pachyderm 等工具的用處,Pachyderm 是一個具有內(nèi)置版本控制和數(shù)據(jù)沿襲功能的數(shù)據(jù)科學和處理平臺,它的核心是數(shù)據(jù)版本控制,以支持數(shù)據(jù)驅(qū)動的管道。它的功能就像一個“生命系統(tǒng)”,管道依靠輸入數(shù)據(jù)來告訴它們何時開始。在我們的例子中,每當數(shù)據(jù)集被修改時,機器學習模型都會被訓練,從而保持數(shù)據(jù)的安全性和模型的相關性。 當新的模糊人臉圖像提交到版本化數(shù)據(jù)存儲庫時,連接的管道會自動重新運行,以保持整個系統(tǒng)的可重現(xiàn)狀態(tài)。 如果將 ImageNet 組織為 Pachyderm 中的數(shù)據(jù)集,則隱私感知版本可能會覆蓋原始數(shù)據(jù)集。任何連接的模型訓練管道,無論是原始 AlexNet 代碼還是最先進的預訓練模型,都將自動在新數(shù)據(jù)集上運行,為我們執(zhí)行的任何實驗提供完全可復制的模型,允許我們的數(shù)據(jù)更改并保持我們的再現(xiàn)性。 像 Pachyderm 這樣將數(shù)據(jù)放在首位并考慮變化的工具對于將數(shù)據(jù)隱私引入 AI 來說至關重要,沒有它們,我們會發(fā)現(xiàn)自己迷失在不斷變化的數(shù)據(jù)和代碼的復雜性中。 在現(xiàn)代化的世界中,數(shù)據(jù)隱私對于保護我們的安全至關重要。但是,數(shù)據(jù)隱私的改進往往是以犧牲再現(xiàn)性為代價的。 通過采用支持更改的工具,我們可以在不損害再現(xiàn)性的情況下將隱私更改納入我們的數(shù)據(jù)集。Pachyderm 一直是我們管理不斷變化的數(shù)據(jù)的首選工具,它極大地提高了在我的機器學習系統(tǒng)上迭代的可靠性和效率,這些類型的工具對于為 AI 的安全和可靠的未來鋪平道路至關重要。 |
|