AI基礎(chǔ)設(shè)施革命:關(guān)于數(shù)據(jù)隱私保護(hù)和價值挖掘的實踐思考
這里面一個有意思的地方在于,有一些數(shù)據(jù)并不是嚴(yán)格意義上的被公開數(shù)據(jù),或者說只希望在某個特定范圍內(nèi)被公開。舉例來說社區(qū)的運營者可能只希望社區(qū)的用戶生成內(nèi)容(UGC)在社區(qū)內(nèi)進(jìn)行公開,而不希望流傳到互聯(lián)網(wǎng)上。典型的這類意愿的表述形式有類似于Robots exclusion standard,主要用于向爬蟲聲明網(wǎng)站中哪些內(nèi)容不能被讀取。
除此之外公開數(shù)據(jù)還有可能僅僅是可以被讀取而不能希望被存儲的,舉例來說比如社交網(wǎng)站中的朋友清單。朋友清單被存儲和對比之后就可以得到諸如”哪些朋友取消了對我的關(guān)注“這樣的信息,這里面也存在可能侵害了別人的個人隱私的問題。一般為了防范這樣的越界爬取行為,公司可能會有針對性的組織自己的反扒竊(anti-scraping)系統(tǒng),在協(xié)議范疇之外對數(shù)據(jù)的控制力賦予提供保障。
綜上所述我們可以看到,賦予數(shù)據(jù)的控制力長久以來都面臨許多挑戰(zhàn)。且除了第一方數(shù)據(jù)外,沿著數(shù)據(jù)鏈條向下走,這種挑戰(zhàn)會逐漸增加。這種現(xiàn)象很大程度上源于數(shù)據(jù)作為一種抽象存在,不同于普通物品的可以被復(fù)制,而被復(fù)制的數(shù)據(jù)的控制力將會被重新的定義和賦予。
因此在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),可以很大程度上降低在整個鏈條上管理控制力的成本。需要研究的不是如何把數(shù)據(jù)的鏈條切段,而是如何在鏈條的各個環(huán)節(jié)上更好的完成數(shù)據(jù)控制力的精細(xì)化管理。
新的產(chǎn)業(yè)機會 — 數(shù)據(jù)流通鏈條中控制力管理的技術(shù)實踐前面提到,解決數(shù)據(jù)流通鏈條中賦予數(shù)據(jù)控制力的問題,主要的方式是針對不同類型的數(shù)據(jù)采取不同的方式,從宏觀上減少數(shù)據(jù)使用就要復(fù)制的情況出現(xiàn)。那么,在具體實踐里,針對個人數(shù)據(jù)的隱私保護(hù),又有哪些宏觀分類要素與技術(shù)手段呢?
宏觀來看,數(shù)據(jù)可以分為個人識別信息(PII)和用戶特征值兩類。PII是指像可以在很高精度上在公開環(huán)境下定位一個人的數(shù)據(jù),比如像美國的SSN,國內(nèi)的身份證號,郵件地址,甚至有可能是電話號碼。用戶特征值基本可以理解為除了PII以外其它的圍繞個人行為特征或個人特性(如生物統(tǒng)計學(xué)數(shù)據(jù),人口統(tǒng)計學(xué)數(shù)據(jù)等)的數(shù)據(jù)了。用戶特征值往往是數(shù)據(jù)挖掘產(chǎn)生價值的對象,而PII則是扮演著將多個特征值統(tǒng)一在一起的角色,由PII形成的圖是數(shù)據(jù)鏈條上公司間進(jìn)行數(shù)據(jù)融合的橋梁。
可以看出,對PII的控制是數(shù)據(jù)鏈條中形成控制的關(guān)鍵,沒有PII的兩個數(shù)據(jù)集是很難整合在一起使用的。針對PII的控制一般被稱為De-identification,目前主要有比如脫敏(Data Masking),匿名(Anonymization)和k-匿名(k-anonymization)由弱到強三種比較常見的方式。
脫敏基本是將比如身份證的一部分隱去,從而在可以接近識別的前提下盡量保護(hù)數(shù)據(jù)的隱私,類似于對一般數(shù)據(jù)處理中的泛化技術(shù)。拋開脫敏過程中的信息丟失不談,這種方法顯然是缺乏足夠的安全性的。因為只要存儲和沉淀這樣的masked data,就可以最終反推出原始數(shù)據(jù)的內(nèi)容來,因此脫敏的方法在隱私要求比較高的環(huán)境中已經(jīng)不再使用了。
匿名指修改或者移除個人身份信息,隱藏數(shù)據(jù)和個人的對應(yīng)關(guān)系。一般的數(shù)據(jù)源會自己生成并管理這種對應(yīng)關(guān)系,由于個人身份信息的完全隱藏,安全性也會遠(yuǎn)高于直接對原始PII進(jìn)行脫敏。同時的對于使用PII來關(guān)聯(lián)數(shù)據(jù)集的這一屬性,也可以靠修改內(nèi)部的對應(yīng)關(guān)系來組織使用匿名數(shù)據(jù)在外部進(jìn)行數(shù)據(jù)集關(guān)聯(lián)的操作。
k-匿名在匿名的基礎(chǔ)之上提出了個人識別不僅限于PII,任何數(shù)據(jù)形成的集合都能在一定程度上識別出一個人來,k在這里指的是用這個數(shù)據(jù)集進(jìn)行識別時可以將識別的人群縮小為數(shù)量為k的集合。k-匿名是目前通用標(biāo)準(zhǔn)中較高的一類,其中k的值越高,隱私保護(hù)的效果越好,在Google和Facebook的內(nèi)部數(shù)據(jù)管理中都有大量的使用。
用戶特征值數(shù)據(jù)主要在價值挖掘中被體現(xiàn),使用的方法宏觀上可以分為使用原始數(shù)據(jù)和使用統(tǒng)計數(shù)據(jù)兩類。比如某人在某時某地進(jìn)行了某次購物可以被認(rèn)為是原始數(shù)據(jù),那么某人在過去的一天里進(jìn)行了3次購物可以被認(rèn)為是統(tǒng)計數(shù)據(jù)。在很多情況下避免原始數(shù)據(jù)的直接使用是不太影響價值挖掘的同時可以更好的保護(hù)原始數(shù)據(jù)的。
類似的,在鏈條中傳遞用戶特征數(shù)據(jù)時所使用的控制方法也比較多,常見的就有泛化(比如給定一個范圍而不是具體的數(shù)值),統(tǒng)計(如前所述),加密(比如同態(tài)加密),差分隱私(比如給定的數(shù)值是原始數(shù)值的基礎(chǔ)上增加一個噪音),合成(比如將原始數(shù)據(jù)轉(zhuǎn)化為代表所需知識的模型或者由模型生成不同于原始數(shù)據(jù)的新數(shù)據(jù))等等。
涉及多方數(shù)據(jù)的安全運算環(huán)境的方式可以從多種角度來劃分。比如從是否存在可信的第三方(或者對于該第三方的信任成本有多大)來談,使用比如GC或者OT來實現(xiàn)的MPC可以實現(xiàn)完全沒有可信第三方的環(huán)境,而基于某些同態(tài)加密設(shè)計或者可信硬件的環(huán)境一般是強依賴于對于第三方的可信度的,而可信硬件環(huán)境還存在信任硬件產(chǎn)品供應(yīng)方這一個額外的信任成本。
除了上述的兩類(MPC和可信硬件)之外,也存在許多其它方式在聯(lián)合運算中保護(hù)原始數(shù)據(jù)的方法,其中就有比如合成數(shù)據(jù)(比如通過將原始數(shù)據(jù)轉(zhuǎn)換為模型),比如差分隱私(巧妙的選擇在原始數(shù)據(jù)上面增加噪聲從而在保護(hù)原始數(shù)據(jù)敏感性的前提下不會過多的干涉運算本身),還有比如傳統(tǒng)的泛化(只傳輸包含原始數(shù)據(jù)的一個范圍)等多種方式。
在實際應(yīng)用之中,一般會考慮數(shù)據(jù)的泄露危害程度(比如PII數(shù)據(jù)的泄露會造成連鎖的數(shù)據(jù)泄露反應(yīng)),數(shù)據(jù)是否容易被沉淀(比如高時效性的數(shù)據(jù)相對不那么容易被沉淀)等在達(dá)到安全級別的前提下,盡可能的保持信息完整性(合成,差分和泛化都會在不同程度上損失原始信息)的同時提升整體系統(tǒng)的運行效率。
在介紹工程實踐的技術(shù)類型的同時,我們也希望澄清在實踐中遇到的兩個比較常見的認(rèn)知誤區(qū):數(shù)據(jù)隱私解決方案,不等同于單一的密碼學(xué)或技術(shù)點創(chuàng)新,是一個結(jié)合了數(shù)據(jù)科學(xué)、密碼學(xué)、聯(lián)邦學(xué)習(xí)、云計算的綜合工程,通常是技術(shù)組合的形式;其次,對于數(shù)據(jù)隱私比較受關(guān)注的MPC(多方安全計算),最近幾年,MPC在數(shù)學(xué)原理上并沒有特別大的根本性變化,更多是工程方面的突破與進(jìn)展。
數(shù)據(jù)的流動性具有其必然性和合理性,也是AI在產(chǎn)業(yè)中更好發(fā)揮智能的基礎(chǔ),但數(shù)據(jù)價值挖掘帶來便利的同時,也面臨著隱私侵犯的隱患。
從當(dāng)下實踐來看,通過給予數(shù)據(jù)擁有方控制力的方式是平衡數(shù)據(jù)價值挖掘和隱私保護(hù)最有效的方式;而流動中的數(shù)據(jù)鏈條復(fù)雜,通常需要在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),從而降低在整個鏈條上管理控制力的成本。數(shù)據(jù)流動過程中的隱私保護(hù),是動態(tài)的、過程中的數(shù)據(jù)安全與隱私,對應(yīng)的技術(shù)實踐也將帶來新的產(chǎn)業(yè)和創(chuàng)新機會。
對于這個新興的產(chǎn)業(yè),早期我們所選擇的方案也要迎合市場的階段進(jìn)行漸進(jìn)式推廣,比如數(shù)牘科技的解決方案中就設(shè)計了數(shù)據(jù)流控制,數(shù)據(jù)擁有方可以控制數(shù)據(jù)流向為單向或雙向,在現(xiàn)實環(huán)境中靈活應(yīng)用。數(shù)據(jù)隱私規(guī)范和價值挖掘是雙向作用、螺旋上升的過程,只有規(guī)范數(shù)據(jù)使用才可以在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價值挖掘的下一個爆發(fā)點。我們很期待未來十年,在隱私規(guī)范的推動下創(chuàng)造出新的數(shù)據(jù)使用范式,推動AI的數(shù)據(jù)基礎(chǔ)設(shè)施革命,并能投入其中貢獻(xiàn)一點自己的力量。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 2024中國國際工業(yè)博覽會維科網(wǎng)·激光VIP企業(yè)展臺直播
-
精彩回顧立即查看>> 【產(chǎn)品試用】RSE30/60在線紅外熱像儀免費試用
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟產(chǎn)業(yè)大會暨展覽會
-
精彩回顧立即查看>> 【線下會議】全數(shù)會2024電子元器件展覽會
-
精彩回顧立即查看>> 三菱電機紅外傳感器的特性以及相關(guān)應(yīng)用領(lǐng)域
編輯推薦
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市