害羞的清纯女神露脸在线视频,77无码精品人妻一二三区,久久婷婷国产一区二区三区

AI基礎(chǔ)設(shè)施革命：關(guān)于數(shù)據(jù)隱私保護(hù)和價值挖掘的實踐思考

2020-06-10 11:28

這里面一個有意思的地方在于，有一些數(shù)據(jù)并不是嚴(yán)格意義上的被公開數(shù)據(jù)，或者說只希望在某個特定范圍內(nèi)被公開。舉例來說社區(qū)的運營者可能只希望社區(qū)的用戶生成內(nèi)容（UGC）在社區(qū)內(nèi)進(jìn)行公開，而不希望流傳到互聯(lián)網(wǎng)上。典型的這類意愿的表述形式有類似于Robots exclusion standard，主要用于向爬蟲聲明網(wǎng)站中哪些內(nèi)容不能被讀取。

除此之外公開數(shù)據(jù)還有可能僅僅是可以被讀取而不能希望被存儲的，舉例來說比如社交網(wǎng)站中的朋友清單。朋友清單被存儲和對比之后就可以得到諸如”哪些朋友取消了對我的關(guān)注“這樣的信息，這里面也存在可能侵害了別人的個人隱私的問題。一般為了防范這樣的越界爬取行為，公司可能會有針對性的組織自己的反扒竊（anti－scraping）系統(tǒng)，在協(xié)議范疇之外對數(shù)據(jù)的控制力賦予提供保障。

綜上所述我們可以看到，賦予數(shù)據(jù)的控制力長久以來都面臨許多挑戰(zhàn)。且除了第一方數(shù)據(jù)外，沿著數(shù)據(jù)鏈條向下走，這種挑戰(zhàn)會逐漸增加。這種現(xiàn)象很大程度上源于數(shù)據(jù)作為一種抽象存在，不同于普通物品的可以被復(fù)制，而被復(fù)制的數(shù)據(jù)的控制力將會被重新的定義和賦予。

因此在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán)，盡量減少數(shù)據(jù)復(fù)制的出現(xiàn)，可以很大程度上降低在整個鏈條上管理控制力的成本。需要研究的不是如何把數(shù)據(jù)的鏈條切段，而是如何在鏈條的各個環(huán)節(jié)上更好的完成數(shù)據(jù)控制力的精細(xì)化管理。

新的產(chǎn)業(yè)機會 — 數(shù)據(jù)流通鏈條中控制力管理的技術(shù)實踐前面提到，解決數(shù)據(jù)流通鏈條中賦予數(shù)據(jù)控制力的問題，主要的方式是針對不同類型的數(shù)據(jù)采取不同的方式，從宏觀上減少數(shù)據(jù)使用就要復(fù)制的情況出現(xiàn)。那么，在具體實踐里，針對個人數(shù)據(jù)的隱私保護(hù)，又有哪些宏觀分類要素與技術(shù)手段呢？

宏觀來看，數(shù)據(jù)可以分為個人識別信息（PII）和用戶特征值兩類。PII是指像可以在很高精度上在公開環(huán)境下定位一個人的數(shù)據(jù)，比如像美國的SSN，國內(nèi)的身份證號，郵件地址，甚至有可能是電話號碼。用戶特征值基本可以理解為除了PII以外其它的圍繞個人行為特征或個人特性（如生物統(tǒng)計學(xué)數(shù)據(jù)，人口統(tǒng)計學(xué)數(shù)據(jù)等）的數(shù)據(jù)了。用戶特征值往往是數(shù)據(jù)挖掘產(chǎn)生價值的對象，而PII則是扮演著將多個特征值統(tǒng)一在一起的角色，由PII形成的圖是數(shù)據(jù)鏈條上公司間進(jìn)行數(shù)據(jù)融合的橋梁。

可以看出，對PII的控制是數(shù)據(jù)鏈條中形成控制的關(guān)鍵，沒有PII的兩個數(shù)據(jù)集是很難整合在一起使用的。針對PII的控制一般被稱為De－identification，目前主要有比如脫敏（Data Masking），匿名（Anonymization）和k－匿名（k－anonymization）由弱到強三種比較常見的方式。

脫敏基本是將比如身份證的一部分隱去，從而在可以接近識別的前提下盡量保護(hù)數(shù)據(jù)的隱私，類似于對一般數(shù)據(jù)處理中的泛化技術(shù)。拋開脫敏過程中的信息丟失不談，這種方法顯然是缺乏足夠的安全性的。因為只要存儲和沉淀這樣的masked data，就可以最終反推出原始數(shù)據(jù)的內(nèi)容來，因此脫敏的方法在隱私要求比較高的環(huán)境中已經(jīng)不再使用了。

匿名指修改或者移除個人身份信息，隱藏數(shù)據(jù)和個人的對應(yīng)關(guān)系。一般的數(shù)據(jù)源會自己生成并管理這種對應(yīng)關(guān)系，由于個人身份信息的完全隱藏，安全性也會遠(yuǎn)高于直接對原始PII進(jìn)行脫敏。同時的對于使用PII來關(guān)聯(lián)數(shù)據(jù)集的這一屬性，也可以靠修改內(nèi)部的對應(yīng)關(guān)系來組織使用匿名數(shù)據(jù)在外部進(jìn)行數(shù)據(jù)集關(guān)聯(lián)的操作。

k－匿名在匿名的基礎(chǔ)之上提出了個人識別不僅限于PII，任何數(shù)據(jù)形成的集合都能在一定程度上識別出一個人來，k在這里指的是用這個數(shù)據(jù)集進(jìn)行識別時可以將識別的人群縮小為數(shù)量為k的集合。k－匿名是目前通用標(biāo)準(zhǔn)中較高的一類，其中k的值越高，隱私保護(hù)的效果越好，在Google和Facebook的內(nèi)部數(shù)據(jù)管理中都有大量的使用。

用戶特征值數(shù)據(jù)主要在價值挖掘中被體現(xiàn)，使用的方法宏觀上可以分為使用原始數(shù)據(jù)和使用統(tǒng)計數(shù)據(jù)兩類。比如某人在某時某地進(jìn)行了某次購物可以被認(rèn)為是原始數(shù)據(jù)，那么某人在過去的一天里進(jìn)行了3次購物可以被認(rèn)為是統(tǒng)計數(shù)據(jù)。在很多情況下避免原始數(shù)據(jù)的直接使用是不太影響價值挖掘的同時可以更好的保護(hù)原始數(shù)據(jù)的。

類似的，在鏈條中傳遞用戶特征數(shù)據(jù)時所使用的控制方法也比較多，常見的就有泛化（比如給定一個范圍而不是具體的數(shù)值），統(tǒng)計（如前所述），加密（比如同態(tài)加密），差分隱私（比如給定的數(shù)值是原始數(shù)值的基礎(chǔ)上增加一個噪音），合成（比如將原始數(shù)據(jù)轉(zhuǎn)化為代表所需知識的模型或者由模型生成不同于原始數(shù)據(jù)的新數(shù)據(jù)）等等。

涉及多方數(shù)據(jù)的安全運算環(huán)境的方式可以從多種角度來劃分。比如從是否存在可信的第三方（或者對于該第三方的信任成本有多大）來談，使用比如GC或者OT來實現(xiàn)的MPC可以實現(xiàn)完全沒有可信第三方的環(huán)境，而基于某些同態(tài)加密設(shè)計或者可信硬件的環(huán)境一般是強依賴于對于第三方的可信度的，而可信硬件環(huán)境還存在信任硬件產(chǎn)品供應(yīng)方這一個額外的信任成本。

除了上述的兩類（MPC和可信硬件）之外，也存在許多其它方式在聯(lián)合運算中保護(hù)原始數(shù)據(jù)的方法，其中就有比如合成數(shù)據(jù)（比如通過將原始數(shù)據(jù)轉(zhuǎn)換為模型），比如差分隱私（巧妙的選擇在原始數(shù)據(jù)上面增加噪聲從而在保護(hù)原始數(shù)據(jù)敏感性的前提下不會過多的干涉運算本身），還有比如傳統(tǒng)的泛化（只傳輸包含原始數(shù)據(jù)的一個范圍）等多種方式。

在實際應(yīng)用之中，一般會考慮數(shù)據(jù)的泄露危害程度（比如PII數(shù)據(jù)的泄露會造成連鎖的數(shù)據(jù)泄露反應(yīng)），數(shù)據(jù)是否容易被沉淀（比如高時效性的數(shù)據(jù)相對不那么容易被沉淀）等在達(dá)到安全級別的前提下，盡可能的保持信息完整性（合成，差分和泛化都會在不同程度上損失原始信息）的同時提升整體系統(tǒng)的運行效率。

在介紹工程實踐的技術(shù)類型的同時，我們也希望澄清在實踐中遇到的兩個比較常見的認(rèn)知誤區(qū)：數(shù)據(jù)隱私解決方案，不等同于單一的密碼學(xué)或技術(shù)點創(chuàng)新，是一個結(jié)合了數(shù)據(jù)科學(xué)、密碼學(xué)、聯(lián)邦學(xué)習(xí)、云計算的綜合工程，通常是技術(shù)組合的形式；其次，對于數(shù)據(jù)隱私比較受關(guān)注的MPC（多方安全計算），最近幾年，MPC在數(shù)學(xué)原理上并沒有特別大的根本性變化，更多是工程方面的突破與進(jìn)展。

數(shù)據(jù)的流動性具有其必然性和合理性，也是AI在產(chǎn)業(yè)中更好發(fā)揮智能的基礎(chǔ)，但數(shù)據(jù)價值挖掘帶來便利的同時，也面臨著隱私侵犯的隱患。

從當(dāng)下實踐來看，通過給予數(shù)據(jù)擁有方控制力的方式是平衡數(shù)據(jù)價值挖掘和隱私保護(hù)最有效的方式；而流動中的數(shù)據(jù)鏈條復(fù)雜，通常需要在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán)，盡量減少數(shù)據(jù)復(fù)制的出現(xiàn)，從而降低在整個鏈條上管理控制力的成本。數(shù)據(jù)流動過程中的隱私保護(hù)，是動態(tài)的、過程中的數(shù)據(jù)安全與隱私，對應(yīng)的技術(shù)實踐也將帶來新的產(chǎn)業(yè)和創(chuàng)新機會。

對于這個新興的產(chǎn)業(yè)，早期我們所選擇的方案也要迎合市場的階段進(jìn)行漸進(jìn)式推廣，比如數(shù)牘科技的解決方案中就設(shè)計了數(shù)據(jù)流控制，數(shù)據(jù)擁有方可以控制數(shù)據(jù)流向為單向或雙向，在現(xiàn)實環(huán)境中靈活應(yīng)用。數(shù)據(jù)隱私規(guī)范和價值挖掘是雙向作用、螺旋上升的過程，只有規(guī)范數(shù)據(jù)使用才可以在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價值挖掘的下一個爆發(fā)點。我們很期待未來十年，在隱私規(guī)范的推動下創(chuàng)造出新的數(shù)據(jù)使用范式，推動AI的數(shù)據(jù)基礎(chǔ)設(shè)施革命，并能投入其中貢獻(xiàn)一點自己的力量。

<上一頁 1 2 3