侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

AI基礎(chǔ)設(shè)施革命:關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考

流動(dòng)中的數(shù)據(jù)價(jià)值挖掘 V.S. 隱私保護(hù)

— 數(shù)據(jù)擁有者的控制力數(shù)據(jù)自由流動(dòng)中的價(jià)值挖掘能讓AI更好地發(fā)揮價(jià)值,但同時(shí),數(shù)據(jù)流動(dòng)過程中不經(jīng)節(jié)制的應(yīng)用,也會(huì)帶來數(shù)據(jù)隱私侵犯的隱患。最近多個(gè)金融大數(shù)據(jù)公司遭到立案調(diào)查,從數(shù)據(jù)源的角度來看,其中一個(gè)重要原因就是該類公司的爬蟲對(duì)觸達(dá)的數(shù)據(jù)未經(jīng)授權(quán)進(jìn)行存儲(chǔ)或超出了約定的使用范圍。

舉例來說,如果有一個(gè) App 聲稱幫助用戶進(jìn)行多個(gè)金融賬戶進(jìn)行管理并綜合呈現(xiàn)個(gè)人現(xiàn)金流等信息,為了幫助 App 呈現(xiàn)這些信息,用戶就需要提供這些金融賬戶的訪問權(quán)限。但如果在這個(gè)過程中 App 對(duì)個(gè)人銀行賬戶內(nèi)的所有信息都進(jìn)行了抓取和存儲(chǔ),并將這些信息提煉出來的標(biāo)簽出售給第三方或利用標(biāo)簽開展新的業(yè)務(wù)。由于這些過程未對(duì)用戶進(jìn)行告知并獲得許可,都是一種對(duì)數(shù)據(jù)使用權(quán)的濫用。
從當(dāng)下的工程實(shí)踐來看,解決挖掘和隱私的兩難,可能目前最好的解決方法是給數(shù)據(jù)擁有方一個(gè)控制力,包括對(duì)數(shù)據(jù)收集的授權(quán)和收集后保存和使用的控制。國(guó)際上普遍進(jìn)行的實(shí)踐或者規(guī)范(如GDPR)都傾向于對(duì)個(gè)人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進(jìn)行準(zhǔn)確的授權(quán)。

比如GDPR中就會(huì)要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”,當(dāng)用戶有了這個(gè)明目之后,應(yīng)當(dāng)有權(quán)來選擇“保留哪些刪除哪些”;在此基礎(chǔ)之上,還比如會(huì)要求對(duì)數(shù)據(jù)處理方法作出明確問詢和授權(quán),“比如通過采集到的用戶點(diǎn)贊的帖子的內(nèi)容和類型來學(xué)習(xí)用戶的興趣愛好”;這些興趣愛好作為標(biāo)簽,雖然不是原始數(shù)據(jù),仍然需要用戶進(jìn)行逐一的明確授權(quán)。

當(dāng)我們通過給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù),在實(shí)踐中又會(huì)出現(xiàn)一個(gè)新的挑戰(zhàn)——如何在不侵犯?jìng)(gè)人隱私的前提下,獲得個(gè)人的授權(quán)。

舉個(gè)例子,比如在獲得興趣愛好標(biāo)簽授權(quán)的時(shí)候不太可能有用戶可以預(yù)先對(duì)近乎無限多的興趣愛好進(jìn)行一一授權(quán),一般的過程也是首先由數(shù)據(jù)挖掘方獲得了某個(gè)標(biāo)簽,再針對(duì)這個(gè)標(biāo)簽進(jìn)行問詢。

我們?cè)谶^去的工作實(shí)踐中見過的最好的處理方法是首先對(duì)多達(dá)三到六百萬常用的興趣愛好做知識(shí)圖,將這些興趣愛好的包含關(guān)系或者關(guān)聯(lián)性整理出來;之后再對(duì)各類興趣愛好通過找到包含關(guān)系中處于包含當(dāng)前愛好的比較泛化的那類愛好進(jìn)行問詢這樣點(diǎn)到為止的方式來完成。

即便做到這樣,雖然消耗了巨大的資源并且有很高的門檻,也很難說做到了完美,因此也就不難理解多數(shù)公司在應(yīng)對(duì)GDPR或者相關(guān)合規(guī)的問題上面臨著巨大的挑戰(zhàn)這個(gè)事實(shí)。

數(shù)據(jù)擁有者的控制力如何賦予?數(shù)據(jù)擁有者控制力的核心意義在于讓每個(gè)擁有者在挖掘和保護(hù)之間選擇自己的平衡點(diǎn)。為了給擁有者控制力,第一步要討論的是誰是數(shù)據(jù)的擁有者這個(gè)問題。

一般對(duì)于個(gè)人數(shù)據(jù)來說,無論是個(gè)人的身份識(shí)別信息或者生物統(tǒng)計(jì)信息這樣對(duì)個(gè)人進(jìn)行描述的數(shù)據(jù),還是用戶的行為信息(比如訪問了哪些app,在app里面做了哪些事情)或者由這些行為信息所得到的新的標(biāo)簽這樣的用戶生成數(shù)據(jù),都會(huì)認(rèn)為擁有者是這個(gè)人本身。

尤其對(duì)于產(chǎn)生的標(biāo)簽數(shù)據(jù)來說,有些情況下認(rèn)為由于標(biāo)簽是比如數(shù)據(jù)采集方進(jìn)行學(xué)習(xí)而得來的因此擁有者是采集方這個(gè)想法也不應(yīng)該是被廣泛認(rèn)同的。

圍繞擁有方是產(chǎn)生數(shù)據(jù)的個(gè)體這條線去思考,在整個(gè)數(shù)據(jù)生命周期鏈條里面就存在對(duì)第一方數(shù)據(jù)的控制、第二三方的控制等不同的問題。

對(duì)于第一方來說,由于是數(shù)據(jù)的采集者,涉及的方面也是最多的。Facebook在2018年的F8上宣布一個(gè)針對(duì)給用戶控制力的功能叫Clear History,里面描述的愿景基本理解為可以允許用戶在采集,存儲(chǔ)和使用三個(gè)方面給予控制力。

首先用戶會(huì)看到Facebook從哪些合作方渠道獲得了用戶的什么樣的數(shù)據(jù)(采集可見),之后允許用戶決定是否可以在廣告投放中進(jìn)行使用(使用控制),再次允許用戶對(duì)這些數(shù)據(jù)進(jìn)行立即刪除的操作(存儲(chǔ)控制)。

這個(gè)功能聽上去簡(jiǎn)單,但實(shí)際上對(duì)于一個(gè)正在運(yùn)轉(zhuǎn)的機(jī)構(gòu)來說,要涉及到鑒別所有的數(shù)據(jù)來源、在復(fù)雜的數(shù)據(jù)流里面識(shí)別各類數(shù)據(jù)、以及對(duì)某個(gè)數(shù)據(jù)的所有存儲(chǔ)位置進(jìn)行控制這幾方面能力。對(duì)于小機(jī)構(gòu)來說資源和投入產(chǎn)出比肯定是不夠的,對(duì)于大機(jī)構(gòu)來說由于內(nèi)部數(shù)據(jù)流太過復(fù)雜,為了實(shí)現(xiàn)它往往會(huì)需要做整個(gè)系統(tǒng)的重新設(shè)計(jì)和實(shí)現(xiàn),代價(jià)也不言而喻。

舉例來說,為了實(shí)現(xiàn)Clear History:首先為了在幾萬PB的數(shù)據(jù)倉庫中甚至更大的冷存儲(chǔ)中找到所需要控制的數(shù)據(jù),就需要做整個(gè)數(shù)據(jù)集的語義識(shí)別(很多時(shí)候由于表單的schema并不統(tǒng)一,所以直接使用metadata很難準(zhǔn)確的判斷數(shù)據(jù)類型),這個(gè)過程類似給數(shù)據(jù)打標(biāo)簽。為了可以覆蓋更多的存儲(chǔ)點(diǎn),會(huì)需要根據(jù)已經(jīng)得到的數(shù)據(jù)標(biāo)簽對(duì)數(shù)據(jù)流進(jìn)行端到端的識(shí)別。當(dāng)所有的存儲(chǔ)點(diǎn)識(shí)別完成后,為了實(shí)現(xiàn)功能中的實(shí)時(shí)刪除,還需要在重新定義數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上配合一個(gè)高吞吐量的中心管理系統(tǒng)。

這個(gè)過程協(xié)調(diào)了許多內(nèi)部部門,消耗了大量的資源,耗時(shí)一年以上。不難看出,在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類似挑戰(zhàn)。

除第一方數(shù)據(jù)以外,在授權(quán)第二方的過程中,可能大體會(huì)分為兩種情況:第一種授權(quán)的目的可能是協(xié)助數(shù)據(jù)挖掘,第二種授權(quán)的目的可能是協(xié)助數(shù)據(jù)變現(xiàn)。在第一種情況下一般會(huì)只授權(quán)使用,不授權(quán)再次轉(zhuǎn)讓,并且對(duì)存儲(chǔ)進(jìn)行嚴(yán)格的控制(控制在使用所需的存儲(chǔ)范圍內(nèi))。

比如說,對(duì)消費(fèi)行為進(jìn)行建模的第二方數(shù)據(jù),往往會(huì)存在過去兩周和過去兩個(gè)月這樣兩種時(shí)點(diǎn),超過兩個(gè)月的消費(fèi)行為一般價(jià)值也微乎其微。那么在授權(quán)存儲(chǔ)的時(shí)候一般會(huì)限定存儲(chǔ)時(shí)間不能超過2個(gè)月(外加一個(gè)比如24小時(shí)的灰色周期)。

在數(shù)據(jù)使用的授權(quán)上,一般如果對(duì)數(shù)據(jù)挖掘的目標(biāo)及使用場(chǎng)景進(jìn)行嚴(yán)格的限定,一方面可以保護(hù)授權(quán)方在競(jìng)爭(zhēng)法層面的權(quán)益,另一方面也可以間接保護(hù)數(shù)據(jù)擁有方的個(gè)人隱私。

從保護(hù)個(gè)人隱私的角度來講,假設(shè)授權(quán)的目的是計(jì)算某些用戶的還款風(fēng)險(xiǎn)從而幫助授權(quán)方?jīng)Q定是否放貸的場(chǎng)景,如果不限定挖掘的目的只能限于該合作方之間的征信目的,則可能會(huì)被第二方使用同樣的數(shù)據(jù)用于與其它合作方的營(yíng)銷場(chǎng)景中作為對(duì)于個(gè)人現(xiàn)金流的判斷的一個(gè)因素。

對(duì)于第二種(數(shù)據(jù)變現(xiàn))的情況,會(huì)有比如通過特定的場(chǎng)景或產(chǎn)品進(jìn)行變現(xiàn)以及通過售賣標(biāo)簽進(jìn)行變現(xiàn)不同的類型。這里不對(duì)各種數(shù)據(jù)變現(xiàn)的方式進(jìn)行展開,但想強(qiáng)調(diào)一點(diǎn)的是在變現(xiàn)的過程中需要關(guān)注的是原始數(shù)據(jù)在第二方或其它地方的沉淀情況。因?yàn)殡m然一般授權(quán)方會(huì)通過限制原始數(shù)據(jù)的轉(zhuǎn)讓(從而保護(hù)個(gè)人隱私),但仍然會(huì)允許加工過的數(shù)據(jù)進(jìn)行流通或通過某個(gè)場(chǎng)景達(dá)成目標(biāo)。

無論是哪種方式輸出的結(jié)果,都難以完全地避免數(shù)據(jù)的信息被沉淀,大量的沉淀會(huì)間接的導(dǎo)致原始數(shù)據(jù)被轉(zhuǎn)讓。舉一個(gè)數(shù)據(jù)泛化中沉淀結(jié)果的極端例子來說,假設(shè)我們?cè)试S對(duì)某一個(gè)人的常見活動(dòng)區(qū)域輸出某個(gè)較大的半徑圓范圍,多個(gè)這樣的半徑圓就可以逐步縮小對(duì)這個(gè)人活動(dòng)區(qū)域的判定。

公開數(shù)據(jù)和前述的最大區(qū)別是,由于已經(jīng)公開,只要是獲得了數(shù)據(jù)擁有者對(duì)于公開的授權(quán),那么之后不會(huì)再對(duì)公開數(shù)據(jù)的采集者進(jìn)行一一授權(quán)。采集者獲取公開數(shù)據(jù)的途徑一般也都是通過爬蟲這樣的主動(dòng)收集的形式,具有一定的收集和清理/整理成本。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

安防 獵頭職位 更多
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)