好色先生APP下载安装,成人不卡在线,国产精品免费一区二区电影

聯(lián)邦學習: 統(tǒng)一數據協(xié)作和隱私保護的技術解決之道

2020-06-24 10:58

將門創(chuàng)投

關注

隨著數字化經濟時代的到來，數據作為生產要素其價值愈發(fā)明顯，越來越多的企業(yè)或組織需要與產業(yè)鏈上下游業(yè)務伙伴在數據流通和交易領域進行深度合作，只有通過各方數據協(xié)同計算，才能更好地釋放數據價值。

但用戶對隱私日益重視，政策法規(guī)趨向嚴格，數據協(xié)作和隱私保護這一矛盾也日益嚴重，如何用技術手段來解決這一難題呢？在聯(lián)邦學習的探索中可以幫你找到答案。本文主要內容如下：

1．隱私計算產生背景：數據價值和隱私

2．隱私計算技術

安全多方計算

可信執(zhí)行環(huán)境

聯(lián)邦學習

3．聯(lián)邦學習的拓展

分布式機器學習

聯(lián)邦學習和傳統(tǒng)分布式系統(tǒng)的差異

計算挑戰(zhàn)

聯(lián)邦學習的拓展與安全性

實際案例講解

1．數據價值和隱私

為什么需要隱私計算呢？首先，數據的產生過程是分散的，數據具有天然的割裂性。不同類型的公司提供不同的業(yè)務和服務，產生的數據類型也是不同的，例如社交公司產生用戶大量的社交數據，電商產生的是用戶的消費數據。但是在計算分析過程中，我們需要以“人”為單位，多維度、全面理解一個人才能進行高效的智能化的推薦。

其次，不同機構有不同的覆蓋范圍，他們分別只能收集到一部分人群的數據�，F(xiàn)階段，智能化的進程仍然需要依賴數據，可數據孤島的存在成為人工智能發(fā)展的一大壁壘，極大限制了企業(yè)可利用的數據量。

除此之外，在數據的實際應用中，企業(yè)也有保護其核心高價值數據的需求，通過隱私計算和聯(lián)邦學習實現(xiàn)數據的所有權和使用權分離是一種有效的解決方式。

2．隱私計算技術

由于企業(yè)和機構對數據自身價值的保護以及對用戶隱私授權的保護，數據被儲存在不同地方，像一個個孤島難以被有效的連接互動。傳統(tǒng)的商業(yè)協(xié)議無法有效保護數據的安全，原始數據一旦出庫，就會面臨完全失控的風險。

典型的反面案例就是臉書的劍橋門事件。雙方按照協(xié)議：Facebook 將千萬級別的用戶數據轉交給劍橋分析公司，用于學術研究。但原始數據一經出庫后就完全失控，被用于學術之外的用途，導致 Facebook 面臨的巨額罰金。

我們需要從技術層面提供更加安全的解決方案，用來保證數據流通協(xié)作過程中達到數據使用權的細分。隱私計算應運而生，它是數據科學與工程、密碼學、分布式計算與存儲的綜合工程，包括多方安全計算、可信硬件、聯(lián)邦學習等多項技術。

安全多方計算

講到多方安全計算（MPC），就會提到姚氏百萬富翁問題：有兩個很有錢的富翁，他們想知道誰更有錢，他們又都不想讓除己以外的任何人知道自己實際有多少錢（即不信任任何第三方）。這是一個典型的兩方安全計算案例，需要在不分享原始數值的情況下，得出想要的結論。其中相關的技術包括：秘密分享，模糊傳輸，同態(tài)加密，混淆電路。

MPC技術的優(yōu)點：單次隨機加密，加密數據無法重復使用；?加密數據基礎上直接進行運算，原始數據不出庫／不能被還原；?每次計算要所有方共同協(xié)調：在計算前就要確定參與方。

可信執(zhí)行環(huán)境

可信執(zhí)行環(huán)境（TEE）也是一種解決方案：將計算運行在一個獨立的環(huán)境中，而且與操作系統(tǒng)并行運行。在CPU 上確保 TEE 中代碼和數據的機密性和完整性都得到保護，通過同時使用硬件和軟件來保護數據和代碼，故而TEE比操作系統(tǒng)更加安全。

市面上常見的解決方案有 Intel 的 SGX，ARM 的 TrustZone，服務器或者 PC 上的解決方案主要是 Intel 的 SGX；而 arm 的 trustzone 主要用在手機 CPU 上，如手機里面的指紋識別，人臉識別過程的數據安全保護。

可信執(zhí)行環(huán)境依賴芯片隔離機制，在隔離區(qū)內，數據被解密成明文直接計算，整體效率會比較高。但是由于計算還是在明文層面進行，仍然會帶來對應的安全困擾，比如會受硬件漏洞影響；而且更新需要硬件升級，無法快速迭代。

聯(lián)邦學習

聯(lián)邦學習（Federated Learning）是另一種解決方案，也是我們今天重點要講述的方案。

傳統(tǒng)聯(lián)邦學習

聯(lián)邦學習最早由谷歌提出，用于解決安卓手機終端用戶在本地更新模型的問題。早期聯(lián)邦學習可以在保證數據隱私安全及合法合規(guī)的基礎上，通過本地存儲數據和模型計算由邊緣設備完成，實現(xiàn)共同建模，提升模型的效果。

聯(lián)邦學習能解決問題和適用場景：? 多方數據補充，用在樣品數量不夠充足，數據維度不夠豐富的場景；? 保護數據隱私／核心價值，整個學習訓練過程，沒有傳輸任何原始數據，用來保護數據隱私安全。

接下來我們針對聯(lián)邦學習，進行系統(tǒng)性的討論，包括起源，雛形，發(fā)展，應用等。

3．聯(lián)邦學習的拓展

分布式機器學習

嚴格意義上說，聯(lián)邦學習其實并不是一個全新的概念，而是基于分布式機器學習發(fā)展而來。分布式機器學習，又叫Distributed MachineLearning，是大數據背景下的產物，也是當前機器學習最熱門的研究領域之一。

在大數據時代，數據發(fā)生爆炸式增長，大數據具有五大特征：大數據量（Volume）、多類型（VarieＧ ty）、低價值密度（Value）、高時效（Velocity）和數據在線（OnＧ line），大規(guī)模訓練數據的產生為模型的訓練提供了必要條件，同時也帶來訓練的挑戰(zhàn)。

傳統(tǒng)的機器學習注重在單機中處理數據的速度，但龐大的數據存儲和計算僅在單機上是遠遠做不到的，而且硬件支持的有限性使得在單機上做大數據處理時顯得十分吃力，例如：數量大、計算復雜度高，單機訓練時長遠超過可接受的范圍，不實用；存儲容量和內存需求增加，單機無法滿足需求，難以落地。

將模型計算分布式地部署到多臺、多類型機器上進行同時計算，成為必要的解決方式。正如我們上面提到的，將模型計算分布式地部署到多臺、多類型機器上進行同時計算是解決大數據運算的必須條件。

圖片引用自：《分布式機器學習：算法、理論與實踐》

1 2 3 4 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

行業(yè)報告

2022-2027年中國物聯(lián)網安防應用市場研究及預測分析報告
2022-2027年中國安防智能化市場研究及分析預測報告
2022年安防行業(yè)商業(yè)計劃書（融資BP）
2022年安防項目可行性研究報告