欧美成人动态图_久久国产古代三级毛片视频_性一交一伦一A级_国产精品久久久久久久久久久免费看_爱情岛论坛专线一

洞見RSA 2023 | 利用AI合成去識別化數(shù)據(jù)|時快訊

時間:2023-05-28 05:07:39來源:綠盟科技

全文共2800字,閱讀大約需要5分鐘。

在2023年的RSA會議上,弗吉尼亞行為健康和發(fā)展服務(wù)部的CISO和研究員分享了題為“機(jī)器崛起:通過人工智能實現(xiàn)數(shù)據(jù)安全與分析”的議題。他們提出了使用人工智能的方法來快速合成“去識別”(de-identified)數(shù)據(jù),從而避免了大量資源消耗和人為誤差。本文將解讀該議題及其涉及的相關(guān)技術(shù)基本原理。


(資料圖)

人工智能與數(shù)據(jù)合成

統(tǒng)計學(xué)習(xí)(Statistical Learning)、機(jī)器學(xué)習(xí)(Machine Learning)、符號學(xué)習(xí)(Symbolic Learning)、神經(jīng)網(wǎng)絡(luò)(Neural Network)…… AI發(fā)展至今,已經(jīng)形成了龐大的分支。每個分支上都存在著各種不同的技術(shù)。通過利用這些技術(shù),我們使得機(jī)器更加智能。它們可以幫助我們進(jìn)行分類和預(yù)測任務(wù)、物體識別任務(wù)、動作捕捉任務(wù)以及語音的識別和轉(zhuǎn)錄任務(wù),如圖 1所列舉。然而,要訓(xùn)練這些機(jī)器,我們需要大量的數(shù)據(jù)作為支持。因此,一個出色的模型通常需要大量的訓(xùn)練數(shù)據(jù)。

圖1機(jī)器學(xué)習(xí)與人類

這引出了一個問題:如何獲取如此龐大的數(shù)據(jù)?而這個問題又會帶來一系列相關(guān)問題:在個人信息保護(hù)法的要求下,如何合規(guī)合法地收集去識別和脫敏的數(shù)據(jù)?如何確保在對數(shù)據(jù)進(jìn)行識別和脫敏后,仍然能夠有效地用于訓(xùn)練?

在會議上,Glenn Schmitz提出了使用合成數(shù)據(jù)(synthetic data)的方法,即利用人工智能自動合成數(shù)據(jù),跳過傳統(tǒng)的數(shù)據(jù)收集過程,將由人工智能合成的數(shù)據(jù)用于其他人工智能的訓(xùn)練或數(shù)據(jù)分析。如圖2所示,通過CycleGAN技術(shù),我們可以將真實圖片轉(zhuǎn)換為虛擬圖片,例如將冬天的景象轉(zhuǎn)變?yōu)橄奶斓木跋?。Glenn Schmitz在會議中提出了三種不同的方法:合成少數(shù)過采樣技術(shù)(SMOTE),變分自編碼器(VAEs)和生成對抗網(wǎng)絡(luò)(GAN)。

圖2 CycleGAN合成數(shù)據(jù)樣例圖

SMOTE&VAEs&GAN

SMOTE一種使用真實數(shù)據(jù)進(jìn)行數(shù)據(jù)合成(data synthesis with real data)的方法。這種方法使用已有的真實數(shù)據(jù)集作為基礎(chǔ),并通過對其進(jìn)行處理和轉(zhuǎn)換來生成新的數(shù)據(jù)集。通常,這涉及對原始數(shù)據(jù)進(jìn)行采樣、轉(zhuǎn)換、增強(qiáng)或添加噪聲等操作,以生成更多的樣本。使用真實數(shù)據(jù)進(jìn)行數(shù)據(jù)合成的主要優(yōu)點是生成的數(shù)據(jù)能夠反映出原始數(shù)據(jù)集的真實特征和分布。具體而言SMOTE通過在少數(shù)類樣本之間進(jìn)行插值,生成合成樣本來增加少數(shù)類樣本的數(shù)量。如圖3所示,SMOTE方法選擇一個少數(shù)類樣本和其最近鄰的樣本,然后在它們之間隨機(jī)插值生成新的樣本。這樣可以增加少數(shù)類樣本的數(shù)量,平衡數(shù)據(jù)集,并提高機(jī)器學(xué)習(xí)算法對少數(shù)類的分類性能。

圖3 SMOTE樣本點生成示意圖

與之相對,VAEs和GAN都是不使用真實數(shù)據(jù)進(jìn)行數(shù)據(jù)合成(data synthesis without real data)的方法。這種方法不依賴于任何真實數(shù)據(jù)集(生成的數(shù)據(jù)不依賴于真實數(shù)據(jù)集,模型的訓(xùn)練可能需要),而是使用各種建模技術(shù)來生成合成數(shù)據(jù)。通過學(xué)習(xí)原始數(shù)據(jù)集的特征和分布,這些模型可以生成與原始數(shù)據(jù)類似的合成數(shù)據(jù)。不使用真實數(shù)據(jù)進(jìn)行數(shù)據(jù)合成的優(yōu)點是可以生成大量的數(shù)據(jù)樣本,即使在原始數(shù)據(jù)稀缺或難以獲得的情況下也能夠進(jìn)行模型訓(xùn)練和算法評估。然而,由于生成的數(shù)據(jù)不是基于真實觀測數(shù)據(jù),因此可能無法完全捕捉真實世界中的復(fù)雜性和不確定性。

具體而言,VAEs是一種基于概率模型的數(shù)據(jù)合成方法。它結(jié)合了自編碼器和變分推斷的思想,可以用于生成合成數(shù)據(jù)。通過學(xué)習(xí)數(shù)據(jù)的潛在表示空間,如圖4中通過encoder學(xué)習(xí)到數(shù)據(jù)的概率分布,VAES在該空間中采樣來生成新的合成數(shù)據(jù)樣本。它的優(yōu)勢在于能夠生成具有多樣性的數(shù)據(jù),同時還能保持?jǐn)?shù)據(jù)的連續(xù)性和一致性,因為它們是對數(shù)據(jù)的生成過程進(jìn)行建模,并且能夠通過調(diào)整潛在空間中的參數(shù)來控制生成樣本的特征。

圖4VAEs的編碼與解碼示意圖

而GAN是通過兩個部件——生成器與判別器來合成數(shù)據(jù)。其中,生成器負(fù)責(zé)生成合成數(shù)據(jù)樣本,而判別器則負(fù)責(zé)區(qū)分真實數(shù)據(jù)和合成數(shù)據(jù)。如圖5所示,通過對抗性訓(xùn)練,生成器可以逐漸學(xué)習(xí)生成逼真的合成數(shù)據(jù),同時判別器也不斷提升辨別真實與合成數(shù)據(jù)的能力。這種對抗性訓(xùn)練過程使得GAN能夠生成具有高度逼真度和與真實數(shù)據(jù)相似性的合成數(shù)據(jù)。

圖5CGAN的對抗示意圖

合成數(shù)據(jù)的應(yīng)用場景

對于合成數(shù)據(jù)的應(yīng)用場景,Glenn Schmitz提到了四個目前取得成果的例子,如圖6所示。首先,F(xiàn)ACS(Facial Action Coding System)發(fā)表了應(yīng)用合成數(shù)據(jù)用于骨科手術(shù)的案例。其次,DeepAI利用合成數(shù)據(jù)訓(xùn)練了圖像分割和目標(biāo)提取模型。第三,OpenAI利用合成數(shù)據(jù)進(jìn)行了語義識別的研究。最后,Ilge Akkaya發(fā)表了使用合成數(shù)據(jù)訓(xùn)練機(jī)器人手臂的成果。

總的來說,合成數(shù)據(jù)在許多應(yīng)用場景中發(fā)揮著重要作用。它可以用于增強(qiáng)真實數(shù)據(jù)集的規(guī)模和多樣性,從而提高機(jī)器學(xué)習(xí)模型的性能和泛化能力。合成數(shù)據(jù)還可以用于填補(bǔ)缺失數(shù)據(jù)或處理數(shù)據(jù)不平衡的問題,以平衡數(shù)據(jù)集的分布。此外,合成數(shù)據(jù)也可以在隱私保護(hù)方面發(fā)揮作用,通過生成合成數(shù)據(jù)來替代敏感信息,以保護(hù)個人隱私。在模擬和仿真領(lǐng)域,合成數(shù)據(jù)可以用于創(chuàng)建虛擬環(huán)境和場景,以進(jìn)行測試、驗證和訓(xùn)練,從而降低成本和風(fēng)險??傊?,合成數(shù)據(jù)具有廣泛的應(yīng)用場景,為各種領(lǐng)域的數(shù)據(jù)分析、建模和決策提供了有價值的資源。

圖6合成數(shù)據(jù)應(yīng)用場景

合成數(shù)據(jù)的“深淵”

Glenn Schmitz指出,盡管合成數(shù)據(jù)方便了訓(xùn)練數(shù)據(jù)的獲取,但它仍然存在一些爭議和風(fēng)險。從AI的倫理和道德角度來看,合成數(shù)據(jù)的生成過程,因為設(shè)計原因,可能本身帶有一定的“偏見”,使得生成的數(shù)據(jù)具有強(qiáng)烈的“個人屬性”。此外,從使用的角度來看,當(dāng)合成數(shù)據(jù)用于\"精細(xì)任務(wù)\"時,它所引入的誤差可能帶來巨大的使用風(fēng)險。如圖 7所示,使用時,需要全面的考慮到利弊,同時也需要在道德,偏差與目標(biāo)做權(quán)衡。

圖7合成數(shù)據(jù)與AI的使用

正如CycleGAN的研究者在論文中所指出的,CycleGAN的輸出是對“如果......它會是什么樣子”的預(yù)測,雖然這些預(yù)測看似合理,但與基本事實可能存在很大差異。因此,在根據(jù)CycleGAN的輸出作出關(guān)鍵決策的領(lǐng)域中,需要謹(jǐn)慎使用和校準(zhǔn)。特別是在醫(yī)學(xué)應(yīng)用中,例如將MRI數(shù)據(jù)轉(zhuǎn)換為CT數(shù)據(jù)時,這一點尤為重要。就像CycleGAN可能在天空中添加奇特的云彩,使其看起來像梵高的畫作一樣,它可能會在醫(yī)學(xué)圖像中添加不存在的腫瘤或者移除真實存在的腫瘤,如圖 8所示。

圖8合成數(shù)據(jù)錯誤移除與添加腫瘤

合成數(shù)據(jù)的工具

為了方便研究人員和開發(fā)者使用,Glenn Schmitz列舉了一些常用的數(shù)據(jù)合成工具,如圖9所示,包括:

1)Mimesis:一個多語言的假數(shù)據(jù)生成庫,可以生成各種類型的數(shù)據(jù),如姓名、地址、電子郵件等。

2)The Synthetic Data Vault(SDV):一個開源工具,用于生成合成數(shù)據(jù)集,它基于統(tǒng)計模型和機(jī)器學(xué)習(xí)算法,可以模擬真實數(shù)據(jù)的分布和屬性。

3)Transaction data simulator:用于模擬交易數(shù)據(jù)的工具,可以生成合成的交易數(shù)據(jù)集,用于測試和分析目的。

4)YData Synthetic:一個用于生成合成數(shù)據(jù)的平臺,提供了各種數(shù)據(jù)類型和生成方法,可以根據(jù)需求創(chuàng)建合成數(shù)據(jù)集。

5)Faker:一個用于生成合成數(shù)據(jù)的Python庫,可以生成各種類型的數(shù)據(jù),如姓名、地址、日期等。

此外,還有一些常用的Python庫,如sklearn(Scikit-learn)、faker module、PYOD(Python Outlier Detection)、CTGAN(Conditional Tabular GAN),它們提供了豐富的功能和算法,用于生成和處理合成數(shù)據(jù)。

圖9合成工具包舉例

參考文獻(xiàn)

[1] Glenn Schmitz, Angus Chen, Rise of the Machines: Achieving Data Security and Analytics with AI,RSAC, 2023

[2] Blagus R, Lusa L. SMOTE for high-dimensional class-imbalanced data[J]. BMC bioinformatics, 2013, 14: 1-16.

[3] Joseph Rocca, Understanding Variational Autoencoders (VAEs), towardsdatascience, 2019

[4] Sik-Ho Tsang, CGAN — Conditional GAN (GAN), Artificial Intelligence in Plain English, 2020

[5] Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).

關(guān)鍵詞:

相關(guān)資訊
熱門頻道