NLP預(yù)訓(xùn)練中的mask方式
目錄
一、為什么要mask
二、這些年paper中出現(xiàn)過的mask方式
2.1 padding Padding-mask
2.2 sequence mask:transformer decoder部分
2.3 BERT: maskd LM
2.4 RoBERTa: dynamic maskd LM
2.5 ERNIE: Knowledge masking strategies
2.6 BERT-wwm
參考資料
一、為什么要mask
1.1 padding:
數(shù)據(jù)輸入模型的時候長短不一,為了保持輸入一致,通過加padding將input轉(zhuǎn)成固定tensor
如:
一句話:[1, 2, 3, 4, 5]
input size: 1* 8
加padding:[1, 2, 3, 4, 5, 0, 0, 0]
1.2 padding 引入帶來的問題:
padding填充數(shù)量不一致,導(dǎo)致均值計算偏離
如:
原始均值:(1 + 2 + 3 + 4 + 5) / 5 = 3
padding后的均值: (1 + 2 + 3 + 4 + 5) / 8 = 1.875
1.3 引入mask,解決padding的缺陷:
假設(shè) m = [1, 1 , 1, 1, 1, 0, 0, 0]
?:逐個相乘
mask后的avg = 3 (和原先結(jié)果一致)
1.4 除了上述的padding的場景,為了讓模型學(xué)習(xí)到某個詞或者關(guān)注到某個區(qū)域,也可以使用mask對信息做屏蔽。
二、這些年paper中出現(xiàn)過的mask方式
2.1 padding Padding-mask
原理同上
例:transformer mask encoder self-attention mask
2.2 sequence mask:transformer decoder部分
訓(xùn)練的時候,在Masked Multi-h(huán)ead attention層中,為了防止未來的信息被現(xiàn)在時刻看到,需要把將來的信息mask掉。
mask為下三角矩陣
使用mask矩陣,把當前之后的全部遮住。
可以防止看到t時刻之后的信息。
t-1時刻、t時刻、t+1時刻在masked Multi-h(huán)ead attention layer是并行計算的。
延伸問題:transformer decoder在預(yù)測時也用到了mask
是為了保持預(yù)測時和訓(xùn)練時,信息量一致。保證輸出結(jié)果的一致。
2.3 BERT: maskd LM
The training data generator chooses 15% of the token positions at random for prediction. If the i-th token is chosen, we replace the i-th token with (1) the [MASK] token 80% of the time (2) a random token 10% of the time (3) the unchanged i-th token 10% of the time. Then, Ti will be used to predict the original token with cross entropy loss.
——BERT 原文:訓(xùn)練數(shù)據(jù)中,被mask選中的概率是15%,選中的詞,被[MASK]替換的概率是80%,不變的概率是10%,隨機替換的概率是10%。
解釋:訓(xùn)練分布和實際語言分布有差異,三種替換方式是為了告訴模型,輸入的詞有可能是錯誤的,不要太相信。
對應(yīng)的代碼:bert/create_pretraining_data.py
2.4 RoBERTa: dynamic maskd LM
The original BERT implementation performed masking once during data preprocessing, resulting in a single static mask. To avoid using the same mask for each training instance in every epoch, training data was duplicated 10 times so that each sequence is masked in 10 different ways over the 40 epochs of training. Thus, each training sequence was seen with the same mask four times during training.
RoBERTa的原文對比了BERT的靜態(tài)mask。并說明了RoBERTa為了避免靜態(tài)mask導(dǎo)致每個epoch訓(xùn)練輸入的數(shù)據(jù)mask是一樣的,所以先把數(shù)據(jù)復(fù)制了10份,然后在40輪訓(xùn)練中,每個序列都以10種不同的方式被mask。
2.5 ERNIE: Knowledge masking strategies
ERNIE is designed to learn language representation enhanced by knowledge masking strategies, which includes entity-level masking and phrase-level masking.
給BERT加了知識圖譜,加強了局部學(xué)習(xí)。BERT原先的方式,只是從mask出現(xiàn)的概率做填空。用knowledge level的填空方式,把knowledge挖空,保證了模型學(xué)到關(guān)鍵知識。
基本級別掩碼(Basic-Level Masking):
這里采用了和BERT完全相同的掩碼機制,在進行中文語料時,這里使用的是字符級別的掩碼。在這個階段并沒有加入更高級別的語義知識。
短語級別掩碼(Phrase-Level Masking):
在這個階段,首先使用語法分析工具得到一個句子中的短語,例如圖中的“a serious of”,然后隨機掩碼掉一部分,并使用剩下的對這些短語進行預(yù)測。在這個階段,詞嵌入中加入了短語信息。
實體級別掩碼(Entity-Level Masking):
在這個階段,將句子中的某些實體掩碼掉,這樣模型就有了學(xué)習(xí)更高級別的語義信息的能力。
2.6 BERT-wwm
繼2019年4月百度發(fā)布ERNIE1.0之后,同年7月訊飛+哈工大發(fā)布了BERT-WWM。
The whole word masking mainly mitigates the drawbacks in original BERT that, if the masked WordPiece token (Wu et al., 2016) belongs to a whole word, then all the WordPiece tokens (which forms a complete word) will be masked altogether.
連續(xù)mask所有能組成詞的詞
wwm的Roberta沒有動態(tài)mask,因為不需要,所有詞已經(jīng)mask了。
wwm的代碼解釋參考[4]
例句:there is an apple tree nearby.
tok_list = ["there", "is", "an", "ap", "##p", "##le", "tr", "##ee", "nearby", "."]
bert沒有wwm結(jié)果是:
there [MASK] an ap [MASK] ##le tr [RANDOM] nearby .
[MASK] [MASK] an ap ##p [MASK] tr ##ee nearby .
there is [MASK] ap [MASK] ##le tr ##ee nearby [MASK] .
bert-wwm結(jié)果是:
there is an [MASK] [MASK] [RANDOM] tr ##ee nearby .
there is [MASK] ap ##p ##le [MASK] [MASK] nearby .
there is! [MASK] ap ##p ##le tr ##ee nearby [MASK] .
可以看出,apple這個詞,在沒有wwm時,會被mask不同部分;wwm時,則同時被mask,或者不被mask。
wwm無需改動bert代碼:
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報名>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 國產(chǎn)英偉達們,抓緊沖刺A股
- 7 三次錯失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市