一文學會使用CNN進行人臉關(guān)鍵點識別
項目概況
該項目的目標是預測面部圖片上關(guān)鍵點的位置。這可以用作各種應用程序中的組件,包括:
圖片和視頻中的人臉識別。
面部表情的研究。
用于醫(yī)學診斷,識別畸形面部癥狀。
識別面部關(guān)鍵點是一個很難解決的話題。人與人的面部特征差異很大,即使在一個人內(nèi),由于 3D 姿勢、大小、位置、視角和照明環(huán)境,也會存在很多差異。盡管計算機視覺研究在解決這些問題方面取得了長足的進步,但仍有許多可以改進的領(lǐng)域。
目錄
介紹
先決條件
程序和編程
面部關(guān)鍵點檢測的有用應用
介紹
利用卷積神經(jīng)網(wǎng)絡和計算機視覺技術(shù)進行人臉關(guān)鍵點檢測,對人臉的重要區(qū)域(如眼睛、嘴角和鼻子)進行標記,這些區(qū)域與各種任務(如人臉濾波、情感識別和姿勢識別)相關(guān)。
它需要預測特定面部的面部關(guān)鍵點坐標,例如鼻尖、眼睛中心等。為了識別面部關(guān)鍵點,我們使用基于卷積神經(jīng)網(wǎng)絡的模型使用自動編碼器。
卷積神經(jīng)網(wǎng)絡 (CNN) 具有深層結(jié)構(gòu),允許它們提取高級信息并在識別每個重要點時提供更好的精度。卷積網(wǎng)絡旨在同時預測所有點。
先決條件
因為神經(jīng)網(wǎng)絡經(jīng)常需要標準化的圖片,所以它們應該有一個恒定的大小,顏色范圍和坐標的標準化范圍,并從 NumPy 列表和數(shù)組轉(zhuǎn)換為 Tensor 和 Keras(用于 PyTorch)。因此,需要進行一些預處理。
程序和編程
我正在使用 Kaggle 數(shù)據(jù)集來訓練模型,你可以通過運行 API 命令下載它kaggle competitions download -c facial-keypoints-detection
導入 NumPy 和 pandas 庫:import numpy as np # linear algebra
import pandas as pd # data processing
import os
for directoryname, _, filenames in os.walk('/kaggle/input'):
for filename in filenames:
print(os.path.join(directoryname, filename))
你寫入當前目錄的任何輸出都會被存儲。下一步是為訓練和測試數(shù)據(jù)的每個文件設(shè)置路徑,train_zip_path = "../input/facial-keypoints-detection/training.zip"
test_zip_path = "../input/facial-keypoints-detection/test.zip"
id_lookup_table = "../input/facial-keypoints-detection/IdLookupTable.csv"
sample_Submission = "../input/facial-keypoints-detection/SampleSubmission.csv"
讓我們使用 zip 文件解壓 zip 文件,然后加載數(shù)據(jù)集。import zipfile
with zipfile.ZipFile(train_zip_path,'r') as zip_ref:
zip_ref.extractall('')
with zipfile.ZipFile(test_zip_path,'r') as zip_ref:
zip_ref.extractall('')
train_df = pd.read_csv('training.csv')
test_df = pd.read_csv('test.csv')
idLookupTable = pd.read_csv(id_lookup_table)
sampleSumission = pd.read_csv(sample_Submission)
加載數(shù)據(jù)集后,我們可以使用pandas的庫查看數(shù)據(jù)框,并列出數(shù)據(jù)集的頭部。train_df.info()
填充 Nan 值并分離和重塑輸入值(x_train) train_df.fillna(method='ffill',inplace=True)
在訓練數(shù)據(jù)集中分離和重塑輸入值(x_train):使用圖像創(chuàng)建一個數(shù)組,keypoints:關(guān)鍵點將是我們數(shù)據(jù)集的一個樣本。我們的數(shù)據(jù)集將接受一個可選的參數(shù)轉(zhuǎn)換,允許我們對樣本執(zhí)行任何必要的處理。image_df = train_df['Image']
imageArr = []
for i in range(0,len(image_df)):
img = image_df[i].split()
img = ['0' if x == '' else x for x in img]
imageArr.a(chǎn)ppend(img)
x_train = np.a(chǎn)rray(imageArr,dtype='float')
x_train = x_train.reshape(-1,96,96,1)
print(x_train.shape)
創(chuàng)建一個以圖片為輸入輸出關(guān)鍵點的CNN:輸入圖片大小為224*224px(由transform決定),輸出類分數(shù)為136,即136/2 = 68。(我們想要的68個關(guān)鍵點)和分離目標值keypoints_df = train_df.drop('Image',axis = 1)
y_train = np.a(chǎn)rray(keypoints_df,dtype='float')
print(y_train.shape)
def visualizeWithNoKeypoints(index):
plt.imshow(x_train[index].reshape(96,96),cmap='gray')
def visualizeWithKeypoints(index):
plt.imshow(x_train[index].reshape(96,96),cmap='gray')
for i in range(1,31,2):
plt.plot(y_train[0][i-1],y_train[0][i],'ro')
在我們編寫了可視化函數(shù)之后,接下來,我們可以使用函數(shù)調(diào)用來可視化每個圖像import matplotlib.pyplot as plt
fig = plt.figure(figsize=(8,4))
fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05)
plt.subplot(1,2,1)
visualizeWithNoKeypoints(1)
plt.subplot(1,2,2)
visualizeWithKeypoints(1)
數(shù)據(jù)已經(jīng)預處理完畢。現(xiàn)在是創(chuàng)建訓練模型的時候了。為了創(chuàng)建我們的 CNN 模型,我們將使用 Keras 框架。from keras.models import Sequential, Model
from keras.layers import Activation, Convolution2D,MaxPooling2D,BatchNormalization, Flatten, Dense, Dropout
from keras.layers.a(chǎn)dvanced_activations import LeakyReLU
最初只從一兩個 epoch 開始,以快速評估你的模型是如何訓練的,并確定你是否應該改變其結(jié)構(gòu)或超參數(shù)。在訓練時跟蹤模型的損失如何隨時間變化:它是否首先快速減少,然后減速?在訓練多個時期并創(chuàng)建最終模型之前,使用這些初始觀察對模型進行更改并決定最佳架構(gòu)。model = Sequential()
model.a(chǎn)dd(Convolution2D(32,(3,3),padding='same',use_bias=False, input_shape=(96,96,1)))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(Convolution2D(32,(3,3),padding='same',use_bias = False))
model.a(chǎn)dd(LeakyReLU(alpha=0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(MaxPooling2D(pool_size=(2,2)))
model.a(chǎn)dd(Convolution2D(64,(3,3),padding='same',use_bias = False))
model.a(chǎn)dd(LeakyReLU(alpha=0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(Convolution2D(64, (3,3), padding='same', use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(MaxPooling2D(pool_size=(2, 2)))
model.a(chǎn)dd(Convolution2D(96, (3,3), padding='same', use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(Convolution2D(96, (3,3), padding='same', use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(MaxPooling2D(pool_size=(2, 2)))
model.a(chǎn)dd(Convolution2D(128, (3,3),padding='same', use_bias=False))
# model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(Convolution2D(128, (3,3),padding='same', use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(MaxPooling2D(pool_size=(2, 2)))
model.a(chǎn)dd(Convolution2D(256, (3,3),padding='same',use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(Convolution2D(256, (3,3),padding='same',use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(MaxPooling2D(pool_size=(2, 2)))
model.a(chǎn)dd(Convolution2D(512, (3,3), padding='same', use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(Convolution2D(512, (3,3), padding='same', use_bias=False))
model.a(chǎn)dd(LeakyReLU(alpha = 0.1))
model.a(chǎn)dd(BatchNormalization())
model.a(chǎn)dd(Flatten())
model.a(chǎn)dd(Dense(512,activation='relu'))
model.a(chǎn)dd(Dropout(0.1))
model.a(chǎn)dd(Dense(30))
model.summary()
下一步是配置模型:model.compile(optimizer='adam',loss='mean_squared_error',metrics=['mae','acc'])
model.fit(x_train,y_train,batch_size=256,epochs=45,validation_split=2.0)
示例輸出:
在整個訓練數(shù)據(jù)集中執(zhí)行了總共 50 次迭代。我們已經(jīng)學會了如何簡單地使用 CNN 來訓練深度學習模型,F(xiàn)在是時候使用我們的數(shù)據(jù)收集對模型進行測試了。我們必須首先準備我們的測試集。test_df.isnull().a(chǎn)ny()
x 測試:分離和重塑輸入測試值image_df = test_df['Image']
keypoints_df = test_df.drop('Image',axis = 1)
imageArr = []
for i in range(0,len(image_df)):
img = image_df[i].split()
img = ['0' if x=='' else x for x in img]
imageArr.a(chǎn)ppend(img)
x_test = np.array(imageArr,dtype='float')
x_test = x_test.reshape(-1,96,96,1)
print(x_test.shape)
我們知道要在測試數(shù)據(jù)集中分離目標值 (y_test)y_test = np.array(keypoints_df,dtype='float')
print(y_test.shape)
現(xiàn)在,是時候預測訓練模型的結(jié)果了:pred = model.predict(x_test)
idLookupTable.head()
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報名>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 國產(chǎn)英偉達們,抓緊沖刺A股
- 7 三次錯失風口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市