人臉表情識別包括三方面的內容:人臉檢測(定位),臉部表情特征提取,表情分類。
人臉表情分析系統的輸入圖像主要分為兩類,一類是簡單背景下的人臉圖像,一類是在任意復雜背景下的人臉圖像。目前大多數系統所使用的都是前一類圖像,而實際應用中的圖像多為復雜背景的圖像,而對此問題目前還沒有找到完美的解決方案。目前已經有的技術可以檢測到一幅圖像中只有一個人臉的,也可以檢測多個人臉的(比如OpenCV的人臉檢測算法能比較準確的找出人臉所在的位置)。但是當人臉信息不完整時,檢測效果如何,可等考證。比如人臉部分被遮擋的情況下,或者是人臉有大角度偏轉時,如何檢測人臉應該是一個有較大難度的問題。在大量的文獻中描述了各種各樣的人臉檢測算法,主要包括:主元分析(PCA),神經網絡,幾何模型,(可變形)模板匹配,運動提取,彩色分析等[1][2]。其中基于神經網絡的方法需要大量的訓練樣本,而一些基于特征的算法可以實現非正面人臉的檢測,其它算法在某些特定的條件下也有優良的表現。
人臉表情特征的提取的算法大致可以分為兩類:一類是基于特征的算法,一類是基于模板的算法?;谔卣鞯乃惴ㄍǔ6际菍讉€臉部特征點,及其周圍一小塊鄰近區域的信息的提取,用這些獲取的信息進行臉部表情的分類,主要有主動外貌模型(Active Appearance Models)[3][6],FAP提取,光流計算法等。Ekman and Friesen提出了Facial Action Coding System (FACS)[4],它是一種基于面部運動單元(AUs)描述的面部表情編碼方法?;谀0宓乃惴ㄊ前岩粋€整體的人臉模型與圖像中的人臉進行匹配,或者在序列圖像中對人臉的運動變化進行跟蹤。這種算法的計算量通常很大。對面部特征點的選定,目前以手工標識為主,目標是設計出自動提取算法。在特征提取中,可以分為兩種方法,一種是手工標識特征點,一種是自動找尋特征點。在手工標識中,這個標識的過程也就默認的包含了人臉定位的過程,而標識出特征點,相當于就提取出了當前這幅圖像的表情特征(經過一定的運算,較為簡單);而當前研究較多的是特征點跟蹤問題,跟蹤有多種方法,像光流,AAM等,但跟蹤過程中也會出現一些問題,比如特征點跟蹤丟失如何恢復等,在所看到文獻中沒有得到解決。另一種是特征點的自動標識,這個問題比較復雜,有小部分文獻中談及這個問題,但都沒有很好的解決。它的前提是人臉檢測,然后是器官檢測(比如眼睛,嘴巴等),檢測到一個區域后,從這個區域中提取特征點相對就比較容易了,現在應用的主要有尋找圖像中的轉角。如果自動特征點技術比較成熟了之后,特征點跟蹤變的沒有必要了。
表情分類中涉及兩個問題,一是情感類型,二是分類方法。情感一般認為分成六類,即高興、憤怒、厭惡、恐懼、悲傷、驚奇,但模型如何建立仍無統一理論。表情分類的方法也很多,現在主要應用的有以下一些:(1) 基于模板的分類方法[5];(2) 基于人工神經網絡(ANN)的分類方法[7];(3) 基于隱馬爾可夫模型(HMM)的分類方法[9];(4) 基于概率論的貝葉斯分類方法;(5) 基于模糊規則的分類方法等。