在實際生活中機器人需要與環(huán)境進行交互以執(zhí)行多種任務,而每個任務都需要進行合理的定位。一種簡單的定位檢測方法是標注一個圖像功能區(qū)域數據集,利用這個數據集訓練一個深度分類模型,通過模型檢測圖像中所有可能的潛在功能區(qū)域。然而,標注一個這樣的大規(guī)模數據集是相當耗時的。
我們發(fā)現,功能區(qū)域通常與周圍物體存在聯系,因此本文提出了利用物體的上下文信息作為有效先驗的方法,使用已有的目標檢測數據集,在不需要額外增加標注數據的同時,提高功能區(qū)域檢測模型的性能。在具體實現中本文定義了一個雙流網絡,該網絡結合了與物體相關的特征和與功能區(qū)域相關的特征來進行知識遷移融合,從而進行功能區(qū)域檢測。整個網絡結構是端到端的系統,并且可以簡單的利用現有的目標檢測框架實現。本文通過實驗證明該網絡與現有的方法相比,在精度和召回率上都有接近20%的提升。
課題背景
對于一個認知機器人而言,在實際執(zhí)行操作之前首先需要找到其所期望操作的區(qū)域。例如,當機器人想要去打開一個抽屜時,它需要根據抽屜手柄的形狀和位置來判斷它究竟是否需要轉動手柄抓取以及應該在哪里執(zhí)行這一動作。給定輸入為場景圖像,這種操作區(qū)域的定位和識別問題可以被定義為功能區(qū)檢測問題[24]。有了功能區(qū)域的認知后,在各類任務中,機器人可以用許多不同的行為與人類和物體進行交互。由于真實世界中的環(huán)境外觀變化的多樣性,這類任務是非常具有挑戰(zhàn)性的。例如,機器人要實現“球形物體抓握”的功能,那么目標區(qū)域可以是門、抽屜的把手,也可以是其他有著球體形狀的物體。
因為深度學習在目標分類和檢測領域已經取得了突破性進展[9][10][19],因此解決功能區(qū)域檢測問題的一個簡單方法是從圖像中提取一些潛在可能的區(qū)域,通過深層卷積網絡對這些區(qū)域的功能性進行分類[24]。不過這樣做有兩大缺陷:首先,這種方法只利用了圖像中某區(qū)域的特征而忽視了這一區(qū)域的上下文信息,而上下文信息對于由物體遮擋和視角變化引起的外觀變化是十分重要的(如圖1)。例如,水龍頭的閥門通常位于水龍頭的底部附近,而檢測更大面積的水龍頭可以幫助定位到水龍頭的閥門,否則我們很難檢測到閥門。第二點則是因為深度學習需要大量的訓練數據,而去標注得到一個龐大的功能區(qū)域檢測的數據集顯然是非常費力并且代價高昂的。
通常,更合理地利用上下文或者先驗知識將會有助于解決功能區(qū)域檢測問題。在實際情況中,功能區(qū)域檢測問題并不是一個獨立的問題,它與目標檢測問題不同卻又高度相關。例如,如果一個機器人檢測到一扇門,那么很有可能在門中的某個區(qū)域能夠讓機器人進行推/拉的動作。因此,圖像中某一區(qū)域或周圍區(qū)域的物體信息可以用來作為功能區(qū)域推斷的先驗知識。另外,物體分類和功能性推斷也共享一些相似的圖像特征,例如圖像邊緣和形狀。因此在給定大量的現有物體數據集的條件下,我們可以將從這些數據集學習到的知識遷移到新的系統,這可以減少新系統對于功能區(qū)域訓練數據的需求。
為了達到這個目的,本文提出了一種雙流網絡結構給來解決該功能性域檢測問題。我們首先使用一個目標檢測的數據集[12]訓練其中一個分支網絡,該網絡學習與物體相關的表示方式,而另一個網絡分支則用來學習功能性相關的特征表示。在此之后,我們將這兩個分支網絡學習到的特征融合在一起進行功能性的推斷。
本文工作有以下幾個貢獻:1)在解決功能區(qū)域檢測問題時利用物體信息作為先驗知識,提高檢測效果;2)提出了一種新的雙流網絡,通過將物體相關與功能性相關的特征融合在

圖1:利用物體的上下文信息促進功能區(qū)域檢測
一起,更加有效地解決這類問題。實驗結果表明,在功能區(qū)域檢測任務中使用物體特征是一種有效的方法,同時與現有的方法相比,本文的方法也取得了更優(yōu)的效果。
相關工作
A.物體屬性分類
判斷一個區(qū)域功能性的問題與物體屬性分類的問題類似,后者已經在計算機視覺和機器人學中得到了廣泛的研究。例如在面部分析[11]和人類特征分析[14]中,算法對“性別”,“種族”和“發(fā)型”等屬性進行研究分析。其他的例如為研究時尚衣著搭配進行布料顏色和風格的分析[25]等屬性分析任務也是比較熱門的研究方向。而在機器人領域中,利用RGB-D圖像來進行物體顏色,形狀和材質屬性的識別也十分的廣泛[25]。
而物體的“可供性(affordance)”也是一種關鍵的屬性,這種屬性是本文研究的重點。物體的“可供性”是指一個物理對象與人或其他智能體之間通過交互而產生的一種聯系[8]。Pieropan等人[17]根據這種聯系來研究物體分類,并借助人的示范來學習對象的可供性,例如“可讀”和“可飲用”就是一種“可供性”最近,Myers等人[15]使用手工制作的幾何特征檢測RGB-D圖像中工具部件的可供性[20]。本文研究的問題與這些問題有些關聯但不完全相同,因為本文研究的問題的首要核心在于區(qū)域而非是物體。本文研究的算法需要檢測出可能的功能區(qū)域,這個區(qū)域既有可能是一個物體,也有可能是物體的一小部分。這個問題更具挑戰(zhàn)性,因為物體的局部的特征可能不像整個物體那樣具有區(qū)分性。
B.目標檢測
目標檢測在圖像語義檢測領域中受到了廣泛的研究。早期的算法通常嘗試使用一個滑窗在一整幅圖像上進行滑動并對每個區(qū)域進行分類。為了處理物體的尺度變化,圖像金字塔(imagepyramid)模型常被用來處理原始的輸入圖像?;诓糠謪^(qū)域可變的模型(DPM)[6]也是一種經典的目標檢測方法,其中每個物體對象被表示為以圖畫結構排列而成的成分的集合。每個成分都通過手工制作的特征進行描述,經典的方法有HOG[4]等。目前,深度學習技術通過學習高級的抽象特征,在圖像識別問題方面已經取得了實質性進展。有許多基于深度學習的目標檢測算法取得了不錯的效果,比如fasterR-CNN[19],YOLO[18]和SSD算法[13]。這些方法的主要思想是使用深度卷積神經網絡(CNN)從給定的原始圖像和相應的標簽中學習物體對象的表示,而不是去學習手工設計的特征表示。本文以基于深度學習的目標檢測框架為基本結構,預測出場景圖像中的功能區(qū)域。

圖2:功能本體論[24]
C.功能區(qū)域檢測
文獻[24]提出了功能區(qū)域檢測這一問題,其給出了一個專業(yè)的定義,并提供了一批數據集。這批數據集包括室內場景的靜態(tài)圖像以及圖像上所有的功能區(qū)域。為了檢測出圖像中的功能區(qū)域,作者提出了一個兩階段的方法[24]。在第一階段,系統使用選擇性搜索的視覺注意力方法[21]來找出一組可能成為功能區(qū)域的邊界框。其中,選擇性搜索方法主要在顏色,強度和邊緣信息等各種視覺特征上實現邊界框的生成。在第二階段中,第一階段尋找出的邊界框所對應的圖像區(qū)域則成為了一個深度網絡的輸入,網絡的輸出是該區(qū)域屬于某類特定功能區(qū)域的概率。這個深度網絡將首先在一個大規(guī)模通用圖像數據集上進行訓練,訓練完之后再利用功能區(qū)域數據集進行微調。而本文制定了一個新的更容易實現和訓練的端到端的雙流網絡結構,該網絡能夠分別提取物體相關的特征和功能相關的特征并對特征進行融合,融合后的特征傳入預測網絡中得到功能區(qū)域的邊界框以及對應的功能類別。實驗表明本文提出的方法在各個性能指標上都有顯著的提升。
方法
A.問題定義
對于功能區(qū)域檢測問題,我們遵循文獻[24]的設定:假設機器人采集靜態(tài)的室內圖像作為輸入,輸出一系列矩形框,每一個矩形框都包括了一個目標區(qū)域并對應著一個功能標簽。在定義功能本體論(functionalityontolog)上,前人已經有了一些工作:Worgotter等人[22]根據手跟物體的關系將操作的動作劃分為一些基本類型。文獻[24]的作者進一步研究了一個可以在室內環(huán)境中操作的常用動作集合,并且提出了機器人功能本體集合,如圖2所示。
其中,機器人的功能本體論一般可以分為3個類型,分別為:“家具、設備、墻壁的一

圖3:fasterR-CNN的組成結構。利用不用尺度和方向比率的anchorbox,模型可以在一次前向傳播中檢測出不同尺度大小的功能區(qū)域
小部分”,“物體”和“家具”三種。對于“家具、設備、墻壁的一小部分”這種類型,有兩種主要的功能,分別是與設備把手相關的開關的功能(open),以及與墻壁按鈕相關的開關功能(turnon/off)。這兩個主要功能還可以進行更加細致的劃分,比如依據把手的類型可以將開關功能分為球形把手的“旋轉開關”和條形把手的“推拉開關”。依此類推,我們最終可以歸納出11種功能。因此,問題的定義可以描述為:給定一張靜態(tài)場景圖像,識別出圖像中可能出現的11種功能區(qū)域。為了方便可視化,圖2對于每種功能都給出了一個特定的符號。
B.端到端的多尺度功能區(qū)域檢測
根據III-A節(jié)的定義,一個功能區(qū)域既可能是一個物體也有可能是物體的一部分。這意味著功能區(qū)域在圖中大小不一。這種區(qū)域尺度的不確定性對算法更具有挑戰(zhàn)性。早期的方法是在圖像金字塔中使用滑窗進行遍歷。然而,這在某些應用的場景中效果并不明顯。FasterR-CNN目標檢測框架[19]對于解決這種問題則更加有效。
圖3解釋了fasterR-CNN在目標檢測中的處理流程。通常,fasterR-CNN分為兩個模塊。第一個模塊將圖像作為輸入,生成感興趣區(qū)域(regionofinterest)。第二個模塊從感興趣區(qū)域(regionofinterest)中提取更深層次的特征,進一步推斷目標類別和位置。由于一些小區(qū)域可能會在第一階段丟失,因此需要在不同尺度下對功能區(qū)域進行檢測。
第一個模塊被稱為區(qū)域提議網絡(RPN,RegionProposalNetwork),它可以通過全卷積網絡來實現。RPN首先通過特征提取網絡生成特征圖,特征圖的每一個網格點上的特征向量再傳入一個小的網絡中,得到預測的矩形框和對應的分數。整個流程如圖3所示,RPN的目標輸出為矩形框的坐標和對應矩形框的分數(更高的分數意味著這個矩形框包含功能區(qū)域的可能性越大)。這里的坐標用不同尺度和方向比率的anchorbox來表示。這意味著特征圖中的一個網格點的特征向量(特征的大小是固定的)表示著不同大小的區(qū)域。輸出的候選框可以從自身的特征生成或者根據額外的周圍的信息生成。通過設置不同尺度和方向比率的anchorboxes,在不同尺度下網絡可以充分利用不同區(qū)域的上下文信息來定位區(qū)域,最終得到對應的感興趣區(qū)域。
第二個模塊由另外一個深度網絡組成,這個深度網絡由若干卷積層組成,這些卷積層可以進行更深層次的特征提取。這個深度網絡首先根據感興趣的區(qū)域,從特征提取網絡提取到的特征中抽選出該區(qū)域的特征作為網絡的輸入,然后使用卷積神經網絡進行特征提取獲得新的特征,最后進行候選框位置的進一步回歸微調與該候選框對應區(qū)域的功能分類。
這兩個模塊可以結合起來進行端到端的訓練。通過這兩個步驟之后,每一類(即功能區(qū)域)都可能獲得一個或者多個矩形框。每一類中的矩形框相互之間很可能存在高度重合的情形。為了減少這種冗余,本文采用非極大值抑制(NMS)[16]的方法進行后處理。
總之,本文使用RPN來生成不用尺度的候選框并使用fasterR-CNN進行功能區(qū)域檢測。然而,因為沒有對物體進行標注,這種方法不能利用周圍物體的信息,特別是在第二個模塊中這種情況更加明顯。為了發(fā)揮物體信息的優(yōu)勢,本文使用已有的目標檢測數據集訓練一個深度神經網絡并使用功能區(qū)域數據集進行微調。實驗證明這種方法可以作為一個有效的基準實驗。但是由于功能區(qū)域數據集的數量有限,這種方法很容易造成過擬合的情形,同時網絡中的物體信息會在微調的過程中消失。為了解決這個問題,本文提出了一種雙流網絡,這個網絡即使用了與物體相關的特征,也利用了功能區(qū)域相關的特征,這一部分將在第III-C節(jié)中介紹。
C.融合物體信息的雙流網絡結構
圖4展示了本文提出的雙流網絡。將輸入圖像I傳入兩個網絡,這兩個網絡分別稱之為“功能CNN(CNNfunc)”和“物體CNN”(CNNobj),CNNfunc和CNNobj具有相同的結構(但是兩個網絡的參數是不同的)。這兩個網絡將分別提取功能相關的特征圖和物體相關的特征圖。對于功能區(qū)域的特征,我們利用第III-B節(jié)介紹的RPN生成邊界框的集合,接著可以用這些邊界框從特征圖中選出對應的特征,再將這些特征通過ROI池化操作[19]得到固定大小的特征。在選擇物體相關的特征時,首先利用一個固定的縮放系數來擴大邊界框的大小,該擴大的邊界框從物體相關的特征圖中選出與物體相關的特征,再通過ROI池化操作得到同樣固定大小的特征。最后,利用下面的公式將功能相關的特征ffunc和fobj物體相關的特征融合在一起:
ffuesd=入ffunc+(1-入)fobj
其中表示兩個特征的重要性。在實驗中設為0.5。融合的特征ffuesd傳入另一個深度網絡CNNpred(ffuesd)中。CNNpred(ffuesd)最終回歸預測出功能區(qū)域的位置以及對應的功能。
D物體知識遷移的訓練
為了利用已有的目標檢測數據集和遷移物體知識,我們將雙流網絡的訓練分為兩個階段。在第一階段,我們需要對網絡參數進行初始化工作。我們使用已有的目標檢測數據集,按照fasterR-CNN的訓練方式[19]訓練一個目標檢測網絡,如圖3所示。如文獻[19]所述,整個訓練過程通過反向傳導算法和隨機梯度下降法[2]進行端到端的訓練。訓練好的初始化網絡的參數即可作為雙流網絡的初始化參數,參數的具體設置如下:RPN特征提取網絡中參數作為雙流網絡中CNNfunc和CNNobj的參數,而圖3中預測網絡的參數作為雙流網絡中CNNpred的參數。其中物體的候選框是對由上半部分的網絡預測得到的候選框進行放大得到的。提取到的物體特征和功能特征進行融合,并傳入預測網絡進行功能區(qū)域的推斷。
在第二階段,為了保護第一階段學習到的物體知識,我們固定的CNNobj參數,在用功能區(qū)域數據集訓練時只微調雙流網絡中其余的參數。與訓練fasterR-CNN相同,雙流網絡中有兩個損失函數。
第一個損失函數為RPN網絡的損失函數,這個損失函數是二分類損失函數(判斷候選區(qū)域是否為功能區(qū)域)和回歸損失函數(預測區(qū)域和真實區(qū)域邊界框的歐氏距離)的結合。

圖4:雙流網絡結構。網絡的上半部分提取功能相關的特征,下半部分提取物體相關的特征。
第二個損失函數是最終結果的損失函數,除了分類情形為多分類而非二分類外,整個損失函數與RPN網絡的損失函數一樣。這兩個損失函數都是可微的,自然式(1)也是可微的。同時,對于候選坐標的ROI池化操作也是可微的[3]。因此,我們可以使用隨機梯度下降法來訓練整個模型。
結果
A.實現細節(jié)
本次實驗使用深度學習框架TensorFlow來實現本文提出的網絡結構[1]?;赗esNet-101[7]在圖像識別中的高效表現,我們采用了ResNet-101[7]架構作為網絡中的基本模塊。CNNfunc和CNNobj都包括了[7]中的前四個殘差模塊,(即conv1,conv2_x,conv3_x和conv4_x,總共91個卷積層),CNNpred包括了ResNet-101中的最后一個殘差模塊(即conv5_x層)。最后的結果通過兩個全連接層得出。實驗首先使用COCO數據集訓練一個fasterR-CNN模型[19],其次將模型的參數作為CNNfunc、CNNobj和CNNpred的初始化參數。然后我們固定CNNobj的參數,再利用功能區(qū)域數據集微調雙流網絡。實驗中訓練的學習率設為0.0003,批的大小設為1,anchorbox的大小設為0.125,0.2,0.5,1,2,方向比率(aspectratio)為0.5,1,2。非極大值抑制(NMS)的重疊度(IoU,IntersectionoverUnion)設置為0.7。

圖5:coco數據集的樣本示例
B.數據集和評價指標
本次實驗利用[24]提供的功能區(qū)域數據集對模型進行訓練和測試。該數據集包括了約600張從SUN數據集[23]中得到的廚房場景圖像,圖7展示了數據集中的一些樣本。整個數據集有近10000個標注的區(qū)域樣本。這些樣本的統計分布如圖6所示。為了對我們的模型進行評估,本次實驗采用了與[19]相同的評價指標,將訓練集90%的數據作為訓練數據,剩下的作為測試數據。

圖6:數據集中不同功能區(qū)域數量的統計直方圖
對于物體網絡,我們使用COCO數據集[12]學習與物體相關的特征。COCO數據集中包含了91種常見的物體類別,例如人,車,桌子,瓶子,碗等等。這些圖像均來源于網絡,有著多種多樣的場景,如廚房,街道,公園等。每一張圖像包括了各種類別物體的矩形框。COCO數據集的圖例樣式如圖5所示。整個訓練數據集共包含80000張圖像。
本次實驗與[24]一樣使用精度,召回率和F1值作為算法的評價指標。一個正確的預測結果應符合以下兩點要求:(1)正確預測出功能類型;(2)預測的矩形框和真實標簽的矩形框的IoU值要大于0.5。精度,召回率和F1值的計算如下所示:

在這里tp、fn分別表示正確的正樣本和錯誤的負樣本的數量。
C.基準方法(BaselineMethods)
為了證明本文提出方法的有效性,本實驗采用下面的方法作為評價基準:
1.選擇搜索(selectivesearch)+CNN分類[24]。該方法首先利用選擇搜索[21]生成候選框。生成候選框之后,將每個候選框選中的圖像塊作為輸入傳入CNN并預測出該候選框的功能類別。該CNN首先使用ImageNet圖像分類數據集[5]進行預訓練,然后用功能區(qū)域數據集進行微調。本實驗使用原文章[24]的實驗結果作為本文的基準實驗結果。因為[24]采用了“困難樣本挖掘”(“hardsamplemining”)的方法來調整CNN模型,所以其精度和召回率在每輪調整訓練的時候都不同,我們將[24]中的3輪調整訓練的結果都作為本次實驗的基準結果。
2.FasterR-CNN[19]。在訓練fasterR-CNN過程中,首先用COCO數據集進行預訓練,然后用功能區(qū)域檢測數據集進行微調。為了保證實驗的公平性,這個基準方法也使用ResNet-101[7]作為特征提取模塊,預測網絡跟本文提出方法的網絡結構一致,訓練的超參數跟[7]的設置一致。本文提出的方法跟fasterR-CNN的主要不同點在于:(1)在功能區(qū)域預測時保留了物體相關的特征;(2)anchorbox的尺度和方向比率更多。
D.與基準方法的量化比較
表格1展示了本文提出的方法和其他基準方法的精度、召回率和F1值。通過對比可知fasterR-CNN在性能上比[24]使用的選擇搜索+CNN分類的方法要更好。這是因為fasterR-CNN是一種結合特征學習和區(qū)域檢測的端到端的方法,多尺度的anchorboxes能夠處理多種尺度的區(qū)域。表格中的結果說明本文提出的方法要比已有的方法有更好的性能。本文的方法是在fasterR-CNN的基礎上建立的,因此結果表明了融合物體信息并且增加更多類型的anchorbox是行之有效的。

E.控制變量分析(AblativeAnalysis)
為了進一步分析本文提出的方法的各個模塊的效果,本部分實驗將對模型進行不同的設置并進行比較。表格2展 示了該實驗的測試結果。在表格2中,模型A移除了雙流網絡中的其中一支網絡,并且將anchorbox的種類設置與[19]一致,所以模型A與原始的fasterR-CNN一致。模型B保持與[19]一致的anchorbox的設置,但增加了能夠提取物體相關特征的網絡。從表格中可以看出精度從模型A的38.04%提升到模型B的52.29%。這一結果表明了物體知識對預測功能區(qū)域的有效性。模型C和模型D增加了anchorbox在尺度和方向比率上的多樣性,這個改進同樣提高了模型的性能,可以看出模型D在增加了物體知識之后的性能要比沒有增加的模型C好。

F.量化分析
為了可視化算法的性能,圖7展示了在一些新的場景中算法對功能區(qū)域的預測結果。從圖中可以看出,算法能夠預測出不同大小的功能區(qū)域,甚至能夠預測出比較小的抽屜把柄區(qū)域并正確的標識為“旋轉抓取并打開”。然而從圖中也能發(fā)現許多缺失的區(qū)域,比如圖7(b)的煤氣爐開關。經分析,這種現象出現的可能原因有以下兩點:(1)在使用CNN做特征提取的時候圖像中的細節(jié)可能會因為下采樣層導致特征丟失。(2)后期使用的非極大值抑制處理可能會把重疊率較高的矩形框融合在一起。

圖7:本文方法在[24]提供的數據集上的實驗結果
為了進一步了解本文方法的性能提升的程度,實驗還利用預測區(qū)域對應的預測功能類別與該區(qū)域的真實功能類別求出混淆矩陣,并對該矩陣進行可視化,如圖8所示。因為本問題不是一個分類問題,我們只要看要預測的區(qū)域與哪一個標注的區(qū)域重疊度最高。所以為了獲得預測區(qū)域的真實標簽,我們將預測的區(qū)域與真實標注區(qū)域重疊度大于0.5的區(qū)域對應的標簽作為該預測區(qū)域的真實標簽,如果該區(qū)域跟每個標簽的重疊都小于0.5,那么就將預測區(qū)域標為“背景”這一類。通過對混淆矩陣的觀察,可以發(fā)現很多屬于背景的區(qū)域被預測成為功能區(qū)域。對實驗結果進行分析后發(fā)現,錯誤的結果中存在著錯誤的正樣本的情形,但也找到了一些區(qū)域預測是正確的但是卻缺失了真實的標簽的情況。部分樣例如圖9所示。從中可以看到有些功能區(qū)域分布在不同的視角上,有些分布在一個密集的場景中,這對標注員來說也是一個很大的挑戰(zhàn),因此可能存在漏標的情況。

圖8:測試結果的混淆矩陣,垂直軸表示真實標簽,水平軸表示預測結果

圖9:一些錯誤的正樣本的示例,在這些示例中模型正確預測出功能區(qū)域和對應的功能,但是數據中沒有標注
因為訓練跟測試數據都是在廚房環(huán)境中,所以為了真正說明算法的泛化能力,還需要在不同場景下進行算法測試。我們下載了一批非廚房的室內場景圖像,然后利用這些圖像測試本文提出的算法。結果如圖10所示。雖然預測結果存在一些錯誤,但是仍可以發(fā)現模型能夠找到一些新的有意義的區(qū)域。比如,枕頭沒有出現在廚房場景的訓練集中,但是算法依然能夠正確的將它框出并標注為“夾取并移除”。類似的,算法將床標注為“坐”。這些都證明了模型能夠擴展到新的未見過的區(qū)域中。

圖10:非廚房場景的功能區(qū)域檢測測試。可以發(fā)現算法能夠檢測到廚房場景中沒有見過的功能區(qū)域
結論
本文研究了如何結合物體知識來提升功能區(qū)域的檢測問題,我們定義了一個雙流網絡結構,該網絡結構能夠提取和融合物體相關特征和功能相關特征。同時本文中也討論了處理多尺度區(qū)域的問題。實驗中將本文提出的方法與基于深度學習的目標檢測算法[19]和前人做的功能區(qū)域檢測算法[24]進行對比,證明了本文算法優(yōu)越的性能,同時也證明了融合物體相關特征的有效性。實驗也進一步證明,本文提出的算法能夠處理沒有在訓練集中見過的場景和物體所包含的功能區(qū)域。由于目前fasterR-CNN[18]在通用物體檢測上有很好的性能表現,因此本文的算法也采用了fasterR-CNN架構,其他的目標檢測架構也可以很方便地應用到本文提出的算法上。本文的非常重要的貢獻在于將物體相關的知識應用到功能區(qū)域檢測問題上。
參考文獻
[1]Mart´?nAbadi,AshishAgarwal,PaulBarham,EugeneBrevdo,ZhifengChen,CraigCitro,GregS.Corrado,AndyDavis,JeffreyDean,MatthieuDevin,SanjayGhemawat,IanGoodfellow,etal.TensorFlow:Large-scalemachinelearningonheterogeneoussystems,2015.Softwareavailablefromtensorflow.org
[2]L´eonBottou.Large-scalemachinelearningwithstochasticgradientdescent.InProceedingsofCOMPSTAT,pages177–186.2010.
[3]JifengDai,KaimingHe,andJianSun.Instance-awaresemanticsegmentationviamulti-tasknetworkcascades.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages3150–3158,2016.
[4]NavneetDalalandBillTriggs.Histogramsoforientedgradientsforhumandetection.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,volume1,pages886–893,2005.
[5]J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,andL.Fei-Fei.ImageNet:ALarge-ScaleHierarchicalImageDatabase.InProceedingsofIEEEconferenceonComputerVisionandPatternRecognition,2009.
[6]PedroFFelzenszwalb,RossBGirshick,DavidMcAllester,andDevaRamanan.Objectdetectionwithdiscriminativelytrainedpart-basedmodels.IEEETransactionsonPatternAnalysisandMachineIntelligence,32(9):1627–1645,2010.
[7]KaimingHe,XiangyuZhang,ShaoqingRen,andJianSun.Deepresiduallearningforimagerecognition.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,pages770–778,2016.
[8]HemaSwethaKoppula,RudhirGupta,andAshutoshSaxena.Learninghumanactivitiesandobjectaffordancesfromrgb-dvideos.TheInternationalJournalofRoboticsResearch,32(8):951–970,2013.
[9]AlexKrizhevsky,IlyaSutskever,andGeoffreyEHinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.InAdvancesinNeuralInformationProcessingSystems,pages1097–1105,2012.
[10]SulabhKumraandChristopherKanan.Roboticgraspdetectionusingdeepconvolutionalneuralnetworks.arXivpreprintarXiv:1611.08036,2016.
[11]YiningLi,ChenHuang,ChenChangeLoy,andXiaoouTang.Humanattributerecognitionbydeephierarchicalcontexts.InProceedingsofEuropeanConferenceonComputerVision,pages684–700,2016.
[12]Tsung-YiLin,MichaelMaire,SergeBelongie,JamesHays,PietroPerona,DevaRamanan,PiotrDoll´ar,andCLawrenceZitnick.Microsoftcoco:Commonobjectsincontext.InProceedingsofEuropeanConferenceonComputerVision,pages740–755,2014.
[13]WeiLiu,DragomirAnguelov,DumitruErhan,ChristianSzegedy,ScottReed,Cheng-YangFu,andAlexanderCBerg.Ssd:Singleshotmultiboxdetector.InProceedingsofEuropeanConferenceonComputerVision,pages21–37,2016.
[14]ZiweiLiu,PingLuo,XiaogangWang,andXiaoouTang.Deeplearningfaceattributesinthewild.InProceedingsoftheIEEEInternationalConferenceonComputerVision,pages3730–3738,2015.
[15]AustinMyers,ChingLTeo,CorneliaFerm¨uller,andYiannisAloimonos.Affordancedetectionoftoolpartsfromgeometricfeatures.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages1374–1381,2015.
[16]AlexanderNeubeckandLucVanGool.Efficientnon-maximumsuppression.InProceedingsofInternationalConferenceonPatternRecognition,volume3,pages850–855,2006.
[17]AlessandroPieropan,CarlHenrikEk,andHedvigKjellstr¨om.Functionalobjectdescriptorsforhumanactivitymodeling.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages1282–1289,2013.
[18]JosephRedmon,SantoshDivvala,RossGirshick,andAliFarhadi.Youonlylookonce:Unified,real-timeobjectdetection.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages779–788,2016.
[19]ShaoqingRen,KaimingHe,RossGirshick,andJianSun.Fasterr-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks.InAdvancesinNeuralInformationProcessingSystems,pages91–99,2015.
[20]YuyinSun,LiefengBo,andDieterFox.Attributebasedobjectidentification.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages2096–2103,2013.
[21]JasperRRUijlings,KoenEAVanDeSande,TheoGevers,andArnoldWMSmeulders.Selectivesearchforobjectrecognition.InternationalJournalofComputerVision,104(2):154–171,2013.
[22]FlorentinW¨org¨otter,ErenErdalAksoy,NorbertKr¨uger,JustusPiater,AlesUde,andMinijaTamosiunaite.Asimpleontologyofmanipu-lationactionsbasedonhand-objectrelations.IEEETransactionsonAutonomousMentalDevelopment,5(2):117–134,2013.
[23]JianxiongXiao,JamesHays,KristaAEhinger,AudeOliva,andAntonioTorralba.Sundatabase:Large-scalescenerecognitionfromabbeytozoo.InProceedingsofIEEEconferenceonComputerVisionandPatternRecognition,pages3485–3492,2010.
[24]ChengxiYe,YezhouYang,RenMao,CorneliaFerm¨uller,andYiannisAloimonos.Whatcanidoaroundhere?deepfunctionalsceneunder-standingforcognitiverobots.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages4604–4611,2017.
[25]BoZhao,JiashiFeng,XiaoWu,andShuichengYan.Memory-augmentedattributemanipulationnetworksforinteractivefashionsearch.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,July2017.
引言
據世界衛(wèi)生組織估計,約15%的成年人(約7.66億人)有一定程度的聽力受損,并且隨著世界人口的擴張和人口老齡化,這一數字還將持續(xù)上升。對更高級的智能助聽設備的市場需求將會越來越大,智能助聽設備的潛在市場不僅僅局限于聽力受損人群,技術人員還可以將該技術應用到人機語音交互、復雜聲場環(huán)境下的言語交流等方面。

近150年以來,技術的不斷變革在不斷改善助聽設備的性能。早期的通話管(1880年)完全依靠對聲音的放大處理。到了1900年,第一臺電助聽設備誕生,它通過碳膜來放大聲音。1921年,根據使用者聽力損失類型的不同,出現使用真空管的助聽設備。隨著晶體管的出現,1952年第一臺耳背式助聽器誕生。20世紀80年代,針對聽力受損嚴重患者,具有臨床意義的電子人工耳蝸面世。上世紀90年代以來,將聲波信號轉換成數字信號的數字助聽設備成為主流,如今的助聽設備數字信號處理能力強大,對聲音進行放大前還需做語音增強以去除背景噪聲,以進一步提高助聽設備的性能。
如何進行語音增強實現降噪成為目前提高助聽設備性能的一大技術挑戰(zhàn)。語音增強包括語音降噪、語音分離和語音去混響等,其目的都是改進語音質量,消除背景噪聲。本調研文章介紹的語音增強主要為語音降噪技術,將主要介紹兩種基于機器學習的方法,實現助聽設備的智能化語音增強。
傳統的語音降噪技術
長期以來,許多研究人員致力于研究語音降噪技術,這些降噪技術可以分為兩類:多麥克風陣列和單麥克風框架。當目標語音和噪聲在空間上可分離時,多麥克風陣列降噪方法的優(yōu)勢明顯[1]。然而,在混響環(huán)境中,多麥克風的降噪方法的性能降低,并且它的應用通常局限于目標語音和噪聲源空間可分離的聲場[2]。因為附加的麥克風增加了設備費用和計算成本,因此,與多麥克風的降噪方法相比,單麥克風降噪方法更具經濟優(yōu)勢。因此,研究人員提出了多種單麥克風降噪技術,例如INTEL[3-4]、對數最小均方誤差(logMMSE)[5]、基于先驗信噪比估計的維納濾波器(Wiener)[6]、KLT[7-9]、ClearVoice[10]、基于信噪比的降噪方法[11]和廣義最大后驗頻譜振幅[12]等。這些降噪方法大都是基于對語音和噪聲信號的統計學分析而提出的[13]。另一種流行的傳統降噪方法是使用端點檢測器識別人說話的停頓間隙,將此指定為噪聲,然后將其從帶噪語音中“減去”獲得降噪后的語音。這種降噪方法也被稱為譜減法,但是它通常對噪聲抑制太少或者消除太多噪聲,以至于將目標語音也消除了,這也就帶來了聽起來有韻律感的音樂噪聲,使得降噪后的語音質量下降。
Chen等人在2015年招募人工耳蝸植入者作為被試者,對幾種單麥克風降噪方法效果進行了評估,發(fā)現大多數降噪方法在噪聲條件下有效提高了人工耳蝸植入者的語音識別率。但是,這些方法在不同噪聲條件下表現不一。傳統的單麥克風降噪方法在穩(wěn)定噪聲條件下給人工耳蝸植入者的語音識別帶來顯著改善,但在具挑戰(zhàn)性噪聲條件下(例如當競爭信號是語音信號[14]或快變噪聲[15]),仍然有很大的性能改善空間?;跈C器學習的降噪方法在具挑戰(zhàn)性的噪聲條件下很好地彌補了傳統降噪方法的短板。
基于噪聲分類器+深度降噪自編碼器的降噪方法
Lu等人2013年提出了一種基于深度降噪自編碼器(DDAE)的降噪方法,該方法將降噪轉換成非線性編碼-解碼任務,以此來映射噪聲信號和干凈語音信號之間的特征。Lu等人發(fā)現,針對常見噪聲進行降噪,使用多種標準化客觀評估,DDAE降噪方法的性能優(yōu)于傳統單麥克風降噪方法[16]。2017年,Lai等人評估了非匹配DDAE模型(即訓練和測試階段使用不同類型的噪聲)對使用聲碼器生成的語音降噪效果??陀^評估和主觀聽力測試的結果均表明,在非平穩(wěn)噪聲條件下,DDAE降噪方法處理后的語音可懂度高于傳統降噪方法。非匹配的DDAE模型已經可以提供較好的降噪效果[17],但是只有當測試集和訓練集噪聲類型相同時(即匹配的DDAE模型),DDAE降噪效果才能達到最佳。因此,Lai等人于2018年提出了一種新的降噪方法,即采用額外的噪聲分類器(以下簡稱NC)模塊,來進一步提高基于DDAE降噪方法的性能。我們稱之為NC+DDAE降噪方法。

NC+DDAE降噪系統的細節(jié)框圖[18]可參考圖2。當給定帶噪語音信號時,NC模塊首先確定噪聲類型并選擇最合適的DDAE模型來執(zhí)行降噪。在DDAE模塊中,設計了多個噪聲相關DDAE(noise-dependentDDAE,ND-DDAE)模型和一個與噪聲無關的DDAE(noise-independentDDAE,NI-DDAE)模型。每個ND-DDAE都是根據某一特定類型的噪聲進行訓練的,而NI-DDAE則是針對多種噪聲類型進行訓練的。下面將分別介紹NC和DDAE模塊。
基于深度神經網絡的噪聲分類器模塊
NC模塊是基于深度神經網絡(deepneuralnetwork,DNN)模型構建的。DNN模型是在輸入層和輸出層之間具有許多隱藏層的前饋人工神經網絡。如圖2上半部分所示,使用梅爾頻率倒譜系數(Mel-frequencycepstralcoefficients,MFCC)[19-20]作為NC模塊的聲學特征。MFCC廣泛應用于各種聲學模式分類任務,如音樂分類[21]和自動聽診[22]。MFCC特征提取過程包括六個步驟:(1)預加重:補償在人類發(fā)聲過程中被抑制的高頻部分;(2)加窗:給定信號被分成一系列的幀;(3)快速傅立葉變換:獲得每幀的頻譜響應以進行頻譜分析;(4)梅爾濾波:將梅爾濾波帶的頻率成分整合為單能量強度;(5)非線性變換:該變換取所有梅爾濾波帶強度的對數形式;(6)離散余弦變換:將所有梅爾濾波帶強度的對數轉換成MFCC。研究表明,39維MFCC(13維原始MFCC+13維一階MFCC+13維二階MFCC)可以更精確地表征聲學模式,從而產生更好的識別性能[23-24]。
在NC模塊中,這里進一步采用置信度(ConfidenceMeasure,CM)[25]來評估識別結果的可靠性。CM分數表示我們可以相信識別結果的程度:分數越高表示對識別輸出的置信度越高,反之亦然。計算完CM分數之后,定義一個閾值以對結果中的置信度分類。如前所述,NC模塊的目標是確定噪聲類型,然后根據噪聲類型來選擇最合適的DDAE模型來執(zhí)行降噪。因此,如果所確定的噪聲類型的CM評分高于閾值,則選擇相應的ND-DDAE模型來執(zhí)行降噪;另一方面,如果CM評分低于閾值,則直接使用NI-DDAE模型來執(zhí)行降噪。
基于深度降噪自編碼器的降噪模塊
DDAE降噪模塊的結構如圖2下半部分所示。DDAE是一種有監(jiān)督的降噪方法,基于DNN的架構,得到帶噪語音信號和干凈語音信號之間的映射函數。DDAE降噪方法有兩個階段:訓練和測試階段。在訓練階段,準備好一系列帶噪和相應的干凈語音信號對;在訓練階段,帶噪-干凈語音信號對首先轉換為對數功率譜特征(LogPowerSpectra,LPS),LPS特征通常用在基于DNN降噪方法中[15,26]。對輸入信號進行短時傅里葉分析,計算每個重疊加窗幀的離散傅里葉變換,從而獲得LPS譜。
如圖2所示,一共準備N個ND-DDAE模型(例如ND-DDAE_1至ND-DDAE_N)和一個NI-DDAE模型。一共N+1個模型都在訓練階段訓練好。值得注意的是,每個ND-DDAE模型都是在某一特定噪聲類型下訓練,因此在這一特定噪聲類型條件下,模型可以更準確地表征帶噪語音信號轉換到對應干凈語音信號的特征。另外,NI-DDAE模型由多種類型的噪聲訓練,因此在特定噪聲類型條件下降噪,它的表征能力不如ND-DDAE。但是,因為NI-DDAE模型由多種類型噪聲訓練,它對新出現的噪聲類型降噪效果會較好。這里提出的NC+DDAE降噪方法可以總結如下:(1)當測試噪聲類型被包含在訓練集中,系統選擇最恰當的ND-DDAE模型進行降噪(即匹配的DDAE模型);(2)當測試噪聲不被包含在訓練集中,NI-DDAE模型用來降噪(即非匹配的DDAE模型),它對不同類型噪聲的泛化能力較好。
效果評測
為了測試NC+DDAE降噪方法的效果,研究采用歸一化協方差度量(NormalizedCovarianceMeasure,NCM)[27]來客觀評估降噪后的語音的可懂度,并招募了9名說普通話的人工耳植入者進行臨床聽力測試,使用詞正確率(WordCorrectRate,WCR)[17,28-31]作為評估指標。測試過程采用雙人交流噪聲和建筑手提鉆噪聲,信噪比等級分別設置為0和5dB。NCM評分和WCR評分都表明,NC+DDAE降噪方法相比于傳統單麥克風降噪方法和DDAE降噪方法,降噪效果有顯著性提升。
與傳統的降噪技術相比,NC+DDAE降噪方法可以被視為只需數據的有監(jiān)督學習方法。這種降噪方法學習從帶噪語音信號到干凈語音信號的映射函數,而不會強加任何假設。再基于NC+DDAE模型的映射函數,不使用任何噪聲估計算法,將帶噪語音直接轉換為干凈的語音。因此,即使在處理困難的,競爭性噪聲或信噪比0dB時,NC+DDAE降噪后的語音可懂度也比傳統降噪方法高。
基于深度神經網絡+理想二值掩蔽的降噪方法
1990年,來自加拿大蒙特利爾麥吉爾大學的心理學家AlbertBregman,提出人類聽覺系統將聲音分成不同的聲音流,例如,幾個朋友一邊聊天一邊放著音樂,這就構成了所謂的聽覺場景。聽覺場景中每個聲音流的音調、響度和方向都是不同的。如果兩個聲音在同一時間共享了同一頻段,響度高的聲音流壓倒響度較低的,這就是聽覺掩蔽原理,譬如,屋外的雨打在窗戶上發(fā)出“滴答滴答”的聲音,人可能就不會注意到屋內掛鐘的滴答聲。
基于上述提到的原理,來自美國俄亥俄州立大學的WangDeliang提出了理想二值掩蔽方法[32],在一個特定頻段內的一個特定短暫間隔(或時頻單元),理想二值掩蔽濾波器分析帶噪語音的每個時頻單元,并將每個時頻單元標記為“0”或者“1”,如果目標語音強于噪聲,標記為1,反之標記為0。然后濾波器拋棄標記為0的單元,利用標記為1的時頻單元重建語音。理想二值掩蔽極大改善了聽力障礙者的語音理解能力,但是這里的理想二值掩蔽是停留在實驗室層面的,實驗設計將語音和噪聲混合,濾波器是知道什么時候目標語音比噪聲響度大的,因此稱之為理想的。一個真正實用的二值掩蔽濾波器,需要完全獨立地實時地將聲音從背景噪聲中分離出來。因此Wang等人嘗試了將深度神經網絡結合理想二值掩蔽的降噪方法,以實現機器獨立地學習區(qū)分目標語音和背景噪聲。
效果評測
為了測試深度神經網絡+理想二值掩蔽方法的降噪效果,研究人員招募了12位聽力受損者和12位聽力正常者進行測試,被試者通過耳機聽語音樣本。樣本是成對的:首先是原始帶噪音頻,然后是基于深層神經網絡的程序處理后的音頻。使用兩種噪音進行測試,即平穩(wěn)的“嗡嗡嗡”噪聲和許多人同時說話的噪聲。許多人同時說話噪聲是創(chuàng)造了嘈雜的噪聲背景,加入四名男性和四名女性說話語句,模仿雞尾酒會場景。
兩組被試者測試結果表明,通過神經網絡對帶噪語音進行降噪,語音信號的可懂度都有了很大的提高。在多人同時說話噪聲條件下,聽力障礙者只能理解原始帶噪語音29%的內容,但對于處理后的音頻,他們理解的內容達到了84%。更有結果從10%提高到了90%。在穩(wěn)定噪聲條件下,類似的改善也很明顯,被試者的理解程度從36%提高到了為82%。
經過上述方法降噪后,正常聽力者的表現也有所提升,這意味著此研究的應用前景比預期的要大得多。穩(wěn)定噪聲條件下,聽力正常者理解程度從37%提升到了80%。在多人同時說話噪聲條件下,他們的表現從40%提高到了78%。
有趣的是,研究人員發(fā)現,使用上述降噪方法后,聽力障礙者的表現甚至會超過正常聽力者,這意味著基于深度神經網絡的方法,有望解決迄今為止研究人員花費無數精力的“雞尾酒會效應”問題。
未來展望
現實生活場景中,噪聲是多樣化的,因此應用到實際場景中,無論是噪聲分類器+深度降噪自編碼器降噪方法,還是深度神經網絡+理想二值掩蔽降噪方法,都需要學會快速濾除同時出現的多種類型噪聲,包括訓練集中未出現過的新噪聲。研究人員通過增加訓練集噪聲的種類和數量,例如,Wang等人將訓練數據中噪聲類型提高了10000種,不斷優(yōu)化改進訓練后的模型,以實現基于機器學習語音增強的現實應用意義。
另外,計算復雜度目前是基于DNN的降噪方法在助聽設備中應用的關鍵問題。由于其多層結構,DNN模型在運行時需要大量內存和高計算成本。因此,保持其性能的同時,減少在線計算量,以此來簡化DNN模型的架構,這樣的要求是非常苛刻的。最近,研究人員提出了許多方法來制備基于DNN的高度可重構且節(jié)能的處理器,用來實施各類模式分類和回歸任務[33-39]。同時,研究人員也在努力解決高計算成本的問題。例如,蒸餾方法[40]將復雜模型轉換成到更適合部署的簡化模型。另一個著名的方法是在基于深度學習的模型中,對參數進行二進制化處理以減少內存大小和訪問量[41]。隨著深度學習算法和硬件的快速發(fā)展,上述提到的降噪方法可以在不久的將來在助聽設備中實現應用。此外,已有多個系統可以將助聽設備與智能手機,電視機或MP3播放器等其他設備集成。這些設備可以為助聽設備提供更優(yōu)越的計算和存儲能力,因此,這也可以很好地解決基于機器學習降噪方法的高計算成本問題。目前,諸如美國明尼蘇達州的Starkey聽力技術公司,正致力于將機器學習技術與實際助聽設備結合。
機器學習和神經網絡的發(fā)展很大程度地推動了各行業(yè)的智能化發(fā)展,相信在不久的將來,基于機器學習實現助聽設備的智能語音增強技術將得以應用,為聽力障礙者乃至整個人類帶來福音。
參考文獻
SchmidtRO,Multipleemitterlocationandsignalparameterestimation.IEEETransactionsonAntennasandPropagation,1986.
WoutersJ,VandenBJ,Speechrecognitioninnoiseforcochlearimplanteeswithatwo-microphonemonauraladaptivenoisereductionsystem.EarHear,2001.
WeissMR,AschkenasyE,ParsonsTW,StudyanddevelopmentoftheINTELtechniqueforimprovingspeechintelligibility.1975.
HochbergI,BoothroydA,WeissM,etal.,Effectsofnoiseandnoisesuppressiononspeechperceptionbycochlearimplantusers.EarHear,1992.
EphraimY,MalahD,Speechenhancementusingaminimummean-squareerrorlog-spectralamplitudeestimator.IEEETransactionsonSpeech&AudioProcessing,2003.
ScalartP,FilhoJV,Speechenhancementbasedonapriorisignaltonoiseestimation.IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,1996.
RezayeeA,GazorS,AnadaptiveKLTapproachforspeechenhancement.IEEETransactionsonSpeech&AudioProcessing,2001.
HuY,LoizouPC,Ageneralizedsubspaceapproachforenhancingspeechcorruptedbycolorednoise.IEEETransactionsonSpeech&AudioProcessing,2003.
LoizouPC,LoboA,HuY.,Subspacealgorithmsfornoisereductionincochlearimplants.JournaloftheAcousticalSocietyofAmerica,2005.
BuechnerA,BrendelM,SaalfeldH,etal.,ResultsofapilotstudywithasignalenhancementalgorithmforHiRes120cochlearimplantusers.Otology&Neurotology,2010.
DawsonPW,MaugerSJ,HersbachAA,Clinicalevaluationofsignal-to-noiseratio-basednoisereductioninNucleus®cochlearimplantrecipients.EarHear,2011.
YuT,LaiYH,Generalizedmaximumaposteriorispectralamplitudeestimationforspeechenhancement.SpeechCommunication,2016.
LoizouPC,SpeechEnhancement:TheoryandPractice.CRCPress,2007.
StickneyGS,ZengFG,LitovskyR,etal.,Cochlearimplantspeechrecognitionwithspeechmaskers.JournaloftheAcousticalSocietyofAmerica,2004.
XuY,DuJ,DaiLR,etal.,Aregressionapproachtospeechenhancementbasedondeepneuralnetworks.IEEE/ACMTransactionsonAudioSpeech&LanguageProcessing,2015.
CohenI,Noisespectrumestimationinadverseenvironments:Improvedminimacontrolledrecursiveaveraging.IEEETransactionsonSpeech&AudioProcessing,2003.
LaiYH,ChenF,WangSS,etal.,Adeepdenoisingautoencoderapproachtoimprovingtheintelligibilityofvocodedspeechincochlearimplantsimulation.IEEETransactionsonBiomedicalEngineering,2017.
LaiYH,TsaoY,LuX,etal.,Deeplearning-basednoisereductionapproachtoimprovespeechintelligibilityforcochlearimplantrecipients.EarHear,2018.
DavisS,MermelsteinP.,Comparisonofparametricrepresentationsformonosyllabicwordrecognitionincontinuouslyspokensentences.IEEETransactionsonSpeech&AudioProcessing,1980.
RabinerL,JuangBH,Fundamentalsofspeechrecognition.1993.
RasanenO,LeppanenJ,LaineUK,etal.,Comparisonofclassifiersinaudioandaccelerationbasedcontextclassificationinmobilephones.SignalProcessingConference,2011.
ChenJ,WangY,YohoSE,etal.,Large-scaletrainingtoincreasespeechintelligibilityforhearing-impairedlistenersinnovelnoises.JournaloftheAcousticalSocietyofAmerica,2016.
FuruiS,Cepstralanalysistechniqueforautomaticspeakerverification.IEEETransactionsonSpeech&AudioProcessing,1981.
MaL,MilnerB,SmithD,Acousticenvironmentclassification.ACMTransactionsonSpeechandLanguageProcessing,2006.
JiangH,Confidencemeasuresforspeechrecognition:Asurvey.SpeechCommunication,2005.
Lu,X.,Tsao,Y.,Matsuda,S.,etal.,Speechenhancementbasedondeepdenoisingautoencoder.ProcofInterspeech,2013.
MaJ,HuY,LoizouPC,Objectivemeasuresforpredictingspeechintelligibilityinnoisyconditionsbasedonnewband-importancefunctions.JournaloftheAcousticalSocietyofAmerica,2009.
ChenF,LoizouPC,PredictingtheintelligibilityofvocodedandwidebandMandarinChinese.JournaloftheAcousticalSocietyofAmerica,2011.
ChenF,WongLL,QiuJ,etal.,Thecontributionofmatchedenvelopedynamicrangetothebinauralbenefitsinsimulatedbilateralelectrichearing.JournalofSpeechLanguage&HearingResearch,2013.
ChenF,HuY,YuanM.EvaluationofnoisereductionmethodsforsentencerecognitionbyMandarin-speakingcochlearimplantlisteners.EarHear,2015.
LaiYH,TsaoY,ChenF.,Effectsofadaptationrateandnoisesuppressionontheintelligibilityofcompressed-envelopebasedspeech.PlosOne,2015.
WangDL,Deeplearningreinventsthehearingaid.IEEEPress,2017.
BangS,WangJ,LiZ,etal.,A288µWprogrammabledeep-learningprocessorwith270KBon-chipweightstorageusingnon-uniformmemoryhierarchyformobileintelligence.IEEESolid-StateCircuitsConference,2017.
BongK,ChoiS,KimC,etal.,A0.62mWultra-low-powerconvolutional-neural-networkface-recognitionprocessorandaCISintegratedwithalways-onhaar-likefacedetector.IEEESolid-StateCircuitsConference,2017.
DesoliG,ChawlaN,BoeschT,etal.,A2.9TOPS/WdeepconvolutionalneuralnetworkSoCinFD-SOI28nmforintelligentembeddedsystems,IEEESolid-StateCircuitsConference,2017.
MoonsB,UytterhoevenR,DehaeneW,etal.,A0.26-to-10TOPS/Wsubword-paralleldynamic-voltage-accuracy-frequency-scalableconvolutionalneuralnetworkprocessorin28nmFDSOI.IEEESolid-StateCircuitsConference,2017.
PriceM,GlassJ,ChandrakasanAP,Ascalablespeechrecognizerwithdeep-neural-networkacousticmodelsandvoice-activatedpowergating.IEEESolid-StateCircuitsConference,2017.
ShinD,LeeJ,LeeJ,etal.,An8.1TOPS/WreconfigurableCNN-RNNprocessorforgeneral-purposedeepneuralnetworks.IEEESolid-StateCircuitsConference,2017.
WhatmoughPN,LeeSK,LeeH,etal.,A28nmSoCwitha1.2GHz568nJ/predictionsparsedeep-neural-networkenginewith>0.1timingerrorratetoleranceforIoTapplications.IEEESolid-StateCircuitsConference,2017.
HintonG,VinyalsO,DeanJ,Distillingtheknowledgeinaneuralnetwork.ComputerScience,2015.
CourbariauxM,HubaraI,SoudryD,etal.,Binarizedneuralnetworks:Trainingdeepneuralnetworkswithweightsandactivationsconstrainedto+1or-1.2016.
文:WanDing1,MingyuXu2,DongyanHuang3,WeisiLin4,MinghuiDong3,XinguoYu1,HaizhouLi3,5
1.CentralChinaNormalUniversity,China
2.UniversityofBritishColumbia,Canada
3.ASTAR,Singapore
4.NanyangTechnologicalUniversity,Singapore
5.ECEDepartment,NationalUniversityofSingapore,Singapore
摘要
本文介紹了團隊在2016年自然情景下音視頻情緒識別挑戰(zhàn)(EmotionRecognitionintheWildChallenge2016)的參賽系統。EmotiW2016挑戰(zhàn)的任務是根據視頻片段中人物的表情動作和聲音將視頻按七種基本情緒(無情緒、憤怒、悲傷、快樂、驚奇、恐懼和厭惡)進行分類。EmotiW2016挑戰(zhàn)任務的訓練和測試數據來源于電影和電視真人秀節(jié)目的片段。本文提出的解決方案首先基于視頻(臉部表情)和音頻兩個信息通道來分別進行情緒識別,然后將臉部識別和聲音識別子系統的預測結果進行融合(ScoreLevelFusion)。
視頻情緒識別首先提取臉部表情圖像的卷積神經網絡(CNN)特征。圖像特征提取所使用的深度卷積神經網絡以預先訓練好的ImageNet神經網絡為基礎,然后在FER2013圖像數據集上針對臉部情緒識別任務進行微調(FineTuning);然后基于CNN特征和三種圖像集合模型(ImageSetModel)提取視頻特征;最后使用不同的核分類器(SVM,PLS等)來對臉部視頻進行情緒分類。音頻情感識別則沒有利用外部數據集而是直接使用挑戰(zhàn)數據集來訓練長短期記憶循環(huán)神經網絡(Long-ShortTermMemoryRecurrentNeuralNetwork,LSTM-RNN)。實驗結果表明文本提出的視頻識別子系統、音頻識別子系統以及他們的融合在準確率方面均能達到當前最先進的性能。該系統在EmotiW2016挑戰(zhàn)的測試數據集上的識別準確率為53.9%,比基準線(40.47%)高出13.5%。
引言
作為人機情感交互的關鍵技術之一,基于音視頻信號的情緒識別這一課題的研究已活躍了數十年。早期的音視頻情緒識別研究主要集中在實驗室擺拍條件下的情緒識別。近年來隨著技術的發(fā)展,越來越多的研究者開始把注意力轉向了自然情景下的情緒識別。諸如面部表情識別和分析挑戰(zhàn)(FacialExpressionRecognitionandAnalysisChallenge,FERA)[1]、音頻/視覺情緒挑戰(zhàn)(Audio/VisualEmotionChallenge,AVEC)[2]以及自然情境下的情感識別(EmotionRecognitionintheWildChallenge,EmotiW)[3]已經成為人們研究和測試其自然情景下情緒識別方法的基準(Benchmark)。
對于情緒識別,臉部表情和聲音是最主要的兩個信息通道。在所有的情緒表達信息中,臉部和聲音部分占了近93%[4]?;跁r間維度特征提取方法的不同,臉部情緒識別可以分為三類。第一類基于人工設計的時空特征(諸如LocalBinaryPatternsfromThreeOrthogonalPlanes(LBP-TOP)和LocalPhaseQuantizationfromThreeOrthogonalPlanes(LPQ-TOP)[5-7]。
第一類方法將視頻數據視為三維像素體序列,沿著像素體的每一面(空間和時空維度)進行紋理特征的提取。第二類方法將視頻視為一組圖像,基于圖像集合的建模方法(ImageSetModeling)來提取視頻特征并用于情緒識別?;趫D像集的方法將視頻幀視為在不同條件下(姿態(tài),照明等)捕獲的同一對象的圖像。第三類方法利用序列模型(SequenceModel),如遞歸神經網絡(RecurrentNeuralNetwork,RNN)來捕獲視頻所包含的的情緒識別的時間維度特征。與基于時空特征的方法相比,基于圖像集的方法和RNN方法對面部表情在時間維度的變化更加魯棒。RNN模型一般含有大量的自由變量。在訓練視頻樣本較少的情況下基于圖像集的方法相比RNN方法可以獲得更好的識別結果[8-9,37]。在視頻幀的圖像特征提取方面,一種方式是使用人工設計的特征,如Liu等人[8]將DenseSIFT[9],HistogramofOrientedGradients(HOG)[10]等傳統特征與不同的圖像集建模方法[11-14]進行結合以用于臉部視頻的情緒識別。[8]所展示的實驗結果還表明不同的傳統圖像特征對臉部情緒識別還具有互補作用。
Yao等人[15]定義了一種基于臉部圖像局部區(qū)域之間的差異的情緒識別特征。他們首先通過臉部正面化(frontalization)技術來配準局部區(qū)域[16],然后在局部區(qū)域上提取LBP特征,最后使用特征選擇來檢測最具差異性的區(qū)域并將這些區(qū)域的LBP特征值的差值作為人臉圖像的情緒識別特征。他們的方法在EmotiW2015中的靜態(tài)和視音頻情緒識別挑戰(zhàn)上均取得了良好的效果。除了人工設計圖像特征之外,圖像特征提取的另一種方法是使用深度卷積神經網絡(DeepConvolutionalNeuralNetwork,DCNN)。
這里的“深”表示網絡具有三個以上的卷積層。DCNN是一種端到端的圖像分類模型,其卷積層的輸出可以作為圖像特征且具有一定的通用性[17]。訓練有效的DCNN通常需要大量的數據樣本(如10萬張臉部表情圖像);然而目前公開的臉部情緒識別的數據集通常很小(如FER2013只有3萬張圖像)。為了解決這一問題,Liu等人[8]使用人臉識別數據集CFW[18](約17萬張圖像)來訓練DCNN。實驗表明學習到的DCNN特征比傳統的手工特征(Dense-SIFT和HOG)效果更好。Ng等人[19]利用遷移學習策略,將預先訓練好的通用圖像識別網絡作為情緒識別網絡的初始化,再FER-2013數據集[20]對神經網絡進行訓練(權值的微調)。經過微調的DCNN在EmotiW2015靜態(tài)面部表情識別子挑戰(zhàn)中取得了不錯的成績。Kim等人[37]基于決策融合方法,直接使用小數據集訓練多個DCNN并將DCNN對與臉部圖片的情緒預測結果進行均值融合。不過多個DCNN的特征融合方法仍有待研究。
在音頻情緒識別方面,經驗表明情緒識別音頻特征與臉部視覺特征互補。將基于面部和基于音頻的情緒識別結果進行融合可以取得比單一通道更好的結果[8-9,21-22]。近年來LSTM-RNN[26]在語音情感識別和其他聲學建模任務中得到了普遍地使用[2,22-23,27-29]。與傳統的隱馬爾可夫模型(HMM)[23]和標準遞歸神經網絡(StandardRNN)等模型相比,LSTM-RNN可以提取較長時間間隔(例如>100個時間步長)的關聯特征而不會遇到梯度消失等問題[25]。
本文所介紹的系統結合了不同的方法。臉部視頻情緒識別基于DCNN特征和圖像集合建模,音頻情緒識別基于LSTM-RNN模型。本文的主要工作有兩方面。第一個方面是DCNN圖像特征的提取采用了基于權值微調的遷移學習方法,基于少量樣本訓練得到的臉部圖像情緒識別DCNN特征的表現超過臉部識別大數據集訓練所得到的DCNN特征[19]。第二個方面是我們所訓練使用的音頻情緒識別LSTM-RNN模型,只使用了少量的訓練樣本(EmotiW2016所提供的773個音頻句子),但是在識別率方面仍然超出基準方法7%。方法的細節(jié)將在后面章節(jié)中具體介紹。

1.提出的方法
1.1基于面部視頻的情緒識別
本文所提出的面部視頻情緒識別方法由由三個步驟組成。第一步是對視頻每一幀的臉部圖像提取DCNN圖像特征。第二步是基于圖像集建模方法提取動態(tài)特征。最后一步是分類。由于基于圖像集的視頻特征通常位于非歐幾里德流形上[13],因此在特征提取后使用核函數將它們映射到歐幾里德空間進行最終分類。在我們所使用的方法中,第二步和第三步直接應用了文獻[8]所提供的開源代碼進行動態(tài)特征提取和分類。
1.1.1DeepCNN圖像特征
卷積神經網絡借鑒了動物視覺皮層中神經元的組織結構。網絡結構通過局部連通性(LocalConnectivity)、權值共享(WeightSharing)和池化(Pooling)等技術來達到諸如減少網絡復雜度和特征的平移不變性等效果。DeepCNN一般包含多層卷積層,卷積層的輸出可以作為輸入圖像的特征描述。假設輸入圖像是IW,H,C,其中W表示寬度,H表示高度,C表示通道的數量(一般輸入圖像為RGB通道)。對于I中的一個局部區(qū)域Lw,h,C,
(1)
其中Kw,h,C是與L大小相同的核(kernel);*表示卷積運算;b表示偏差變量(bias);σ表示激活函數(activationfunction),在實踐中通常是整流線性單元(RELU);oL表示L區(qū)域的特征值。通過將核K與I中的每個局部區(qū)域進行卷積計算,我們可以得到特征圖M,然后將其作為圖像特征向量用于進一步處理。
1.1.2臉部視頻的動態(tài)特征
給定d維圖像特征f,可將視頻視為一組圖像特征向量F=[f1,f2...fn],其中fiÎRd是視頻第i幀對應的特征向量。三種圖像集合模型被用于從F中提取視頻(圖像集合)特征,它們分別是線性子空間(LinearSubspace)[14],協方差矩陣[13]和多維高斯分布[15]。線性子空間模型所對應的特征向量P通過以下方式計算:
(2)
其中P=[p1,p2...pr],pj(jÎ[1,r])表示主特征向量(eigenvector)。
協方差矩陣C通過以下方式找到:
(3)
其中表示圖像特征的平均值。假設F中的特征向量遵循d維高斯分布N(μ,∑),μ和∑分別表示均值和協方差。高斯分布的特征通過以下方式計算定義:
(4)
(5)
1.1.3核函數和分類器
在核函數方面,我們選擇了多項式(Polynomial)和RBF(Radialbasisfunction)兩種核函數。在分類器方面我們采用了PLS(PartialLeastSquaresRegression)[30]。Liu等人在EmotiW2014數據集上的實驗結果[8]顯示PLS在面部情緒識別方面優(yōu)于支持向量機(SVM)和LogisticRegression;我們在EmotiW2016的數據集上也觀察到相同的趨勢。給定視頻特征變量X和0-1標簽Y(七種基本情緒識別可以視作七個二分類任務),PLS分類器將它們分解為

其中Ux和Uy是projectedX-scores和Y-scores,Vx和Vy分別表示loadings,rx和ry表示residuals。PLS通過找到在其列向量之間具有最大協方差的Ux和Uy來確定X和Y之間的回歸系數。假設UX和UY是最大協方差投影,則回歸系數β由下式給出:

給定一個視頻特征向量x,它對應的分類預測為
.
1.2基于音頻的情緒識別
基于音頻的情緒識別方法首先逐幀提取聲學特征,然后通過訓練LSTM-RNN(LongShort-TermMemoryRecurrentNeuralNetwork)進行時間維度特征的提取和情緒分類。假設一個影片剪輯所對應的音頻特征序列是F=[f1,f2...fn],所對應的情緒分類標簽是c。在訓練LSTM-RNN之前我們逐幀定義情緒標簽C=[c1,c2...cn],其中ci=cforifrom1ton。對應的LSTM所輸出的也是逐幀的預測結果。我們取逐幀預測結果的平均值作為視頻剪輯的情緒識別的最終預測結果。
1.2.1音頻特征
方法采用extendedversionofGenevaMinimalisticAcousticParameterSet(eGeMAPS)[31]音頻特征集來進行情緒識別。eGeMAPS中的音頻特征集基于專家知識設計,與傳統的高維特征集[32]相比eGeMAPS僅有88維特征,但是對語音情感建模問題表現出了的更高的魯棒性[33-34]。eGeMAPS的acousticlow-leveldescriptors(LLD)涵蓋了spectral、cepstral、prosodic以及voicequality等方面的信息。除了LLD之外,eGeMAPS還包含arithmeticmean和coefficientofvariation等統計特征。
1.2.2LSTM-RNN
相比sigmoid和tanh等傳統的激活函數,LSTM-RNN使用一種特殊的激活函數稱為MemoryBlocks。LSTMMemoryBlocks的結構如圖2所示。對于一個網絡層中MemoryBlock而言它在t時刻的輸入是前一網絡層在t時刻的輸出xt,,和當前Block在t-1時刻的輸出ht-1。MemoryBlock的結構由四個主要部分組成。這四個主要部分是:inputgate,memorycell,forgetgate以及outputgate。Memorycell結構具有一個權值為1.0的自連接。Memorycell結構確保在排除外部輸入的情況下,MemoryCell的狀態(tài)保持恒定。Inputgate允許(或屏蔽)輸入信號對memorycell的狀態(tài)或者進行改變。Outputgate允許(或屏蔽)memorycell的狀態(tài)對block的輸出進行改變。Forgetgate可以調整memorycell的自回復連接,使cell根據需要選擇保持或清除其之前的狀態(tài)。MemoryBlock的計算過程如下所示:

其中xt和ht-1表示輸入;W,U表示V是權值矩陣;b表示偏差向量,σ表示sigmoid函數;
其中xt和ht-1表示輸入;W,U表示V是權值矩陣;b表示偏差向量,σ表示sigmoid函數;
表示t時刻cell的狀態(tài)候選;f,c和o分別表示InputGate,ForgetGate,MemoryCell和OutputGate的輸出。h表示block在t時刻的最終輸出。
1.3系統的融合
基于面部視頻和音頻子系統的預測結果我們進一步進行了融合。融合引入了一個加權向量w=[λ1,λ2…λc]。其中c表示情緒類別的數量。最終預測結果S的計算方法為

其中SAandSV分別表示音頻和視頻子系統的情緒識別預測結果。

2.實驗
2.1EmotiW2016數據
基于視音頻的情緒識別是EmotiW2016所設立的子挑戰(zhàn)之一。數據集的樣本為多媒體視頻片段。樣本所對應的情緒狀態(tài)通過[40]中所定義的半自動方法進行標注?;谝曇纛l的情緒識別的任務是設計算法自動對視頻片段按七種基本情緒狀態(tài)(憤怒(Ang)、厭惡(Dis)、恐懼(Fea)、快樂(Hap)、中立(Neu)、悲傷(Sad)、驚喜(Sur))進行分類。EmotiW2016是EmotiW2013-15的延續(xù),主要變化在于除了從電影中提取的視頻片段之外,還將真人秀節(jié)目的視頻片段引入到測試集中,以測試在基于電影數據所訓練的情緒識別方法的通用性。子挑戰(zhàn)的數據集包含1739個視頻片段:其中訓練集(Train)的樣本數為773個,驗證集(Validation)的樣本數為373個,測試集(Test)的樣本數為593個。挑戰(zhàn)的最終結果以系統在測試集上的準確率為準。



2.2深度神經網絡的實現
2.2.1CNN圖像特征提取
我們使用Caffe工具包[38],和FER2013數據集對預先訓練的AlexNetDeepCNN模型[39]進行微調。預訓練的AlexNet模型和FER2013數據集都是公開的。在使用FER2013數據集(~28000張臉部圖像)時,我們首先將FER2013默認的48x48x1圖像尺寸縮放至256x256x3以適應AlexNet模型的輸入要求。網絡的訓練采用隨機梯度下降(stochasticgradientdescent)算法。算法的hyper-parameters定義為momentum=0.9,weightdecay=0.0005,initiallearningrate(基準)=0.001。learningratedecay=0.1,decayepochs=10,batchsize=128。由于最后一個FullyConnectedLayer完全重新訓練而不保留AlexNet的權值,因此其initiallearningrate的倍數增加到4,為0.004而不是0.001。訓練終止的策略為EarlyStopping,即驗證集上的識別率不再提高即停止訓練。訓練好的網絡模型的最后一個Poolinglayer的輸出即作為面部情緒識別的圖像特征。
2.2.2音頻特征提取
我們首先使用Matlab工具箱從EmotiW2016影片片段中提取音頻信號,并將信號轉換為16kHz單聲道。然后,我們使用OpenSMILE工具包[35]來逐幀提取eGeMAPS音頻特征。在實驗中音頻幀的長度定義為0.04s。
2.2.3LSTM-RNN的結構
我們評估了六種不同的BLSTM-RNN結構以用于音頻情緒識別。六種LSTM-RNN的結構如表2所示。
實驗中音頻LSTM的實現和訓練使用的是CURRENNT工具包[36]。訓練網絡的learningrate為1e-5,batchsize為10個句子(每個句子對應于從一個影片剪輯中提取的音頻特征序列)。同樣LSTM訓練的終止策略也是earlystopping?;陔S機初始化的網絡權值,我們對六種LSTM結構中的每一種進行10次訓練。LSTM在驗證數據集上的識別率在31-35%之間,其中最好的模型基于結構4。我們將其作為音頻情緒識別的最終模型。
3.系統評估
為了測試評估CNN圖像特征的表現。我們使用三種分類器(PLS,SVM和LogisticRegression)分別在EmotiW2014和2016兩個數據集的驗證集上進行了測試。測試結果如表5和表6所示。




結果表明基于CNN和傳統手工特征PLS均表現出優(yōu)于SVM和LogisticRegression分類器的分類性能。我們接著評估了不同方法的組合,如表7所示?;趯嶒灲Y果,我們在最終系統中選擇了DenseSIFT圖像特征和CNN圖像特征來用于基于人臉視頻的情緒識別。在音頻情緒識別方面我們將LSTM方法與傳統方法(EmotiW2014Baseline)進行了比較,結果如圖4所示。實驗結果表明LSTM方法的準確度比傳統方法的識別準確率高出了8%。
最后一個實驗是視頻和音頻系統的融合。我們測試了三種融合方案:第一種是其中情緒類別的融合均使用相同的權重;第二和第三種是對于每個情緒類別的子系統賦予不同的權重。在驗證數據集上的結果表明基于LSTM的音頻識別方法在進行恐懼和悲傷情緒分類時表現得很好(優(yōu)于視頻方法),但對厭惡和驚訝兩種情緒的分類效果不佳。實驗結果同時顯示使用不同的權重進行系統融合能更好地結合子系統的相對優(yōu)勢和弱點,達到比統一權值更好的融合效果。表3列出了實驗所測試的三種融合方案。融合方案3在驗證數據集以及最終測試數據集上取得了最佳結果,在測試集上的識別準確率達到了53.9%。
實驗結果表明:一、本文所提出的方法在識別憤怒和快樂兩種情緒時效果最好,分別獲得了80%和75%的準確率。這兩個識別結果與EmotiW2014和2015年的第一名的方法的表現持平。二、與14和15年的第一名方法相比,基于LSTM的音頻情緒識別方法在恐懼情緒的識別準確率方面取得了10%的提升。三、與2014第一名和2015第一名方法相比,本文的方法對于無情緒(Neutral)狀態(tài)的識別上存在著過擬合的問題。具體表現在無情緒狀態(tài)的識別在開發(fā)數據集上取得了約70%的準確率,與兩種第一名方法持平,但是但在測試數據集上較差,識別準確率下降了約7%。

4.總結
本文提出了一種基于視音頻的自然情景下的情緒識別方法,該方法只利用了少量的樣本數據來訓練深度神經網絡確能夠達到目前最先進的識別準確率。本文提出的方法在EmotiW2016測試集上達到了53.9%的識別準確率,相比比基線的40.47%[41]高出了13.5%。測試結果表明:一、當可用于訓練的臉部視頻情緒識別數據量較少時,基于DCNN權值微調的遷移學習策略是一種有效的方法;二、對于音頻情緒識別,直接使用EmotiW2016所提供的少量的訓練數據和LSTM-RNN模型就可以得到相比傳統方法更好的識別效果。我們今后的工作將分兩個方向進行。首先是通過考察不同的預先訓練的DCNN和不同微調策略來獲取更有效的為臉部情緒識別特征。其次是對基于音頻的情緒識別進行更深入的研究,通過設計更有效LSTM-RNN模型來提高音頻識別效果。
5.參考文獻
Valstar,MichelF.,etal."Fera2015-secondfacialexpressionrecognitionandanalysischallenge."AutomaticFaceandGestureRecognition(FG),201511thIEEEInternationalConferenceandWorkshopson.Vol.6.IEEE,2015.
Valstar,Michel,etal."AVEC2016-Depression,Mood,andEmotionRecognitionWorkshopandChallenge."arXivpreprintarXiv:1605.01600(2016).
Dhall,Abhinav,etal."Videoandimagebasedemotionrecognitionchallengesinthewild:Emotiw2015."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Valstar,MichelF.,etal."Thefirstfacialexpressionrecognitionandanalysischallenge."AutomaticFace&GestureRecognitionandWorkshops(FG2011),2011IEEEInternationalConferenceon.IEEE,2011.
Almaev,TimurR.,andMichelF.Valstar."Localgaborbinarypatternsfromthreeorthogonalplanesforautomaticfacialexpressionrecognition."AffectiveComputingandIntelligentInteraction(ACII),2013HumaineAssociationConferenceon.IEEE,2013.
Pietikainen,Matti,etal.Computervisionusinglocalbinarypatterns.Vol.40.SpringerScience&BusinessMedia,2011.
A.Dhall,A.Asthana,R.Goecke,andT.Gedeon.Emotionrecognitionusingphogandlpqfeatures.InFG.IEEE,2011.
Liu,Mengyi,etal."Combiningmultiplekernelmethodsonriemannianmanifoldforemotionrecognitioninthewild."Proceedingsofthe16thInternationalConferenceonMultimodalInteraction.ACM,2014.
D.G.Lowe.Distinctiveimagefeaturesfromscale-invariantkeypoints.Internationaljournalofcomputervision,60(2):91{110),2004.
N.DalalandB.Triggs.Histogramsoforientedgradientsforhumandetection.InCVPR.IEEE,2005.
J.HammandD.D.Lee.Grassmanndiscriminantanalysis:aunifyingviewonsubspace-basedlearning.InICML.ACM,2008.
R.Wang,H.Guo,L.S.Davis,andQ.Dai.Covariancediscriminativelearning:Anaturalandefficientapproachtoimagesetclassfication.InCVPR.IEEE,2012.
R.Vemulapalli,J.K.Pillai,andR.Chellappa.Kernellearningforextrinsicclassficationofmanifoldfeatures.InCVPR.IEEE,2013.
P.Li,Q.Wang,andL.Zhang.Anovelearthmover'sdistancemethodologyforimagematchingwithgaussianmixturemodels.InICCV.IEEE,2013.
Yao,Anbang,etal."Capturingau-awarefacialfeaturesandtheirlatentrelationsforemotionrecognitioninthewild."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Hassner,Tal,etal."Effectivefacefrontalizationinunconstrainedimages."ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015.
Zeiler,MatthewD.,etal."Deconvolutionalnetworks."ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010.
Zhang,Xiao,etal."Findingcelebritiesinbillionsofwebimages."IEEETransactionsonMultimedia14.4(2012):995-1007.
Ng,Hong-Wei,etal."Deeplearningforemotionrecognitiononsmalldatasetsusingtransferlearning."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Goodfellow,IanJ.,etal."Challengesinrepresentationlearning:Areportonthreemachinelearningcontests."InternationalConferenceonNeuralInformationProcessing.SpringerBerlinHeidelberg,2013.
EbrahimiKahou,Samira,etal."Recurrentneuralnetworksforemotionrecognitioninvideo."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
He,Lang,etal."Multimodalaffectivedimensionpredictionusingdeepbidirectionallongshort-termmemoryrecurrentneuralnetworks."Proceedingsofthe5thInternationalWorkshoponAudio/VisualEmotionChallenge.ACM,2015.
Anagnostopoulos,Christos-Nikolaos,TheodorosIliou,andIoannisGiannoukos."Featuresandclassifiersforemotionrecognitionfromspeech:asurveyfrom2000to2011."ArtificialIntelligenceReview43.2(2015):155-177.
Connor,JeromeT.,R.DouglasMartin,andLesE.Atlas."Recurrentneuralnetworksandrobusttimeseriesprediction."IEEEtransactionsonneuralnetworks5.2(1994):240-254.
Pascanu,Razvan,TomasMikolov,andYoshuaBengio."Onthedifficultyoftrainingrecurrentneuralnetworks."ICML(3)28(2013):1310-1318.
Hochreiter,Sepp,andJürgenSchmidhuber."Longshort-termmemory."Neuralcomputation9.8(1997):1735-1780.
Senior,Andrew,HasimSak,andIzhakShafran."ContextdependentphonemodelsforLSTMRNNacousticmodelling."2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2015.
Zazo,Ruben,etal."LanguageIdentificationinShortUtterancesUsingLongShort-TermMemory(LSTM)RecurrentNeuralNetworks."PloSone11.1(2016):e0146917.
Khorrami,Pooya,etal."HowDeepNeuralNetworksCanImproveEmotionRecognitiononVideoData."arXivpreprintarXiv:1602.07377(2016).
H.Wold.Partialleastsquares.Encyclopediaofstatisticalsciences,1985.
Eyben,Florian,etal."TheGenevaminimalisticacousticparameterset(GeMAPS)forvoiceresearchandaffectivecomputing."IEEETransactionsonAffectiveComputing7.2(2016):190-202.
A.Dhall,R.Goecke,J.Joshi,K.Sikka,andT.Gedeon.Emotionrecognitioninthewildchallenge2014:Baseline,dataandprotocol.InACMICMI.ACM,2014.
F.Ringeval,S.Amiriparian,F.Eyben,K.Scherer,andB.Schuller.Emotionrecognitioninthewild:Incorporatingvoiceandlipactivityinmultimodaldecision-levelfusion.InProc.ofEmotiW,ICMI,pages473{480,Istanbul,Turkey,November2014.
D.Bone,C.-C.Lee,andS.S.Narayanan.Robustunsupervisedarousalrating:Arule-basedframeworkwithknowledge-inspiredvocalfeatures.IEEETransactionsonAffectiveComputing,5(2):201{213,April-June2014.
F.Eyben,F.Weninger,F.Grob,andB.Schuller.RecentdevelopmentsinopenSMILE,theMunichopen-sourcemultimediafeatureextractor.InProc.ofACMMM,pages835{838,Barcelona,Spain,October2013.
Weninger,Felix,JohannesBergmann,andBjornSchuller."IntroducingCURRENNT–theMunichopen-sourceCUDARecurREntneuralnetworktoolkit."JournalofMachineLearningResearch16.3(2015):547-551.
Kim,Bo-Kyeong,etal."Hierarchicalcommitteeofdeepcnnswithexponentially-weighteddecisionfusionforstaticfacialexpressionrecognition."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Jia,Yangqing,etal."Caffe:Convolutionalarchitectureforfastfeatureembedding."Proceedingsofthe22ndACMinternationalconferenceonMultimedia.ACM,2014.
Krizhevsky,Alex,IlyaSutskever,andGeoffreyE.Hinton."Imagenetclassificationwithdeepconvolutionalneuralnetworks."Advancesinneuralinformationprocessingsystems.2012.
AbhinavDhall,RolandGoecke,SimonLucey,andTomGedeon.CollectingLarge,RichlyAnnotatedFacial-ExpressionDatabasesfromMovies.IEEEMultiMedia,19(3):34{41,2012.
AbhinavDhall,RolandGoecke,JyotiJoshi,JesseHoey,andTomGedeon,EmotiW2016:VideoandGroup-levelEmotionRecognitionChallenges,ACMICMI2016.