在實(shí)際生活中機(jī)器人需要與環(huán)境進(jìn)行交互以執(zhí)行多種任務(wù),而每個(gè)任務(wù)都需要進(jìn)行合理的定位。一種簡(jiǎn)單的定位檢測(cè)方法是標(biāo)注一個(gè)圖像功能區(qū)域數(shù)據(jù)集,利用這個(gè)數(shù)據(jù)集訓(xùn)練一個(gè)深度分類模型,通過(guò)模型檢測(cè)圖像中所有可能的潛在功能區(qū)域。然而,標(biāo)注一個(gè)這樣的大規(guī)模數(shù)據(jù)集是相當(dāng)耗時(shí)的。
我們發(fā)現(xiàn),功能區(qū)域通常與周圍物體存在聯(lián)系,因此本文提出了利用物體的上下文信息作為有效先驗(yàn)的方法,使用已有的目標(biāo)檢測(cè)數(shù)據(jù)集,在不需要額外增加標(biāo)注數(shù)據(jù)的同時(shí),提高功能區(qū)域檢測(cè)模型的性能。在具體實(shí)現(xiàn)中本文定義了一個(gè)雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)合了與物體相關(guān)的特征和與功能區(qū)域相關(guān)的特征來(lái)進(jìn)行知識(shí)遷移融合,從而進(jìn)行功能區(qū)域檢測(cè)。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)是端到端的系統(tǒng),并且可以簡(jiǎn)單的利用現(xiàn)有的目標(biāo)檢測(cè)框架實(shí)現(xiàn)。本文通過(guò)實(shí)驗(yàn)證明該網(wǎng)絡(luò)與現(xiàn)有的方法相比,在精度和召回率上都有接近20%的提升。
課題背景
對(duì)于一個(gè)認(rèn)知機(jī)器人而言,在實(shí)際執(zhí)行操作之前首先需要找到其所期望操作的區(qū)域。例如,當(dāng)機(jī)器人想要去打開一個(gè)抽屜時(shí),它需要根據(jù)抽屜手柄的形狀和位置來(lái)判斷它究竟是否需要轉(zhuǎn)動(dòng)手柄抓取以及應(yīng)該在哪里執(zhí)行這一動(dòng)作。給定輸入為場(chǎng)景圖像,這種操作區(qū)域的定位和識(shí)別問(wèn)題可以被定義為功能區(qū)檢測(cè)問(wèn)題[24]。有了功能區(qū)域的認(rèn)知后,在各類任務(wù)中,機(jī)器人可以用許多不同的行為與人類和物體進(jìn)行交互。由于真實(shí)世界中的環(huán)境外觀變化的多樣性,這類任務(wù)是非常具有挑戰(zhàn)性的。例如,機(jī)器人要實(shí)現(xiàn)“球形物體抓握”的功能,那么目標(biāo)區(qū)域可以是門、抽屜的把手,也可以是其他有著球體形狀的物體。
因?yàn)樯疃葘W(xué)習(xí)在目標(biāo)分類和檢測(cè)領(lǐng)域已經(jīng)取得了突破性進(jìn)展[9][10][19],因此解決功能區(qū)域檢測(cè)問(wèn)題的一個(gè)簡(jiǎn)單方法是從圖像中提取一些潛在可能的區(qū)域,通過(guò)深層卷積網(wǎng)絡(luò)對(duì)這些區(qū)域的功能性進(jìn)行分類[24]。不過(guò)這樣做有兩大缺陷:首先,這種方法只利用了圖像中某區(qū)域的特征而忽視了這一區(qū)域的上下文信息,而上下文信息對(duì)于由物體遮擋和視角變化引起的外觀變化是十分重要的(如圖1)。例如,水龍頭的閥門通常位于水龍頭的底部附近,而檢測(cè)更大面積的水龍頭可以幫助定位到水龍頭的閥門,否則我們很難檢測(cè)到閥門。第二點(diǎn)則是因?yàn)樯疃葘W(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù),而去標(biāo)注得到一個(gè)龐大的功能區(qū)域檢測(cè)的數(shù)據(jù)集顯然是非常費(fèi)力并且代價(jià)高昂的。
通常,更合理地利用上下文或者先驗(yàn)知識(shí)將會(huì)有助于解決功能區(qū)域檢測(cè)問(wèn)題。在實(shí)際情況中,功能區(qū)域檢測(cè)問(wèn)題并不是一個(gè)獨(dú)立的問(wèn)題,它與目標(biāo)檢測(cè)問(wèn)題不同卻又高度相關(guān)。例如,如果一個(gè)機(jī)器人檢測(cè)到一扇門,那么很有可能在門中的某個(gè)區(qū)域能夠讓機(jī)器人進(jìn)行推/拉的動(dòng)作。因此,圖像中某一區(qū)域或周圍區(qū)域的物體信息可以用來(lái)作為功能區(qū)域推斷的先驗(yàn)知識(shí)。另外,物體分類和功能性推斷也共享一些相似的圖像特征,例如圖像邊緣和形狀。因此在給定大量的現(xiàn)有物體數(shù)據(jù)集的條件下,我們可以將從這些數(shù)據(jù)集學(xué)習(xí)到的知識(shí)遷移到新的系統(tǒng),這可以減少新系統(tǒng)對(duì)于功能區(qū)域訓(xùn)練數(shù)據(jù)的需求。
為了達(dá)到這個(gè)目的,本文提出了一種雙流網(wǎng)絡(luò)結(jié)構(gòu)給來(lái)解決該功能性域檢測(cè)問(wèn)題。我們首先使用一個(gè)目標(biāo)檢測(cè)的數(shù)據(jù)集[12]訓(xùn)練其中一個(gè)分支網(wǎng)絡(luò),該網(wǎng)絡(luò)學(xué)習(xí)與物體相關(guān)的表示方式,而另一個(gè)網(wǎng)絡(luò)分支則用來(lái)學(xué)習(xí)功能性相關(guān)的特征表示。在此之后,我們將這兩個(gè)分支網(wǎng)絡(luò)學(xué)習(xí)到的特征融合在一起進(jìn)行功能性的推斷。
本文工作有以下幾個(gè)貢獻(xiàn):1)在解決功能區(qū)域檢測(cè)問(wèn)題時(shí)利用物體信息作為先驗(yàn)知識(shí),提高檢測(cè)效果;2)提出了一種新的雙流網(wǎng)絡(luò),通過(guò)將物體相關(guān)與功能性相關(guān)的特征融合在

圖1:利用物體的上下文信息促進(jìn)功能區(qū)域檢測(cè)
一起,更加有效地解決這類問(wèn)題。實(shí)驗(yàn)結(jié)果表明,在功能區(qū)域檢測(cè)任務(wù)中使用物體特征是一種有效的方法,同時(shí)與現(xiàn)有的方法相比,本文的方法也取得了更優(yōu)的效果。
相關(guān)工作
A.物體屬性分類
判斷一個(gè)區(qū)域功能性的問(wèn)題與物體屬性分類的問(wèn)題類似,后者已經(jīng)在計(jì)算機(jī)視覺(jué)和機(jī)器人學(xué)中得到了廣泛的研究。例如在面部分析[11]和人類特征分析[14]中,算法對(duì)“性別”,“種族”和“發(fā)型”等屬性進(jìn)行研究分析。其他的例如為研究時(shí)尚衣著搭配進(jìn)行布料顏色和風(fēng)格的分析[25]等屬性分析任務(wù)也是比較熱門的研究方向。而在機(jī)器人領(lǐng)域中,利用RGB-D圖像來(lái)進(jìn)行物體顏色,形狀和材質(zhì)屬性的識(shí)別也十分的廣泛[25]。
而物體的“可供性(affordance)”也是一種關(guān)鍵的屬性,這種屬性是本文研究的重點(diǎn)。物體的“可供性”是指一個(gè)物理對(duì)象與人或其他智能體之間通過(guò)交互而產(chǎn)生的一種聯(lián)系[8]。Pieropan等人[17]根據(jù)這種聯(lián)系來(lái)研究物體分類,并借助人的示范來(lái)學(xué)習(xí)對(duì)象的可供性,例如“可讀”和“可飲用”就是一種“可供性”最近,Myers等人[15]使用手工制作的幾何特征檢測(cè)RGB-D圖像中工具部件的可供性[20]。本文研究的問(wèn)題與這些問(wèn)題有些關(guān)聯(lián)但不完全相同,因?yàn)楸疚难芯康膯?wèn)題的首要核心在于區(qū)域而非是物體。本文研究的算法需要檢測(cè)出可能的功能區(qū)域,這個(gè)區(qū)域既有可能是一個(gè)物體,也有可能是物體的一小部分。這個(gè)問(wèn)題更具挑戰(zhàn)性,因?yàn)槲矬w的局部的特征可能不像整個(gè)物體那樣具有區(qū)分性。
B.目標(biāo)檢測(cè)
目標(biāo)檢測(cè)在圖像語(yǔ)義檢測(cè)領(lǐng)域中受到了廣泛的研究。早期的算法通常嘗試使用一個(gè)滑窗在一整幅圖像上進(jìn)行滑動(dòng)并對(duì)每個(gè)區(qū)域進(jìn)行分類。為了處理物體的尺度變化,圖像金字塔(imagepyramid)模型常被用來(lái)處理原始的輸入圖像?;诓糠謪^(qū)域可變的模型(DPM)[6]也是一種經(jīng)典的目標(biāo)檢測(cè)方法,其中每個(gè)物體對(duì)象被表示為以圖畫結(jié)構(gòu)排列而成的成分的集合。每個(gè)成分都通過(guò)手工制作的特征進(jìn)行描述,經(jīng)典的方法有HOG[4]等。目前,深度學(xué)習(xí)技術(shù)通過(guò)學(xué)習(xí)高級(jí)的抽象特征,在圖像識(shí)別問(wèn)題方面已經(jīng)取得了實(shí)質(zhì)性進(jìn)展。有許多基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法取得了不錯(cuò)的效果,比如fasterR-CNN[19],YOLO[18]和SSD算法[13]。這些方法的主要思想是使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)從給定的原始圖像和相應(yīng)的標(biāo)簽中學(xué)習(xí)物體對(duì)象的表示,而不是去學(xué)習(xí)手工設(shè)計(jì)的特征表示。本文以基于深度學(xué)習(xí)的目標(biāo)檢測(cè)框架為基本結(jié)構(gòu),預(yù)測(cè)出場(chǎng)景圖像中的功能區(qū)域。

圖2:功能本體論[24]
C.功能區(qū)域檢測(cè)
文獻(xiàn)[24]提出了功能區(qū)域檢測(cè)這一問(wèn)題,其給出了一個(gè)專業(yè)的定義,并提供了一批數(shù)據(jù)集。這批數(shù)據(jù)集包括室內(nèi)場(chǎng)景的靜態(tài)圖像以及圖像上所有的功能區(qū)域。為了檢測(cè)出圖像中的功能區(qū)域,作者提出了一個(gè)兩階段的方法[24]。在第一階段,系統(tǒng)使用選擇性搜索的視覺(jué)注意力方法[21]來(lái)找出一組可能成為功能區(qū)域的邊界框。其中,選擇性搜索方法主要在顏色,強(qiáng)度和邊緣信息等各種視覺(jué)特征上實(shí)現(xiàn)邊界框的生成。在第二階段中,第一階段尋找出的邊界框所對(duì)應(yīng)的圖像區(qū)域則成為了一個(gè)深度網(wǎng)絡(luò)的輸入,網(wǎng)絡(luò)的輸出是該區(qū)域?qū)儆谀愁愄囟üδ軈^(qū)域的概率。這個(gè)深度網(wǎng)絡(luò)將首先在一個(gè)大規(guī)模通用圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,訓(xùn)練完之后再利用功能區(qū)域數(shù)據(jù)集進(jìn)行微調(diào)。而本文制定了一個(gè)新的更容易實(shí)現(xiàn)和訓(xùn)練的端到端的雙流網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)能夠分別提取物體相關(guān)的特征和功能相關(guān)的特征并對(duì)特征進(jìn)行融合,融合后的特征傳入預(yù)測(cè)網(wǎng)絡(luò)中得到功能區(qū)域的邊界框以及對(duì)應(yīng)的功能類別。實(shí)驗(yàn)表明本文提出的方法在各個(gè)性能指標(biāo)上都有顯著的提升。
方法
A.問(wèn)題定義
對(duì)于功能區(qū)域檢測(cè)問(wèn)題,我們遵循文獻(xiàn)[24]的設(shè)定:假設(shè)機(jī)器人采集靜態(tài)的室內(nèi)圖像作為輸入,輸出一系列矩形框,每一個(gè)矩形框都包括了一個(gè)目標(biāo)區(qū)域并對(duì)應(yīng)著一個(gè)功能標(biāo)簽。在定義功能本體論(functionalityontolog)上,前人已經(jīng)有了一些工作:Worgotter等人[22]根據(jù)手跟物體的關(guān)系將操作的動(dòng)作劃分為一些基本類型。文獻(xiàn)[24]的作者進(jìn)一步研究了一個(gè)可以在室內(nèi)環(huán)境中操作的常用動(dòng)作集合,并且提出了機(jī)器人功能本體集合,如圖2所示。
其中,機(jī)器人的功能本體論一般可以分為3個(gè)類型,分別為:“家具、設(shè)備、墻壁的一

圖3:fasterR-CNN的組成結(jié)構(gòu)。利用不用尺度和方向比率的anchorbox,模型可以在一次前向傳播中檢測(cè)出不同尺度大小的功能區(qū)域
小部分”,“物體”和“家具”三種。對(duì)于“家具、設(shè)備、墻壁的一小部分”這種類型,有兩種主要的功能,分別是與設(shè)備把手相關(guān)的開關(guān)的功能(open),以及與墻壁按鈕相關(guān)的開關(guān)功能(turnon/off)。這兩個(gè)主要功能還可以進(jìn)行更加細(xì)致的劃分,比如依據(jù)把手的類型可以將開關(guān)功能分為球形把手的“旋轉(zhuǎn)開關(guān)”和條形把手的“推拉開關(guān)”。依此類推,我們最終可以歸納出11種功能。因此,問(wèn)題的定義可以描述為:給定一張靜態(tài)場(chǎng)景圖像,識(shí)別出圖像中可能出現(xiàn)的11種功能區(qū)域。為了方便可視化,圖2對(duì)于每種功能都給出了一個(gè)特定的符號(hào)。
B.端到端的多尺度功能區(qū)域檢測(cè)
根據(jù)III-A節(jié)的定義,一個(gè)功能區(qū)域既可能是一個(gè)物體也有可能是物體的一部分。這意味著功能區(qū)域在圖中大小不一。這種區(qū)域尺度的不確定性對(duì)算法更具有挑戰(zhàn)性。早期的方法是在圖像金字塔中使用滑窗進(jìn)行遍歷。然而,這在某些應(yīng)用的場(chǎng)景中效果并不明顯。FasterR-CNN目標(biāo)檢測(cè)框架[19]對(duì)于解決這種問(wèn)題則更加有效。
圖3解釋了fasterR-CNN在目標(biāo)檢測(cè)中的處理流程。通常,fasterR-CNN分為兩個(gè)模塊。第一個(gè)模塊將圖像作為輸入,生成感興趣區(qū)域(regionofinterest)。第二個(gè)模塊從感興趣區(qū)域(regionofinterest)中提取更深層次的特征,進(jìn)一步推斷目標(biāo)類別和位置。由于一些小區(qū)域可能會(huì)在第一階段丟失,因此需要在不同尺度下對(duì)功能區(qū)域進(jìn)行檢測(cè)。
第一個(gè)模塊被稱為區(qū)域提議網(wǎng)絡(luò)(RPN,RegionProposalNetwork),它可以通過(guò)全卷積網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。RPN首先通過(guò)特征提取網(wǎng)絡(luò)生成特征圖,特征圖的每一個(gè)網(wǎng)格點(diǎn)上的特征向量再傳入一個(gè)小的網(wǎng)絡(luò)中,得到預(yù)測(cè)的矩形框和對(duì)應(yīng)的分?jǐn)?shù)。整個(gè)流程如圖3所示,RPN的目標(biāo)輸出為矩形框的坐標(biāo)和對(duì)應(yīng)矩形框的分?jǐn)?shù)(更高的分?jǐn)?shù)意味著這個(gè)矩形框包含功能區(qū)域的可能性越大)。這里的坐標(biāo)用不同尺度和方向比率的anchorbox來(lái)表示。這意味著特征圖中的一個(gè)網(wǎng)格點(diǎn)的特征向量(特征的大小是固定的)表示著不同大小的區(qū)域。輸出的候選框可以從自身的特征生成或者根據(jù)額外的周圍的信息生成。通過(guò)設(shè)置不同尺度和方向比率的anchorboxes,在不同尺度下網(wǎng)絡(luò)可以充分利用不同區(qū)域的上下文信息來(lái)定位區(qū)域,最終得到對(duì)應(yīng)的感興趣區(qū)域。
第二個(gè)模塊由另外一個(gè)深度網(wǎng)絡(luò)組成,這個(gè)深度網(wǎng)絡(luò)由若干卷積層組成,這些卷積層可以進(jìn)行更深層次的特征提取。這個(gè)深度網(wǎng)絡(luò)首先根據(jù)感興趣的區(qū)域,從特征提取網(wǎng)絡(luò)提取到的特征中抽選出該區(qū)域的特征作為網(wǎng)絡(luò)的輸入,然后使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取獲得新的特征,最后進(jìn)行候選框位置的進(jìn)一步回歸微調(diào)與該候選框?qū)?yīng)區(qū)域的功能分類。
這兩個(gè)模塊可以結(jié)合起來(lái)進(jìn)行端到端的訓(xùn)練。通過(guò)這兩個(gè)步驟之后,每一類(即功能區(qū)域)都可能獲得一個(gè)或者多個(gè)矩形框。每一類中的矩形框相互之間很可能存在高度重合的情形。為了減少這種冗余,本文采用非極大值抑制(NMS)[16]的方法進(jìn)行后處理。
總之,本文使用RPN來(lái)生成不用尺度的候選框并使用fasterR-CNN進(jìn)行功能區(qū)域檢測(cè)。然而,因?yàn)闆](méi)有對(duì)物體進(jìn)行標(biāo)注,這種方法不能利用周圍物體的信息,特別是在第二個(gè)模塊中這種情況更加明顯。為了發(fā)揮物體信息的優(yōu)勢(shì),本文使用已有的目標(biāo)檢測(cè)數(shù)據(jù)集訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)并使用功能區(qū)域數(shù)據(jù)集進(jìn)行微調(diào)。實(shí)驗(yàn)證明這種方法可以作為一個(gè)有效的基準(zhǔn)實(shí)驗(yàn)。但是由于功能區(qū)域數(shù)據(jù)集的數(shù)量有限,這種方法很容易造成過(guò)擬合的情形,同時(shí)網(wǎng)絡(luò)中的物體信息會(huì)在微調(diào)的過(guò)程中消失。為了解決這個(gè)問(wèn)題,本文提出了一種雙流網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)即使用了與物體相關(guān)的特征,也利用了功能區(qū)域相關(guān)的特征,這一部分將在第III-C節(jié)中介紹。
C.融合物體信息的雙流網(wǎng)絡(luò)結(jié)構(gòu)
圖4展示了本文提出的雙流網(wǎng)絡(luò)。將輸入圖像I傳入兩個(gè)網(wǎng)絡(luò),這兩個(gè)網(wǎng)絡(luò)分別稱之為“功能CNN(CNNfunc)”和“物體CNN”(CNNobj),CNNfunc和CNNobj具有相同的結(jié)構(gòu)(但是兩個(gè)網(wǎng)絡(luò)的參數(shù)是不同的)。這兩個(gè)網(wǎng)絡(luò)將分別提取功能相關(guān)的特征圖和物體相關(guān)的特征圖。對(duì)于功能區(qū)域的特征,我們利用第III-B節(jié)介紹的RPN生成邊界框的集合,接著可以用這些邊界框從特征圖中選出對(duì)應(yīng)的特征,再將這些特征通過(guò)ROI池化操作[19]得到固定大小的特征。在選擇物體相關(guān)的特征時(shí),首先利用一個(gè)固定的縮放系數(shù)來(lái)擴(kuò)大邊界框的大小,該擴(kuò)大的邊界框從物體相關(guān)的特征圖中選出與物體相關(guān)的特征,再通過(guò)ROI池化操作得到同樣固定大小的特征。最后,利用下面的公式將功能相關(guān)的特征ffunc和fobj物體相關(guān)的特征融合在一起:
ffuesd=入ffunc+(1-入)fobj
其中表示兩個(gè)特征的重要性。在實(shí)驗(yàn)中設(shè)為0.5。融合的特征ffuesd傳入另一個(gè)深度網(wǎng)絡(luò)CNNpred(ffuesd)中。CNNpred(ffuesd)最終回歸預(yù)測(cè)出功能區(qū)域的位置以及對(duì)應(yīng)的功能。
D物體知識(shí)遷移的訓(xùn)練
為了利用已有的目標(biāo)檢測(cè)數(shù)據(jù)集和遷移物體知識(shí),我們將雙流網(wǎng)絡(luò)的訓(xùn)練分為兩個(gè)階段。在第一階段,我們需要對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化工作。我們使用已有的目標(biāo)檢測(cè)數(shù)據(jù)集,按照f(shuō)asterR-CNN的訓(xùn)練方式[19]訓(xùn)練一個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò),如圖3所示。如文獻(xiàn)[19]所述,整個(gè)訓(xùn)練過(guò)程通過(guò)反向傳導(dǎo)算法和隨機(jī)梯度下降法[2]進(jìn)行端到端的訓(xùn)練。訓(xùn)練好的初始化網(wǎng)絡(luò)的參數(shù)即可作為雙流網(wǎng)絡(luò)的初始化參數(shù),參數(shù)的具體設(shè)置如下:RPN特征提取網(wǎng)絡(luò)中參數(shù)作為雙流網(wǎng)絡(luò)中CNNfunc和CNNobj的參數(shù),而圖3中預(yù)測(cè)網(wǎng)絡(luò)的參數(shù)作為雙流網(wǎng)絡(luò)中CNNpred的參數(shù)。其中物體的候選框是對(duì)由上半部分的網(wǎng)絡(luò)預(yù)測(cè)得到的候選框進(jìn)行放大得到的。提取到的物體特征和功能特征進(jìn)行融合,并傳入預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行功能區(qū)域的推斷。
在第二階段,為了保護(hù)第一階段學(xué)習(xí)到的物體知識(shí),我們固定的CNNobj參數(shù),在用功能區(qū)域數(shù)據(jù)集訓(xùn)練時(shí)只微調(diào)雙流網(wǎng)絡(luò)中其余的參數(shù)。與訓(xùn)練fasterR-CNN相同,雙流網(wǎng)絡(luò)中有兩個(gè)損失函數(shù)。
第一個(gè)損失函數(shù)為RPN網(wǎng)絡(luò)的損失函數(shù),這個(gè)損失函數(shù)是二分類損失函數(shù)(判斷候選區(qū)域是否為功能區(qū)域)和回歸損失函數(shù)(預(yù)測(cè)區(qū)域和真實(shí)區(qū)域邊界框的歐氏距離)的結(jié)合。

圖4:雙流網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)的上半部分提取功能相關(guān)的特征,下半部分提取物體相關(guān)的特征。
第二個(gè)損失函數(shù)是最終結(jié)果的損失函數(shù),除了分類情形為多分類而非二分類外,整個(gè)損失函數(shù)與RPN網(wǎng)絡(luò)的損失函數(shù)一樣。這兩個(gè)損失函數(shù)都是可微的,自然式(1)也是可微的。同時(shí),對(duì)于候選坐標(biāo)的ROI池化操作也是可微的[3]。因此,我們可以使用隨機(jī)梯度下降法來(lái)訓(xùn)練整個(gè)模型。
結(jié)果
A.實(shí)現(xiàn)細(xì)節(jié)
本次實(shí)驗(yàn)使用深度學(xué)習(xí)框架TensorFlow來(lái)實(shí)現(xiàn)本文提出的網(wǎng)絡(luò)結(jié)構(gòu)[1]?;赗esNet-101[7]在圖像識(shí)別中的高效表現(xiàn),我們采用了ResNet-101[7]架構(gòu)作為網(wǎng)絡(luò)中的基本模塊。CNNfunc和CNNobj都包括了[7]中的前四個(gè)殘差模塊,(即conv1,conv2_x,conv3_x和conv4_x,總共91個(gè)卷積層),CNNpred包括了ResNet-101中的最后一個(gè)殘差模塊(即conv5_x層)。最后的結(jié)果通過(guò)兩個(gè)全連接層得出。實(shí)驗(yàn)首先使用COCO數(shù)據(jù)集訓(xùn)練一個(gè)fasterR-CNN模型[19],其次將模型的參數(shù)作為CNNfunc、CNNobj和CNNpred的初始化參數(shù)。然后我們固定CNNobj的參數(shù),再利用功能區(qū)域數(shù)據(jù)集微調(diào)雙流網(wǎng)絡(luò)。實(shí)驗(yàn)中訓(xùn)練的學(xué)習(xí)率設(shè)為0.0003,批的大小設(shè)為1,anchorbox的大小設(shè)為0.125,0.2,0.5,1,2,方向比率(aspectratio)為0.5,1,2。非極大值抑制(NMS)的重疊度(IoU,IntersectionoverUnion)設(shè)置為0.7。

圖5:coco數(shù)據(jù)集的樣本示例
B.?dāng)?shù)據(jù)集和評(píng)價(jià)指標(biāo)
本次實(shí)驗(yàn)利用[24]提供的功能區(qū)域數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。該數(shù)據(jù)集包括了約600張從SUN數(shù)據(jù)集[23]中得到的廚房場(chǎng)景圖像,圖7展示了數(shù)據(jù)集中的一些樣本。整個(gè)數(shù)據(jù)集有近10000個(gè)標(biāo)注的區(qū)域樣本。這些樣本的統(tǒng)計(jì)分布如圖6所示。為了對(duì)我們的模型進(jìn)行評(píng)估,本次實(shí)驗(yàn)采用了與[19]相同的評(píng)價(jià)指標(biāo),將訓(xùn)練集90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩下的作為測(cè)試數(shù)據(jù)。

圖6:數(shù)據(jù)集中不同功能區(qū)域數(shù)量的統(tǒng)計(jì)直方圖
對(duì)于物體網(wǎng)絡(luò),我們使用COCO數(shù)據(jù)集[12]學(xué)習(xí)與物體相關(guān)的特征。COCO數(shù)據(jù)集中包含了91種常見的物體類別,例如人,車,桌子,瓶子,碗等等。這些圖像均來(lái)源于網(wǎng)絡(luò),有著多種多樣的場(chǎng)景,如廚房,街道,公園等。每一張圖像包括了各種類別物體的矩形框。COCO數(shù)據(jù)集的圖例樣式如圖5所示。整個(gè)訓(xùn)練數(shù)據(jù)集共包含80000張圖像。
本次實(shí)驗(yàn)與[24]一樣使用精度,召回率和F1值作為算法的評(píng)價(jià)指標(biāo)。一個(gè)正確的預(yù)測(cè)結(jié)果應(yīng)符合以下兩點(diǎn)要求:(1)正確預(yù)測(cè)出功能類型;(2)預(yù)測(cè)的矩形框和真實(shí)標(biāo)簽的矩形框的IoU值要大于0.5。精度,召回率和F1值的計(jì)算如下所示:

在這里tp、fn分別表示正確的正樣本和錯(cuò)誤的負(fù)樣本的數(shù)量。
C.基準(zhǔn)方法(BaselineMethods)
為了證明本文提出方法的有效性,本實(shí)驗(yàn)采用下面的方法作為評(píng)價(jià)基準(zhǔn):
1.選擇搜索(selectivesearch)+CNN分類[24]。該方法首先利用選擇搜索[21]生成候選框。生成候選框之后,將每個(gè)候選框選中的圖像塊作為輸入傳入CNN并預(yù)測(cè)出該候選框的功能類別。該CNN首先使用ImageNet圖像分類數(shù)據(jù)集[5]進(jìn)行預(yù)訓(xùn)練,然后用功能區(qū)域數(shù)據(jù)集進(jìn)行微調(diào)。本實(shí)驗(yàn)使用原文章[24]的實(shí)驗(yàn)結(jié)果作為本文的基準(zhǔn)實(shí)驗(yàn)結(jié)果。因?yàn)閇24]采用了“困難樣本挖掘”(“hardsamplemining”)的方法來(lái)調(diào)整CNN模型,所以其精度和召回率在每輪調(diào)整訓(xùn)練的時(shí)候都不同,我們將[24]中的3輪調(diào)整訓(xùn)練的結(jié)果都作為本次實(shí)驗(yàn)的基準(zhǔn)結(jié)果。
2.FasterR-CNN[19]。在訓(xùn)練fasterR-CNN過(guò)程中,首先用COCO數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后用功能區(qū)域檢測(cè)數(shù)據(jù)集進(jìn)行微調(diào)。為了保證實(shí)驗(yàn)的公平性,這個(gè)基準(zhǔn)方法也使用ResNet-101[7]作為特征提取模塊,預(yù)測(cè)網(wǎng)絡(luò)跟本文提出方法的網(wǎng)絡(luò)結(jié)構(gòu)一致,訓(xùn)練的超參數(shù)跟[7]的設(shè)置一致。本文提出的方法跟fasterR-CNN的主要不同點(diǎn)在于:(1)在功能區(qū)域預(yù)測(cè)時(shí)保留了物體相關(guān)的特征;(2)anchorbox的尺度和方向比率更多。
D.與基準(zhǔn)方法的量化比較
表格1展示了本文提出的方法和其他基準(zhǔn)方法的精度、召回率和F1值。通過(guò)對(duì)比可知fasterR-CNN在性能上比[24]使用的選擇搜索+CNN分類的方法要更好。這是因?yàn)閒asterR-CNN是一種結(jié)合特征學(xué)習(xí)和區(qū)域檢測(cè)的端到端的方法,多尺度的anchorboxes能夠處理多種尺度的區(qū)域。表格中的結(jié)果說(shuō)明本文提出的方法要比已有的方法有更好的性能。本文的方法是在fasterR-CNN的基礎(chǔ)上建立的,因此結(jié)果表明了融合物體信息并且增加更多類型的anchorbox是行之有效的。

E.控制變量分析(AblativeAnalysis)
為了進(jìn)一步分析本文提出的方法的各個(gè)模塊的效果,本部分實(shí)驗(yàn)將對(duì)模型進(jìn)行不同的設(shè)置并進(jìn)行比較。表格2展 示了該實(shí)驗(yàn)的測(cè)試結(jié)果。在表格2中,模型A移除了雙流網(wǎng)絡(luò)中的其中一支網(wǎng)絡(luò),并且將anchorbox的種類設(shè)置與[19]一致,所以模型A與原始的fasterR-CNN一致。模型B保持與[19]一致的anchorbox的設(shè)置,但增加了能夠提取物體相關(guān)特征的網(wǎng)絡(luò)。從表格中可以看出精度從模型A的38.04%提升到模型B的52.29%。這一結(jié)果表明了物體知識(shí)對(duì)預(yù)測(cè)功能區(qū)域的有效性。模型C和模型D增加了anchorbox在尺度和方向比率上的多樣性,這個(gè)改進(jìn)同樣提高了模型的性能,可以看出模型D在增加了物體知識(shí)之后的性能要比沒(méi)有增加的模型C好。

F.量化分析
為了可視化算法的性能,圖7展示了在一些新的場(chǎng)景中算法對(duì)功能區(qū)域的預(yù)測(cè)結(jié)果。從圖中可以看出,算法能夠預(yù)測(cè)出不同大小的功能區(qū)域,甚至能夠預(yù)測(cè)出比較小的抽屜把柄區(qū)域并正確的標(biāo)識(shí)為“旋轉(zhuǎn)抓取并打開”。然而從圖中也能發(fā)現(xiàn)許多缺失的區(qū)域,比如圖7(b)的煤氣爐開關(guān)。經(jīng)分析,這種現(xiàn)象出現(xiàn)的可能原因有以下兩點(diǎn):(1)在使用CNN做特征提取的時(shí)候圖像中的細(xì)節(jié)可能會(huì)因?yàn)橄虏蓸訉訉?dǎo)致特征丟失。(2)后期使用的非極大值抑制處理可能會(huì)把重疊率較高的矩形框融合在一起。

圖7:本文方法在[24]提供的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
為了進(jìn)一步了解本文方法的性能提升的程度,實(shí)驗(yàn)還利用預(yù)測(cè)區(qū)域?qū)?yīng)的預(yù)測(cè)功能類別與該區(qū)域的真實(shí)功能類別求出混淆矩陣,并對(duì)該矩陣進(jìn)行可視化,如圖8所示。因?yàn)楸締?wèn)題不是一個(gè)分類問(wèn)題,我們只要看要預(yù)測(cè)的區(qū)域與哪一個(gè)標(biāo)注的區(qū)域重疊度最高。所以為了獲得預(yù)測(cè)區(qū)域的真實(shí)標(biāo)簽,我們將預(yù)測(cè)的區(qū)域與真實(shí)標(biāo)注區(qū)域重疊度大于0.5的區(qū)域?qū)?yīng)的標(biāo)簽作為該預(yù)測(cè)區(qū)域的真實(shí)標(biāo)簽,如果該區(qū)域跟每個(gè)標(biāo)簽的重疊都小于0.5,那么就將預(yù)測(cè)區(qū)域標(biāo)為“背景”這一類。通過(guò)對(duì)混淆矩陣的觀察,可以發(fā)現(xiàn)很多屬于背景的區(qū)域被預(yù)測(cè)成為功能區(qū)域。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析后發(fā)現(xiàn),錯(cuò)誤的結(jié)果中存在著錯(cuò)誤的正樣本的情形,但也找到了一些區(qū)域預(yù)測(cè)是正確的但是卻缺失了真實(shí)的標(biāo)簽的情況。部分樣例如圖9所示。從中可以看到有些功能區(qū)域分布在不同的視角上,有些分布在一個(gè)密集的場(chǎng)景中,這對(duì)標(biāo)注員來(lái)說(shuō)也是一個(gè)很大的挑戰(zhàn),因此可能存在漏標(biāo)的情況。

圖8:測(cè)試結(jié)果的混淆矩陣,垂直軸表示真實(shí)標(biāo)簽,水平軸表示預(yù)測(cè)結(jié)果

圖9:一些錯(cuò)誤的正樣本的示例,在這些示例中模型正確預(yù)測(cè)出功能區(qū)域和對(duì)應(yīng)的功能,但是數(shù)據(jù)中沒(méi)有標(biāo)注
因?yàn)橛?xùn)練跟測(cè)試數(shù)據(jù)都是在廚房環(huán)境中,所以為了真正說(shuō)明算法的泛化能力,還需要在不同場(chǎng)景下進(jìn)行算法測(cè)試。我們下載了一批非廚房的室內(nèi)場(chǎng)景圖像,然后利用這些圖像測(cè)試本文提出的算法。結(jié)果如圖10所示。雖然預(yù)測(cè)結(jié)果存在一些錯(cuò)誤,但是仍可以發(fā)現(xiàn)模型能夠找到一些新的有意義的區(qū)域。比如,枕頭沒(méi)有出現(xiàn)在廚房場(chǎng)景的訓(xùn)練集中,但是算法依然能夠正確的將它框出并標(biāo)注為“夾取并移除”。類似的,算法將床標(biāo)注為“坐”。這些都證明了模型能夠擴(kuò)展到新的未見過(guò)的區(qū)域中。

圖10:非廚房場(chǎng)景的功能區(qū)域檢測(cè)測(cè)試??梢园l(fā)現(xiàn)算法能夠檢測(cè)到廚房場(chǎng)景中沒(méi)有見過(guò)的功能區(qū)域
結(jié)論
本文研究了如何結(jié)合物體知識(shí)來(lái)提升功能區(qū)域的檢測(cè)問(wèn)題,我們定義了一個(gè)雙流網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)能夠提取和融合物體相關(guān)特征和功能相關(guān)特征。同時(shí)本文中也討論了處理多尺度區(qū)域的問(wèn)題。實(shí)驗(yàn)中將本文提出的方法與基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法[19]和前人做的功能區(qū)域檢測(cè)算法[24]進(jìn)行對(duì)比,證明了本文算法優(yōu)越的性能,同時(shí)也證明了融合物體相關(guān)特征的有效性。實(shí)驗(yàn)也進(jìn)一步證明,本文提出的算法能夠處理沒(méi)有在訓(xùn)練集中見過(guò)的場(chǎng)景和物體所包含的功能區(qū)域。由于目前fasterR-CNN[18]在通用物體檢測(cè)上有很好的性能表現(xiàn),因此本文的算法也采用了fasterR-CNN架構(gòu),其他的目標(biāo)檢測(cè)架構(gòu)也可以很方便地應(yīng)用到本文提出的算法上。本文的非常重要的貢獻(xiàn)在于將物體相關(guān)的知識(shí)應(yīng)用到功能區(qū)域檢測(cè)問(wèn)題上。
參考文獻(xiàn)
[1]Mart´?nAbadi,AshishAgarwal,PaulBarham,EugeneBrevdo,ZhifengChen,CraigCitro,GregS.Corrado,AndyDavis,JeffreyDean,MatthieuDevin,SanjayGhemawat,IanGoodfellow,etal.TensorFlow:Large-scalemachinelearningonheterogeneoussystems,2015.Softwareavailablefromtensorflow.org
[2]L´eonBottou.Large-scalemachinelearningwithstochasticgradientdescent.InProceedingsofCOMPSTAT,pages177–186.2010.
[3]JifengDai,KaimingHe,andJianSun.Instance-awaresemanticsegmentationviamulti-tasknetworkcascades.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages3150–3158,2016.
[4]NavneetDalalandBillTriggs.Histogramsoforientedgradientsforhumandetection.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,volume1,pages886–893,2005.
[5]J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,andL.Fei-Fei.ImageNet:ALarge-ScaleHierarchicalImageDatabase.InProceedingsofIEEEconferenceonComputerVisionandPatternRecognition,2009.
[6]PedroFFelzenszwalb,RossBGirshick,DavidMcAllester,andDevaRamanan.Objectdetectionwithdiscriminativelytrainedpart-basedmodels.IEEETransactionsonPatternAnalysisandMachineIntelligence,32(9):1627–1645,2010.
[7]KaimingHe,XiangyuZhang,ShaoqingRen,andJianSun.Deepresiduallearningforimagerecognition.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,pages770–778,2016.
[8]HemaSwethaKoppula,RudhirGupta,andAshutoshSaxena.Learninghumanactivitiesandobjectaffordancesfromrgb-dvideos.TheInternationalJournalofRoboticsResearch,32(8):951–970,2013.
[9]AlexKrizhevsky,IlyaSutskever,andGeoffreyEHinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.InAdvancesinNeuralInformationProcessingSystems,pages1097–1105,2012.
[10]SulabhKumraandChristopherKanan.Roboticgraspdetectionusingdeepconvolutionalneuralnetworks.arXivpreprintarXiv:1611.08036,2016.
[11]YiningLi,ChenHuang,ChenChangeLoy,andXiaoouTang.Humanattributerecognitionbydeephierarchicalcontexts.InProceedingsofEuropeanConferenceonComputerVision,pages684–700,2016.
[12]Tsung-YiLin,MichaelMaire,SergeBelongie,JamesHays,PietroPerona,DevaRamanan,PiotrDoll´ar,andCLawrenceZitnick.Microsoftcoco:Commonobjectsincontext.InProceedingsofEuropeanConferenceonComputerVision,pages740–755,2014.
[13]WeiLiu,DragomirAnguelov,DumitruErhan,ChristianSzegedy,ScottReed,Cheng-YangFu,andAlexanderCBerg.Ssd:Singleshotmultiboxdetector.InProceedingsofEuropeanConferenceonComputerVision,pages21–37,2016.
[14]ZiweiLiu,PingLuo,XiaogangWang,andXiaoouTang.Deeplearningfaceattributesinthewild.InProceedingsoftheIEEEInternationalConferenceonComputerVision,pages3730–3738,2015.
[15]AustinMyers,ChingLTeo,CorneliaFerm¨uller,andYiannisAloimonos.Affordancedetectionoftoolpartsfromgeometricfeatures.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages1374–1381,2015.
[16]AlexanderNeubeckandLucVanGool.Efficientnon-maximumsuppression.InProceedingsofInternationalConferenceonPatternRecognition,volume3,pages850–855,2006.
[17]AlessandroPieropan,CarlHenrikEk,andHedvigKjellstr¨om.Functionalobjectdescriptorsforhumanactivitymodeling.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages1282–1289,2013.
[18]JosephRedmon,SantoshDivvala,RossGirshick,andAliFarhadi.Youonlylookonce:Unified,real-timeobjectdetection.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages779–788,2016.
[19]ShaoqingRen,KaimingHe,RossGirshick,andJianSun.Fasterr-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks.InAdvancesinNeuralInformationProcessingSystems,pages91–99,2015.
[20]YuyinSun,LiefengBo,andDieterFox.Attributebasedobjectidentification.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages2096–2103,2013.
[21]JasperRRUijlings,KoenEAVanDeSande,TheoGevers,andArnoldWMSmeulders.Selectivesearchforobjectrecognition.InternationalJournalofComputerVision,104(2):154–171,2013.
[22]FlorentinW¨org¨otter,ErenErdalAksoy,NorbertKr¨uger,JustusPiater,AlesUde,andMinijaTamosiunaite.Asimpleontologyofmanipu-lationactionsbasedonhand-objectrelations.IEEETransactionsonAutonomousMentalDevelopment,5(2):117–134,2013.
[23]JianxiongXiao,JamesHays,KristaAEhinger,AudeOliva,andAntonioTorralba.Sundatabase:Large-scalescenerecognitionfromabbeytozoo.InProceedingsofIEEEconferenceonComputerVisionandPatternRecognition,pages3485–3492,2010.
[24]ChengxiYe,YezhouYang,RenMao,CorneliaFerm¨uller,andYiannisAloimonos.Whatcanidoaroundhere?deepfunctionalsceneunder-standingforcognitiverobots.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages4604–4611,2017.
[25]BoZhao,JiashiFeng,XiaoWu,andShuichengYan.Memory-augmentedattributemanipulationnetworksforinteractivefashionsearch.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,July2017.
引言
據(jù)世界衛(wèi)生組織估計(jì),約15%的成年人(約7.66億人)有一定程度的聽力受損,并且隨著世界人口的擴(kuò)張和人口老齡化,這一數(shù)字還將持續(xù)上升。對(duì)更高級(jí)的智能助聽設(shè)備的市場(chǎng)需求將會(huì)越來(lái)越大,智能助聽設(shè)備的潛在市場(chǎng)不僅僅局限于聽力受損人群,技術(shù)人員還可以將該技術(shù)應(yīng)用到人機(jī)語(yǔ)音交互、復(fù)雜聲場(chǎng)環(huán)境下的言語(yǔ)交流等方面。

近150年以來(lái),技術(shù)的不斷變革在不斷改善助聽設(shè)備的性能。早期的通話管(1880年)完全依靠對(duì)聲音的放大處理。到了1900年,第一臺(tái)電助聽設(shè)備誕生,它通過(guò)碳膜來(lái)放大聲音。1921年,根據(jù)使用者聽力損失類型的不同,出現(xiàn)使用真空管的助聽設(shè)備。隨著晶體管的出現(xiàn),1952年第一臺(tái)耳背式助聽器誕生。20世紀(jì)80年代,針對(duì)聽力受損嚴(yán)重患者,具有臨床意義的電子人工耳蝸面世。上世紀(jì)90年代以來(lái),將聲波信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的數(shù)字助聽設(shè)備成為主流,如今的助聽設(shè)備數(shù)字信號(hào)處理能力強(qiáng)大,對(duì)聲音進(jìn)行放大前還需做語(yǔ)音增強(qiáng)以去除背景噪聲,以進(jìn)一步提高助聽設(shè)備的性能。
如何進(jìn)行語(yǔ)音增強(qiáng)實(shí)現(xiàn)降噪成為目前提高助聽設(shè)備性能的一大技術(shù)挑戰(zhàn)。語(yǔ)音增強(qiáng)包括語(yǔ)音降噪、語(yǔ)音分離和語(yǔ)音去混響等,其目的都是改進(jìn)語(yǔ)音質(zhì)量,消除背景噪聲。本調(diào)研文章介紹的語(yǔ)音增強(qiáng)主要為語(yǔ)音降噪技術(shù),將主要介紹兩種基于機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)助聽設(shè)備的智能化語(yǔ)音增強(qiáng)。
傳統(tǒng)的語(yǔ)音降噪技術(shù)
長(zhǎng)期以來(lái),許多研究人員致力于研究語(yǔ)音降噪技術(shù),這些降噪技術(shù)可以分為兩類:多麥克風(fēng)陣列和單麥克風(fēng)框架。當(dāng)目標(biāo)語(yǔ)音和噪聲在空間上可分離時(shí),多麥克風(fēng)陣列降噪方法的優(yōu)勢(shì)明顯[1]。然而,在混響環(huán)境中,多麥克風(fēng)的降噪方法的性能降低,并且它的應(yīng)用通常局限于目標(biāo)語(yǔ)音和噪聲源空間可分離的聲場(chǎng)[2]。因?yàn)楦郊拥柠溈孙L(fēng)增加了設(shè)備費(fèi)用和計(jì)算成本,因此,與多麥克風(fēng)的降噪方法相比,單麥克風(fēng)降噪方法更具經(jīng)濟(jì)優(yōu)勢(shì)。因此,研究人員提出了多種單麥克風(fēng)降噪技術(shù),例如INTEL[3-4]、對(duì)數(shù)最小均方誤差(logMMSE)[5]、基于先驗(yàn)信噪比估計(jì)的維納濾波器(Wiener)[6]、KLT[7-9]、ClearVoice[10]、基于信噪比的降噪方法[11]和廣義最大后驗(yàn)頻譜振幅[12]等。這些降噪方法大都是基于對(duì)語(yǔ)音和噪聲信號(hào)的統(tǒng)計(jì)學(xué)分析而提出的[13]。另一種流行的傳統(tǒng)降噪方法是使用端點(diǎn)檢測(cè)器識(shí)別人說(shuō)話的停頓間隙,將此指定為噪聲,然后將其從帶噪語(yǔ)音中“減去”獲得降噪后的語(yǔ)音。這種降噪方法也被稱為譜減法,但是它通常對(duì)噪聲抑制太少或者消除太多噪聲,以至于將目標(biāo)語(yǔ)音也消除了,這也就帶來(lái)了聽起來(lái)有韻律感的音樂(lè)噪聲,使得降噪后的語(yǔ)音質(zhì)量下降。
Chen等人在2015年招募人工耳蝸植入者作為被試者,對(duì)幾種單麥克風(fēng)降噪方法效果進(jìn)行了評(píng)估,發(fā)現(xiàn)大多數(shù)降噪方法在噪聲條件下有效提高了人工耳蝸植入者的語(yǔ)音識(shí)別率。但是,這些方法在不同噪聲條件下表現(xiàn)不一。傳統(tǒng)的單麥克風(fēng)降噪方法在穩(wěn)定噪聲條件下給人工耳蝸植入者的語(yǔ)音識(shí)別帶來(lái)顯著改善,但在具挑戰(zhàn)性噪聲條件下(例如當(dāng)競(jìng)爭(zhēng)信號(hào)是語(yǔ)音信號(hào)[14]或快變?cè)肼昜15]),仍然有很大的性能改善空間?;跈C(jī)器學(xué)習(xí)的降噪方法在具挑戰(zhàn)性的噪聲條件下很好地彌補(bǔ)了傳統(tǒng)降噪方法的短板。
基于噪聲分類器+深度降噪自編碼器的降噪方法
Lu等人2013年提出了一種基于深度降噪自編碼器(DDAE)的降噪方法,該方法將降噪轉(zhuǎn)換成非線性編碼-解碼任務(wù),以此來(lái)映射噪聲信號(hào)和干凈語(yǔ)音信號(hào)之間的特征。Lu等人發(fā)現(xiàn),針對(duì)常見噪聲進(jìn)行降噪,使用多種標(biāo)準(zhǔn)化客觀評(píng)估,DDAE降噪方法的性能優(yōu)于傳統(tǒng)單麥克風(fēng)降噪方法[16]。2017年,Lai等人評(píng)估了非匹配DDAE模型(即訓(xùn)練和測(cè)試階段使用不同類型的噪聲)對(duì)使用聲碼器生成的語(yǔ)音降噪效果??陀^評(píng)估和主觀聽力測(cè)試的結(jié)果均表明,在非平穩(wěn)噪聲條件下,DDAE降噪方法處理后的語(yǔ)音可懂度高于傳統(tǒng)降噪方法。非匹配的DDAE模型已經(jīng)可以提供較好的降噪效果[17],但是只有當(dāng)測(cè)試集和訓(xùn)練集噪聲類型相同時(shí)(即匹配的DDAE模型),DDAE降噪效果才能達(dá)到最佳。因此,Lai等人于2018年提出了一種新的降噪方法,即采用額外的噪聲分類器(以下簡(jiǎn)稱NC)模塊,來(lái)進(jìn)一步提高基于DDAE降噪方法的性能。我們稱之為NC+DDAE降噪方法。

NC+DDAE降噪系統(tǒng)的細(xì)節(jié)框圖[18]可參考圖2。當(dāng)給定帶噪語(yǔ)音信號(hào)時(shí),NC模塊首先確定噪聲類型并選擇最合適的DDAE模型來(lái)執(zhí)行降噪。在DDAE模塊中,設(shè)計(jì)了多個(gè)噪聲相關(guān)DDAE(noise-dependentDDAE,ND-DDAE)模型和一個(gè)與噪聲無(wú)關(guān)的DDAE(noise-independentDDAE,NI-DDAE)模型。每個(gè)ND-DDAE都是根據(jù)某一特定類型的噪聲進(jìn)行訓(xùn)練的,而NI-DDAE則是針對(duì)多種噪聲類型進(jìn)行訓(xùn)練的。下面將分別介紹NC和DDAE模塊。
基于深度神經(jīng)網(wǎng)絡(luò)的噪聲分類器模塊
NC模塊是基于深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,DNN)模型構(gòu)建的。DNN模型是在輸入層和輸出層之間具有許多隱藏層的前饋人工神經(jīng)網(wǎng)絡(luò)。如圖2上半部分所示,使用梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficients,MFCC)[19-20]作為NC模塊的聲學(xué)特征。MFCC廣泛應(yīng)用于各種聲學(xué)模式分類任務(wù),如音樂(lè)分類[21]和自動(dòng)聽診[22]。MFCC特征提取過(guò)程包括六個(gè)步驟:(1)預(yù)加重:補(bǔ)償在人類發(fā)聲過(guò)程中被抑制的高頻部分;(2)加窗:給定信號(hào)被分成一系列的幀;(3)快速傅立葉變換:獲得每幀的頻譜響應(yīng)以進(jìn)行頻譜分析;(4)梅爾濾波:將梅爾濾波帶的頻率成分整合為單能量強(qiáng)度;(5)非線性變換:該變換取所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)形式;(6)離散余弦變換:將所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)轉(zhuǎn)換成MFCC。研究表明,39維MFCC(13維原始MFCC+13維一階MFCC+13維二階MFCC)可以更精確地表征聲學(xué)模式,從而產(chǎn)生更好的識(shí)別性能[23-24]。
在NC模塊中,這里進(jìn)一步采用置信度(ConfidenceMeasure,CM)[25]來(lái)評(píng)估識(shí)別結(jié)果的可靠性。CM分?jǐn)?shù)表示我們可以相信識(shí)別結(jié)果的程度:分?jǐn)?shù)越高表示對(duì)識(shí)別輸出的置信度越高,反之亦然。計(jì)算完CM分?jǐn)?shù)之后,定義一個(gè)閾值以對(duì)結(jié)果中的置信度分類。如前所述,NC模塊的目標(biāo)是確定噪聲類型,然后根據(jù)噪聲類型來(lái)選擇最合適的DDAE模型來(lái)執(zhí)行降噪。因此,如果所確定的噪聲類型的CM評(píng)分高于閾值,則選擇相應(yīng)的ND-DDAE模型來(lái)執(zhí)行降噪;另一方面,如果CM評(píng)分低于閾值,則直接使用NI-DDAE模型來(lái)執(zhí)行降噪。
基于深度降噪自編碼器的降噪模塊
DDAE降噪模塊的結(jié)構(gòu)如圖2下半部分所示。DDAE是一種有監(jiān)督的降噪方法,基于DNN的架構(gòu),得到帶噪語(yǔ)音信號(hào)和干凈語(yǔ)音信號(hào)之間的映射函數(shù)。DDAE降噪方法有兩個(gè)階段:訓(xùn)練和測(cè)試階段。在訓(xùn)練階段,準(zhǔn)備好一系列帶噪和相應(yīng)的干凈語(yǔ)音信號(hào)對(duì);在訓(xùn)練階段,帶噪-干凈語(yǔ)音信號(hào)對(duì)首先轉(zhuǎn)換為對(duì)數(shù)功率譜特征(LogPowerSpectra,LPS),LPS特征通常用在基于DNN降噪方法中[15,26]。對(duì)輸入信號(hào)進(jìn)行短時(shí)傅里葉分析,計(jì)算每個(gè)重疊加窗幀的離散傅里葉變換,從而獲得LPS譜。
如圖2所示,一共準(zhǔn)備N個(gè)ND-DDAE模型(例如ND-DDAE_1至ND-DDAE_N)和一個(gè)NI-DDAE模型。一共N+1個(gè)模型都在訓(xùn)練階段訓(xùn)練好。值得注意的是,每個(gè)ND-DDAE模型都是在某一特定噪聲類型下訓(xùn)練,因此在這一特定噪聲類型條件下,模型可以更準(zhǔn)確地表征帶噪語(yǔ)音信號(hào)轉(zhuǎn)換到對(duì)應(yīng)干凈語(yǔ)音信號(hào)的特征。另外,NI-DDAE模型由多種類型的噪聲訓(xùn)練,因此在特定噪聲類型條件下降噪,它的表征能力不如ND-DDAE。但是,因?yàn)镹I-DDAE模型由多種類型噪聲訓(xùn)練,它對(duì)新出現(xiàn)的噪聲類型降噪效果會(huì)較好。這里提出的NC+DDAE降噪方法可以總結(jié)如下:(1)當(dāng)測(cè)試噪聲類型被包含在訓(xùn)練集中,系統(tǒng)選擇最恰當(dāng)?shù)腘D-DDAE模型進(jìn)行降噪(即匹配的DDAE模型);(2)當(dāng)測(cè)試噪聲不被包含在訓(xùn)練集中,NI-DDAE模型用來(lái)降噪(即非匹配的DDAE模型),它對(duì)不同類型噪聲的泛化能力較好。
效果評(píng)測(cè)
為了測(cè)試NC+DDAE降噪方法的效果,研究采用歸一化協(xié)方差度量(NormalizedCovarianceMeasure,NCM)[27]來(lái)客觀評(píng)估降噪后的語(yǔ)音的可懂度,并招募了9名說(shuō)普通話的人工耳植入者進(jìn)行臨床聽力測(cè)試,使用詞正確率(WordCorrectRate,WCR)[17,28-31]作為評(píng)估指標(biāo)。測(cè)試過(guò)程采用雙人交流噪聲和建筑手提鉆噪聲,信噪比等級(jí)分別設(shè)置為0和5dB。NCM評(píng)分和WCR評(píng)分都表明,NC+DDAE降噪方法相比于傳統(tǒng)單麥克風(fēng)降噪方法和DDAE降噪方法,降噪效果有顯著性提升。
與傳統(tǒng)的降噪技術(shù)相比,NC+DDAE降噪方法可以被視為只需數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法。這種降噪方法學(xué)習(xí)從帶噪語(yǔ)音信號(hào)到干凈語(yǔ)音信號(hào)的映射函數(shù),而不會(huì)強(qiáng)加任何假設(shè)。再基于NC+DDAE模型的映射函數(shù),不使用任何噪聲估計(jì)算法,將帶噪語(yǔ)音直接轉(zhuǎn)換為干凈的語(yǔ)音。因此,即使在處理困難的,競(jìng)爭(zhēng)性噪聲或信噪比0dB時(shí),NC+DDAE降噪后的語(yǔ)音可懂度也比傳統(tǒng)降噪方法高。
基于深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽的降噪方法
1990年,來(lái)自加拿大蒙特利爾麥吉爾大學(xué)的心理學(xué)家AlbertBregman,提出人類聽覺(jué)系統(tǒng)將聲音分成不同的聲音流,例如,幾個(gè)朋友一邊聊天一邊放著音樂(lè),這就構(gòu)成了所謂的聽覺(jué)場(chǎng)景。聽覺(jué)場(chǎng)景中每個(gè)聲音流的音調(diào)、響度和方向都是不同的。如果兩個(gè)聲音在同一時(shí)間共享了同一頻段,響度高的聲音流壓倒響度較低的,這就是聽覺(jué)掩蔽原理,譬如,屋外的雨打在窗戶上發(fā)出“滴答滴答”的聲音,人可能就不會(huì)注意到屋內(nèi)掛鐘的滴答聲。
基于上述提到的原理,來(lái)自美國(guó)俄亥俄州立大學(xué)的WangDeliang提出了理想二值掩蔽方法[32],在一個(gè)特定頻段內(nèi)的一個(gè)特定短暫間隔(或時(shí)頻單元),理想二值掩蔽濾波器分析帶噪語(yǔ)音的每個(gè)時(shí)頻單元,并將每個(gè)時(shí)頻單元標(biāo)記為“0”或者“1”,如果目標(biāo)語(yǔ)音強(qiáng)于噪聲,標(biāo)記為1,反之標(biāo)記為0。然后濾波器拋棄標(biāo)記為0的單元,利用標(biāo)記為1的時(shí)頻單元重建語(yǔ)音。理想二值掩蔽極大改善了聽力障礙者的語(yǔ)音理解能力,但是這里的理想二值掩蔽是停留在實(shí)驗(yàn)室層面的,實(shí)驗(yàn)設(shè)計(jì)將語(yǔ)音和噪聲混合,濾波器是知道什么時(shí)候目標(biāo)語(yǔ)音比噪聲響度大的,因此稱之為理想的。一個(gè)真正實(shí)用的二值掩蔽濾波器,需要完全獨(dú)立地實(shí)時(shí)地將聲音從背景噪聲中分離出來(lái)。因此Wang等人嘗試了將深度神經(jīng)網(wǎng)絡(luò)結(jié)合理想二值掩蔽的降噪方法,以實(shí)現(xiàn)機(jī)器獨(dú)立地學(xué)習(xí)區(qū)分目標(biāo)語(yǔ)音和背景噪聲。
效果評(píng)測(cè)
為了測(cè)試深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽方法的降噪效果,研究人員招募了12位聽力受損者和12位聽力正常者進(jìn)行測(cè)試,被試者通過(guò)耳機(jī)聽語(yǔ)音樣本。樣本是成對(duì)的:首先是原始帶噪音頻,然后是基于深層神經(jīng)網(wǎng)絡(luò)的程序處理后的音頻。使用兩種噪音進(jìn)行測(cè)試,即平穩(wěn)的“嗡嗡嗡”噪聲和許多人同時(shí)說(shuō)話的噪聲。許多人同時(shí)說(shuō)話噪聲是創(chuàng)造了嘈雜的噪聲背景,加入四名男性和四名女性說(shuō)話語(yǔ)句,模仿雞尾酒會(huì)場(chǎng)景。
兩組被試者測(cè)試結(jié)果表明,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)帶噪語(yǔ)音進(jìn)行降噪,語(yǔ)音信號(hào)的可懂度都有了很大的提高。在多人同時(shí)說(shuō)話噪聲條件下,聽力障礙者只能理解原始帶噪語(yǔ)音29%的內(nèi)容,但對(duì)于處理后的音頻,他們理解的內(nèi)容達(dá)到了84%。更有結(jié)果從10%提高到了90%。在穩(wěn)定噪聲條件下,類似的改善也很明顯,被試者的理解程度從36%提高到了為82%。
經(jīng)過(guò)上述方法降噪后,正常聽力者的表現(xiàn)也有所提升,這意味著此研究的應(yīng)用前景比預(yù)期的要大得多。穩(wěn)定噪聲條件下,聽力正常者理解程度從37%提升到了80%。在多人同時(shí)說(shuō)話噪聲條件下,他們的表現(xiàn)從40%提高到了78%。
有趣的是,研究人員發(fā)現(xiàn),使用上述降噪方法后,聽力障礙者的表現(xiàn)甚至?xí)^(guò)正常聽力者,這意味著基于深度神經(jīng)網(wǎng)絡(luò)的方法,有望解決迄今為止研究人員花費(fèi)無(wú)數(shù)精力的“雞尾酒會(huì)效應(yīng)”問(wèn)題。
未來(lái)展望
現(xiàn)實(shí)生活場(chǎng)景中,噪聲是多樣化的,因此應(yīng)用到實(shí)際場(chǎng)景中,無(wú)論是噪聲分類器+深度降噪自編碼器降噪方法,還是深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽降噪方法,都需要學(xué)會(huì)快速濾除同時(shí)出現(xiàn)的多種類型噪聲,包括訓(xùn)練集中未出現(xiàn)過(guò)的新噪聲。研究人員通過(guò)增加訓(xùn)練集噪聲的種類和數(shù)量,例如,Wang等人將訓(xùn)練數(shù)據(jù)中噪聲類型提高了10000種,不斷優(yōu)化改進(jìn)訓(xùn)練后的模型,以實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)語(yǔ)音增強(qiáng)的現(xiàn)實(shí)應(yīng)用意義。
另外,計(jì)算復(fù)雜度目前是基于DNN的降噪方法在助聽設(shè)備中應(yīng)用的關(guān)鍵問(wèn)題。由于其多層結(jié)構(gòu),DNN模型在運(yùn)行時(shí)需要大量?jī)?nèi)存和高計(jì)算成本。因此,保持其性能的同時(shí),減少在線計(jì)算量,以此來(lái)簡(jiǎn)化DNN模型的架構(gòu),這樣的要求是非??量痰摹W罱?,研究人員提出了許多方法來(lái)制備基于DNN的高度可重構(gòu)且節(jié)能的處理器,用來(lái)實(shí)施各類模式分類和回歸任務(wù)[33-39]。同時(shí),研究人員也在努力解決高計(jì)算成本的問(wèn)題。例如,蒸餾方法[40]將復(fù)雜模型轉(zhuǎn)換成到更適合部署的簡(jiǎn)化模型。另一個(gè)著名的方法是在基于深度學(xué)習(xí)的模型中,對(duì)參數(shù)進(jìn)行二進(jìn)制化處理以減少內(nèi)存大小和訪問(wèn)量[41]。隨著深度學(xué)習(xí)算法和硬件的快速發(fā)展,上述提到的降噪方法可以在不久的將來(lái)在助聽設(shè)備中實(shí)現(xiàn)應(yīng)用。此外,已有多個(gè)系統(tǒng)可以將助聽設(shè)備與智能手機(jī),電視機(jī)或MP3播放器等其他設(shè)備集成。這些設(shè)備可以為助聽設(shè)備提供更優(yōu)越的計(jì)算和存儲(chǔ)能力,因此,這也可以很好地解決基于機(jī)器學(xué)習(xí)降噪方法的高計(jì)算成本問(wèn)題。目前,諸如美國(guó)明尼蘇達(dá)州的Starkey聽力技術(shù)公司,正致力于將機(jī)器學(xué)習(xí)技術(shù)與實(shí)際助聽設(shè)備結(jié)合。
機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展很大程度地推動(dòng)了各行業(yè)的智能化發(fā)展,相信在不久的將來(lái),基于機(jī)器學(xué)習(xí)實(shí)現(xiàn)助聽設(shè)備的智能語(yǔ)音增強(qiáng)技術(shù)將得以應(yīng)用,為聽力障礙者乃至整個(gè)人類帶來(lái)福音。
參考文獻(xiàn)
SchmidtRO,Multipleemitterlocationandsignalparameterestimation.IEEETransactionsonAntennasandPropagation,1986.
WoutersJ,VandenBJ,Speechrecognitioninnoiseforcochlearimplanteeswithatwo-microphonemonauraladaptivenoisereductionsystem.EarHear,2001.
WeissMR,AschkenasyE,ParsonsTW,StudyanddevelopmentoftheINTELtechniqueforimprovingspeechintelligibility.1975.
HochbergI,BoothroydA,WeissM,etal.,Effectsofnoiseandnoisesuppressiononspeechperceptionbycochlearimplantusers.EarHear,1992.
EphraimY,MalahD,Speechenhancementusingaminimummean-squareerrorlog-spectralamplitudeestimator.IEEETransactionsonSpeech&AudioProcessing,2003.
ScalartP,FilhoJV,Speechenhancementbasedonapriorisignaltonoiseestimation.IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,1996.
RezayeeA,GazorS,AnadaptiveKLTapproachforspeechenhancement.IEEETransactionsonSpeech&AudioProcessing,2001.
HuY,LoizouPC,Ageneralizedsubspaceapproachforenhancingspeechcorruptedbycolorednoise.IEEETransactionsonSpeech&AudioProcessing,2003.
LoizouPC,LoboA,HuY.,Subspacealgorithmsfornoisereductionincochlearimplants.JournaloftheAcousticalSocietyofAmerica,2005.
BuechnerA,BrendelM,SaalfeldH,etal.,ResultsofapilotstudywithasignalenhancementalgorithmforHiRes120cochlearimplantusers.Otology&Neurotology,2010.
DawsonPW,MaugerSJ,HersbachAA,Clinicalevaluationofsignal-to-noiseratio-basednoisereductioninNucleus®cochlearimplantrecipients.EarHear,2011.
YuT,LaiYH,Generalizedmaximumaposteriorispectralamplitudeestimationforspeechenhancement.SpeechCommunication,2016.
LoizouPC,SpeechEnhancement:TheoryandPractice.CRCPress,2007.
StickneyGS,ZengFG,LitovskyR,etal.,Cochlearimplantspeechrecognitionwithspeechmaskers.JournaloftheAcousticalSocietyofAmerica,2004.
XuY,DuJ,DaiLR,etal.,Aregressionapproachtospeechenhancementbasedondeepneuralnetworks.IEEE/ACMTransactionsonAudioSpeech&LanguageProcessing,2015.
CohenI,Noisespectrumestimationinadverseenvironments:Improvedminimacontrolledrecursiveaveraging.IEEETransactionsonSpeech&AudioProcessing,2003.
LaiYH,ChenF,WangSS,etal.,Adeepdenoisingautoencoderapproachtoimprovingtheintelligibilityofvocodedspeechincochlearimplantsimulation.IEEETransactionsonBiomedicalEngineering,2017.
LaiYH,TsaoY,LuX,etal.,Deeplearning-basednoisereductionapproachtoimprovespeechintelligibilityforcochlearimplantrecipients.EarHear,2018.
DavisS,MermelsteinP.,Comparisonofparametricrepresentationsformonosyllabicwordrecognitionincontinuouslyspokensentences.IEEETransactionsonSpeech&AudioProcessing,1980.
RabinerL,JuangBH,Fundamentalsofspeechrecognition.1993.
RasanenO,LeppanenJ,LaineUK,etal.,Comparisonofclassifiersinaudioandaccelerationbasedcontextclassificationinmobilephones.SignalProcessingConference,2011.
ChenJ,WangY,YohoSE,etal.,Large-scaletrainingtoincreasespeechintelligibilityforhearing-impairedlistenersinnovelnoises.JournaloftheAcousticalSocietyofAmerica,2016.
FuruiS,Cepstralanalysistechniqueforautomaticspeakerverification.IEEETransactionsonSpeech&AudioProcessing,1981.
MaL,MilnerB,SmithD,Acousticenvironmentclassification.ACMTransactionsonSpeechandLanguageProcessing,2006.
JiangH,Confidencemeasuresforspeechrecognition:Asurvey.SpeechCommunication,2005.
Lu,X.,Tsao,Y.,Matsuda,S.,etal.,Speechenhancementbasedondeepdenoisingautoencoder.ProcofInterspeech,2013.
MaJ,HuY,LoizouPC,Objectivemeasuresforpredictingspeechintelligibilityinnoisyconditionsbasedonnewband-importancefunctions.JournaloftheAcousticalSocietyofAmerica,2009.
ChenF,LoizouPC,PredictingtheintelligibilityofvocodedandwidebandMandarinChinese.JournaloftheAcousticalSocietyofAmerica,2011.
ChenF,WongLL,QiuJ,etal.,Thecontributionofmatchedenvelopedynamicrangetothebinauralbenefitsinsimulatedbilateralelectrichearing.JournalofSpeechLanguage&HearingResearch,2013.
ChenF,HuY,YuanM.EvaluationofnoisereductionmethodsforsentencerecognitionbyMandarin-speakingcochlearimplantlisteners.EarHear,2015.
LaiYH,TsaoY,ChenF.,Effectsofadaptationrateandnoisesuppressionontheintelligibilityofcompressed-envelopebasedspeech.PlosOne,2015.
WangDL,Deeplearningreinventsthehearingaid.IEEEPress,2017.
BangS,WangJ,LiZ,etal.,A288µWprogrammabledeep-learningprocessorwith270KBon-chipweightstorageusingnon-uniformmemoryhierarchyformobileintelligence.IEEESolid-StateCircuitsConference,2017.
BongK,ChoiS,KimC,etal.,A0.62mWultra-low-powerconvolutional-neural-networkface-recognitionprocessorandaCISintegratedwithalways-onhaar-likefacedetector.IEEESolid-StateCircuitsConference,2017.
DesoliG,ChawlaN,BoeschT,etal.,A2.9TOPS/WdeepconvolutionalneuralnetworkSoCinFD-SOI28nmforintelligentembeddedsystems,IEEESolid-StateCircuitsConference,2017.
MoonsB,UytterhoevenR,DehaeneW,etal.,A0.26-to-10TOPS/Wsubword-paralleldynamic-voltage-accuracy-frequency-scalableconvolutionalneuralnetworkprocessorin28nmFDSOI.IEEESolid-StateCircuitsConference,2017.
PriceM,GlassJ,ChandrakasanAP,Ascalablespeechrecognizerwithdeep-neural-networkacousticmodelsandvoice-activatedpowergating.IEEESolid-StateCircuitsConference,2017.
ShinD,LeeJ,LeeJ,etal.,An8.1TOPS/WreconfigurableCNN-RNNprocessorforgeneral-purposedeepneuralnetworks.IEEESolid-StateCircuitsConference,2017.
WhatmoughPN,LeeSK,LeeH,etal.,A28nmSoCwitha1.2GHz568nJ/predictionsparsedeep-neural-networkenginewith>0.1timingerrorratetoleranceforIoTapplications.IEEESolid-StateCircuitsConference,2017.
HintonG,VinyalsO,DeanJ,Distillingtheknowledgeinaneuralnetwork.ComputerScience,2015.
CourbariauxM,HubaraI,SoudryD,etal.,Binarizedneuralnetworks:Trainingdeepneuralnetworkswithweightsandactivationsconstrainedto+1or-1.2016.
文:WanDing1,MingyuXu2,DongyanHuang3,WeisiLin4,MinghuiDong3,XinguoYu1,HaizhouLi3,5
1.CentralChinaNormalUniversity,China
2.UniversityofBritishColumbia,Canada
3.ASTAR,Singapore
4.NanyangTechnologicalUniversity,Singapore
5.ECEDepartment,NationalUniversityofSingapore,Singapore
摘要
本文介紹了團(tuán)隊(duì)在2016年自然情景下音視頻情緒識(shí)別挑戰(zhàn)(EmotionRecognitionintheWildChallenge2016)的參賽系統(tǒng)。EmotiW2016挑戰(zhàn)的任務(wù)是根據(jù)視頻片段中人物的表情動(dòng)作和聲音將視頻按七種基本情緒(無(wú)情緒、憤怒、悲傷、快樂(lè)、驚奇、恐懼和厭惡)進(jìn)行分類。EmotiW2016挑戰(zhàn)任務(wù)的訓(xùn)練和測(cè)試數(shù)據(jù)來(lái)源于電影和電視真人秀節(jié)目的片段。本文提出的解決方案首先基于視頻(臉部表情)和音頻兩個(gè)信息通道來(lái)分別進(jìn)行情緒識(shí)別,然后將臉部識(shí)別和聲音識(shí)別子系統(tǒng)的預(yù)測(cè)結(jié)果進(jìn)行融合(ScoreLevelFusion)。
視頻情緒識(shí)別首先提取臉部表情圖像的卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征。圖像特征提取所使用的深度卷積神經(jīng)網(wǎng)絡(luò)以預(yù)先訓(xùn)練好的ImageNet神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),然后在FER2013圖像數(shù)據(jù)集上針對(duì)臉部情緒識(shí)別任務(wù)進(jìn)行微調(diào)(FineTuning);然后基于CNN特征和三種圖像集合模型(ImageSetModel)提取視頻特征;最后使用不同的核分類器(SVM,PLS等)來(lái)對(duì)臉部視頻進(jìn)行情緒分類。音頻情感識(shí)別則沒(méi)有利用外部數(shù)據(jù)集而是直接使用挑戰(zhàn)數(shù)據(jù)集來(lái)訓(xùn)練長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Long-ShortTermMemoryRecurrentNeuralNetwork,LSTM-RNN)。實(shí)驗(yàn)結(jié)果表明文本提出的視頻識(shí)別子系統(tǒng)、音頻識(shí)別子系統(tǒng)以及他們的融合在準(zhǔn)確率方面均能達(dá)到當(dāng)前最先進(jìn)的性能。該系統(tǒng)在EmotiW2016挑戰(zhàn)的測(cè)試數(shù)據(jù)集上的識(shí)別準(zhǔn)確率為53.9%,比基準(zhǔn)線(40.47%)高出13.5%。
引言
作為人機(jī)情感交互的關(guān)鍵技術(shù)之一,基于音視頻信號(hào)的情緒識(shí)別這一課題的研究已活躍了數(shù)十年。早期的音視頻情緒識(shí)別研究主要集中在實(shí)驗(yàn)室擺拍條件下的情緒識(shí)別。近年來(lái)隨著技術(shù)的發(fā)展,越來(lái)越多的研究者開始把注意力轉(zhuǎn)向了自然情景下的情緒識(shí)別。諸如面部表情識(shí)別和分析挑戰(zhàn)(FacialExpressionRecognitionandAnalysisChallenge,F(xiàn)ERA)[1]、音頻/視覺(jué)情緒挑戰(zhàn)(Audio/VisualEmotionChallenge,AVEC)[2]以及自然情境下的情感識(shí)別(EmotionRecognitionintheWildChallenge,EmotiW)[3]已經(jīng)成為人們研究和測(cè)試其自然情景下情緒識(shí)別方法的基準(zhǔn)(Benchmark)。
對(duì)于情緒識(shí)別,臉部表情和聲音是最主要的兩個(gè)信息通道。在所有的情緒表達(dá)信息中,臉部和聲音部分占了近93%[4]?;跁r(shí)間維度特征提取方法的不同,臉部情緒識(shí)別可以分為三類。第一類基于人工設(shè)計(jì)的時(shí)空特征(諸如LocalBinaryPatternsfromThreeOrthogonalPlanes(LBP-TOP)和LocalPhaseQuantizationfromThreeOrthogonalPlanes(LPQ-TOP)[5-7]。
第一類方法將視頻數(shù)據(jù)視為三維像素體序列,沿著像素體的每一面(空間和時(shí)空維度)進(jìn)行紋理特征的提取。第二類方法將視頻視為一組圖像,基于圖像集合的建模方法(ImageSetModeling)來(lái)提取視頻特征并用于情緒識(shí)別?;趫D像集的方法將視頻幀視為在不同條件下(姿態(tài),照明等)捕獲的同一對(duì)象的圖像。第三類方法利用序列模型(SequenceModel),如遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)來(lái)捕獲視頻所包含的的情緒識(shí)別的時(shí)間維度特征。與基于時(shí)空特征的方法相比,基于圖像集的方法和RNN方法對(duì)面部表情在時(shí)間維度的變化更加魯棒。RNN模型一般含有大量的自由變量。在訓(xùn)練視頻樣本較少的情況下基于圖像集的方法相比RNN方法可以獲得更好的識(shí)別結(jié)果[8-9,37]。在視頻幀的圖像特征提取方面,一種方式是使用人工設(shè)計(jì)的特征,如Liu等人[8]將DenseSIFT[9],HistogramofOrientedGradients(HOG)[10]等傳統(tǒng)特征與不同的圖像集建模方法[11-14]進(jìn)行結(jié)合以用于臉部視頻的情緒識(shí)別。[8]所展示的實(shí)驗(yàn)結(jié)果還表明不同的傳統(tǒng)圖像特征對(duì)臉部情緒識(shí)別還具有互補(bǔ)作用。
Yao等人[15]定義了一種基于臉部圖像局部區(qū)域之間的差異的情緒識(shí)別特征。他們首先通過(guò)臉部正面化(frontalization)技術(shù)來(lái)配準(zhǔn)局部區(qū)域[16],然后在局部區(qū)域上提取LBP特征,最后使用特征選擇來(lái)檢測(cè)最具差異性的區(qū)域并將這些區(qū)域的LBP特征值的差值作為人臉圖像的情緒識(shí)別特征。他們的方法在EmotiW2015中的靜態(tài)和視音頻情緒識(shí)別挑戰(zhàn)上均取得了良好的效果。除了人工設(shè)計(jì)圖像特征之外,圖像特征提取的另一種方法是使用深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetwork,DCNN)。
這里的“深”表示網(wǎng)絡(luò)具有三個(gè)以上的卷積層。DCNN是一種端到端的圖像分類模型,其卷積層的輸出可以作為圖像特征且具有一定的通用性[17]。訓(xùn)練有效的DCNN通常需要大量的數(shù)據(jù)樣本(如10萬(wàn)張臉部表情圖像);然而目前公開的臉部情緒識(shí)別的數(shù)據(jù)集通常很小(如FER2013只有3萬(wàn)張圖像)。為了解決這一問(wèn)題,Liu等人[8]使用人臉識(shí)別數(shù)據(jù)集CFW[18](約17萬(wàn)張圖像)來(lái)訓(xùn)練DCNN。實(shí)驗(yàn)表明學(xué)習(xí)到的DCNN特征比傳統(tǒng)的手工特征(Dense-SIFT和HOG)效果更好。Ng等人[19]利用遷移學(xué)習(xí)策略,將預(yù)先訓(xùn)練好的通用圖像識(shí)別網(wǎng)絡(luò)作為情緒識(shí)別網(wǎng)絡(luò)的初始化,再FER-2013數(shù)據(jù)集[20]對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練(權(quán)值的微調(diào))。經(jīng)過(guò)微調(diào)的DCNN在EmotiW2015靜態(tài)面部表情識(shí)別子挑戰(zhàn)中取得了不錯(cuò)的成績(jī)。Kim等人[37]基于決策融合方法,直接使用小數(shù)據(jù)集訓(xùn)練多個(gè)DCNN并將DCNN對(duì)與臉部圖片的情緒預(yù)測(cè)結(jié)果進(jìn)行均值融合。不過(guò)多個(gè)DCNN的特征融合方法仍有待研究。
在音頻情緒識(shí)別方面,經(jīng)驗(yàn)表明情緒識(shí)別音頻特征與臉部視覺(jué)特征互補(bǔ)。將基于面部和基于音頻的情緒識(shí)別結(jié)果進(jìn)行融合可以取得比單一通道更好的結(jié)果[8-9,21-22]。近年來(lái)LSTM-RNN[26]在語(yǔ)音情感識(shí)別和其他聲學(xué)建模任務(wù)中得到了普遍地使用[2,22-23,27-29]。與傳統(tǒng)的隱馬爾可夫模型(HMM)[23]和標(biāo)準(zhǔn)遞歸神經(jīng)網(wǎng)絡(luò)(StandardRNN)等模型相比,LSTM-RNN可以提取較長(zhǎng)時(shí)間間隔(例如>100個(gè)時(shí)間步長(zhǎng))的關(guān)聯(lián)特征而不會(huì)遇到梯度消失等問(wèn)題[25]。
本文所介紹的系統(tǒng)結(jié)合了不同的方法。臉部視頻情緒識(shí)別基于DCNN特征和圖像集合建模,音頻情緒識(shí)別基于LSTM-RNN模型。本文的主要工作有兩方面。第一個(gè)方面是DCNN圖像特征的提取采用了基于權(quán)值微調(diào)的遷移學(xué)習(xí)方法,基于少量樣本訓(xùn)練得到的臉部圖像情緒識(shí)別DCNN特征的表現(xiàn)超過(guò)臉部識(shí)別大數(shù)據(jù)集訓(xùn)練所得到的DCNN特征[19]。第二個(gè)方面是我們所訓(xùn)練使用的音頻情緒識(shí)別LSTM-RNN模型,只使用了少量的訓(xùn)練樣本(EmotiW2016所提供的773個(gè)音頻句子),但是在識(shí)別率方面仍然超出基準(zhǔn)方法7%。方法的細(xì)節(jié)將在后面章節(jié)中具體介紹。

1.提出的方法
1.1基于面部視頻的情緒識(shí)別
本文所提出的面部視頻情緒識(shí)別方法由由三個(gè)步驟組成。第一步是對(duì)視頻每一幀的臉部圖像提取DCNN圖像特征。第二步是基于圖像集建模方法提取動(dòng)態(tài)特征。最后一步是分類。由于基于圖像集的視頻特征通常位于非歐幾里德流形上[13],因此在特征提取后使用核函數(shù)將它們映射到歐幾里德空間進(jìn)行最終分類。在我們所使用的方法中,第二步和第三步直接應(yīng)用了文獻(xiàn)[8]所提供的開源代碼進(jìn)行動(dòng)態(tài)特征提取和分類。
1.1.1DeepCNN圖像特征
卷積神經(jīng)網(wǎng)絡(luò)借鑒了動(dòng)物視覺(jué)皮層中神經(jīng)元的組織結(jié)構(gòu)。網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)局部連通性(LocalConnectivity)、權(quán)值共享(WeightSharing)和池化(Pooling)等技術(shù)來(lái)達(dá)到諸如減少網(wǎng)絡(luò)復(fù)雜度和特征的平移不變性等效果。DeepCNN一般包含多層卷積層,卷積層的輸出可以作為輸入圖像的特征描述。假設(shè)輸入圖像是IW,H,C,其中W表示寬度,H表示高度,C表示通道的數(shù)量(一般輸入圖像為RGB通道)。對(duì)于I中的一個(gè)局部區(qū)域Lw,h,C,
(1)
其中Kw,h,C是與L大小相同的核(kernel);*表示卷積運(yùn)算;b表示偏差變量(bias);σ表示激活函數(shù)(activationfunction),在實(shí)踐中通常是整流線性單元(RELU);oL表示L區(qū)域的特征值。通過(guò)將核K與I中的每個(gè)局部區(qū)域進(jìn)行卷積計(jì)算,我們可以得到特征圖M,然后將其作為圖像特征向量用于進(jìn)一步處理。
1.1.2臉部視頻的動(dòng)態(tài)特征
給定d維圖像特征f,可將視頻視為一組圖像特征向量F=[f1,f2...fn],其中fiÎRd是視頻第i幀對(duì)應(yīng)的特征向量。三種圖像集合模型被用于從F中提取視頻(圖像集合)特征,它們分別是線性子空間(LinearSubspace)[14],協(xié)方差矩陣[13]和多維高斯分布[15]。線性子空間模型所對(duì)應(yīng)的特征向量P通過(guò)以下方式計(jì)算:
(2)
其中P=[p1,p2...pr],pj(jÎ[1,r])表示主特征向量(eigenvector)。
協(xié)方差矩陣C通過(guò)以下方式找到:
(3)
其中表示圖像特征的平均值。假設(shè)F中的特征向量遵循d維高斯分布N(μ,∑),μ和∑分別表示均值和協(xié)方差。高斯分布的特征通過(guò)以下方式計(jì)算定義:
(4)
(5)
1.1.3核函數(shù)和分類器
在核函數(shù)方面,我們選擇了多項(xiàng)式(Polynomial)和RBF(Radialbasisfunction)兩種核函數(shù)。在分類器方面我們采用了PLS(PartialLeastSquaresRegression)[30]。Liu等人在EmotiW2014數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果[8]顯示PLS在面部情緒識(shí)別方面優(yōu)于支持向量機(jī)(SVM)和LogisticRegression;我們?cè)贓motiW2016的數(shù)據(jù)集上也觀察到相同的趨勢(shì)。給定視頻特征變量X和0-1標(biāo)簽Y(七種基本情緒識(shí)別可以視作七個(gè)二分類任務(wù)),PLS分類器將它們分解為

其中Ux和Uy是projectedX-scores和Y-scores,Vx和Vy分別表示loadings,rx和ry表示residuals。PLS通過(guò)找到在其列向量之間具有最大協(xié)方差的Ux和Uy來(lái)確定X和Y之間的回歸系數(shù)。假設(shè)UX和UY是最大協(xié)方差投影,則回歸系數(shù)β由下式給出:

給定一個(gè)視頻特征向量x,它對(duì)應(yīng)的分類預(yù)測(cè)為
.
1.2基于音頻的情緒識(shí)別
基于音頻的情緒識(shí)別方法首先逐幀提取聲學(xué)特征,然后通過(guò)訓(xùn)練LSTM-RNN(LongShort-TermMemoryRecurrentNeuralNetwork)進(jìn)行時(shí)間維度特征的提取和情緒分類。假設(shè)一個(gè)影片剪輯所對(duì)應(yīng)的音頻特征序列是F=[f1,f2...fn],所對(duì)應(yīng)的情緒分類標(biāo)簽是c。在訓(xùn)練LSTM-RNN之前我們逐幀定義情緒標(biāo)簽C=[c1,c2...cn],其中ci=cforifrom1ton。對(duì)應(yīng)的LSTM所輸出的也是逐幀的預(yù)測(cè)結(jié)果。我們?nèi)≈饚A(yù)測(cè)結(jié)果的平均值作為視頻剪輯的情緒識(shí)別的最終預(yù)測(cè)結(jié)果。
1.2.1音頻特征
方法采用extendedversionofGenevaMinimalisticAcousticParameterSet(eGeMAPS)[31]音頻特征集來(lái)進(jìn)行情緒識(shí)別。eGeMAPS中的音頻特征集基于專家知識(shí)設(shè)計(jì),與傳統(tǒng)的高維特征集[32]相比eGeMAPS僅有88維特征,但是對(duì)語(yǔ)音情感建模問(wèn)題表現(xiàn)出了的更高的魯棒性[33-34]。eGeMAPS的acousticlow-leveldescriptors(LLD)涵蓋了spectral、cepstral、prosodic以及voicequality等方面的信息。除了LLD之外,eGeMAPS還包含arithmeticmean和coefficientofvariation等統(tǒng)計(jì)特征。
1.2.2LSTM-RNN
相比sigmoid和tanh等傳統(tǒng)的激活函數(shù),LSTM-RNN使用一種特殊的激活函數(shù)稱為MemoryBlocks。LSTMMemoryBlocks的結(jié)構(gòu)如圖2所示。對(duì)于一個(gè)網(wǎng)絡(luò)層中MemoryBlock而言它在t時(shí)刻的輸入是前一網(wǎng)絡(luò)層在t時(shí)刻的輸出xt,,和當(dāng)前Block在t-1時(shí)刻的輸出ht-1。MemoryBlock的結(jié)構(gòu)由四個(gè)主要部分組成。這四個(gè)主要部分是:inputgate,memorycell,forgetgate以及outputgate。Memorycell結(jié)構(gòu)具有一個(gè)權(quán)值為1.0的自連接。Memorycell結(jié)構(gòu)確保在排除外部輸入的情況下,MemoryCell的狀態(tài)保持恒定。Inputgate允許(或屏蔽)輸入信號(hào)對(duì)memorycell的狀態(tài)或者進(jìn)行改變。Outputgate允許(或屏蔽)memorycell的狀態(tài)對(duì)block的輸出進(jìn)行改變。Forgetgate可以調(diào)整memorycell的自回復(fù)連接,使cell根據(jù)需要選擇保持或清除其之前的狀態(tài)。MemoryBlock的計(jì)算過(guò)程如下所示:

其中xt和ht-1表示輸入;W,U表示V是權(quán)值矩陣;b表示偏差向量,σ表示sigmoid函數(shù);
其中xt和ht-1表示輸入;W,U表示V是權(quán)值矩陣;b表示偏差向量,σ表示sigmoid函數(shù);
表示t時(shí)刻cell的狀態(tài)候選;f,c和o分別表示InputGate,ForgetGate,MemoryCell和OutputGate的輸出。h表示block在t時(shí)刻的最終輸出。
1.3系統(tǒng)的融合
基于面部視頻和音頻子系統(tǒng)的預(yù)測(cè)結(jié)果我們進(jìn)一步進(jìn)行了融合。融合引入了一個(gè)加權(quán)向量w=[λ1,λ2…λc]。其中c表示情緒類別的數(shù)量。最終預(yù)測(cè)結(jié)果S的計(jì)算方法為

其中SAandSV分別表示音頻和視頻子系統(tǒng)的情緒識(shí)別預(yù)測(cè)結(jié)果。

2.實(shí)驗(yàn)
2.1EmotiW2016數(shù)據(jù)
基于視音頻的情緒識(shí)別是EmotiW2016所設(shè)立的子挑戰(zhàn)之一。數(shù)據(jù)集的樣本為多媒體視頻片段。樣本所對(duì)應(yīng)的情緒狀態(tài)通過(guò)[40]中所定義的半自動(dòng)方法進(jìn)行標(biāo)注?;谝曇纛l的情緒識(shí)別的任務(wù)是設(shè)計(jì)算法自動(dòng)對(duì)視頻片段按七種基本情緒狀態(tài)(憤怒(Ang)、厭惡(Dis)、恐懼(Fea)、快樂(lè)(Hap)、中立(Neu)、悲傷(Sad)、驚喜(Sur))進(jìn)行分類。EmotiW2016是EmotiW2013-15的延續(xù),主要變化在于除了從電影中提取的視頻片段之外,還將真人秀節(jié)目的視頻片段引入到測(cè)試集中,以測(cè)試在基于電影數(shù)據(jù)所訓(xùn)練的情緒識(shí)別方法的通用性。子挑戰(zhàn)的數(shù)據(jù)集包含1739個(gè)視頻片段:其中訓(xùn)練集(Train)的樣本數(shù)為773個(gè),驗(yàn)證集(Validation)的樣本數(shù)為373個(gè),測(cè)試集(Test)的樣本數(shù)為593個(gè)。挑戰(zhàn)的最終結(jié)果以系統(tǒng)在測(cè)試集上的準(zhǔn)確率為準(zhǔn)。



2.2深度神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)
2.2.1CNN圖像特征提取
我們使用Caffe工具包[38],和FER2013數(shù)據(jù)集對(duì)預(yù)先訓(xùn)練的AlexNetDeepCNN模型[39]進(jìn)行微調(diào)。預(yù)訓(xùn)練的AlexNet模型和FER2013數(shù)據(jù)集都是公開的。在使用FER2013數(shù)據(jù)集(~28000張臉部圖像)時(shí),我們首先將FER2013默認(rèn)的48x48x1圖像尺寸縮放至256x256x3以適應(yīng)AlexNet模型的輸入要求。網(wǎng)絡(luò)的訓(xùn)練采用隨機(jī)梯度下降(stochasticgradientdescent)算法。算法的hyper-parameters定義為momentum=0.9,weightdecay=0.0005,initiallearningrate(基準(zhǔn))=0.001。learningratedecay=0.1,decayepochs=10,batchsize=128。由于最后一個(gè)FullyConnectedLayer完全重新訓(xùn)練而不保留AlexNet的權(quán)值,因此其initiallearningrate的倍數(shù)增加到4,為0.004而不是0.001。訓(xùn)練終止的策略為EarlyStopping,即驗(yàn)證集上的識(shí)別率不再提高即停止訓(xùn)練。訓(xùn)練好的網(wǎng)絡(luò)模型的最后一個(gè)Poolinglayer的輸出即作為面部情緒識(shí)別的圖像特征。
2.2.2音頻特征提取
我們首先使用Matlab工具箱從EmotiW2016影片片段中提取音頻信號(hào),并將信號(hào)轉(zhuǎn)換為16kHz單聲道。然后,我們使用OpenSMILE工具包[35]來(lái)逐幀提取eGeMAPS音頻特征。在實(shí)驗(yàn)中音頻幀的長(zhǎng)度定義為0.04s。
2.2.3LSTM-RNN的結(jié)構(gòu)
我們?cè)u(píng)估了六種不同的BLSTM-RNN結(jié)構(gòu)以用于音頻情緒識(shí)別。六種LSTM-RNN的結(jié)構(gòu)如表2所示。
實(shí)驗(yàn)中音頻LSTM的實(shí)現(xiàn)和訓(xùn)練使用的是CURRENNT工具包[36]。訓(xùn)練網(wǎng)絡(luò)的learningrate為1e-5,batchsize為10個(gè)句子(每個(gè)句子對(duì)應(yīng)于從一個(gè)影片剪輯中提取的音頻特征序列)。同樣LSTM訓(xùn)練的終止策略也是earlystopping?;陔S機(jī)初始化的網(wǎng)絡(luò)權(quán)值,我們對(duì)六種LSTM結(jié)構(gòu)中的每一種進(jìn)行10次訓(xùn)練。LSTM在驗(yàn)證數(shù)據(jù)集上的識(shí)別率在31-35%之間,其中最好的模型基于結(jié)構(gòu)4。我們將其作為音頻情緒識(shí)別的最終模型。
3.系統(tǒng)評(píng)估
為了測(cè)試評(píng)估CNN圖像特征的表現(xiàn)。我們使用三種分類器(PLS,SVM和LogisticRegression)分別在EmotiW2014和2016兩個(gè)數(shù)據(jù)集的驗(yàn)證集上進(jìn)行了測(cè)試。測(cè)試結(jié)果如表5和表6所示。




結(jié)果表明基于CNN和傳統(tǒng)手工特征PLS均表現(xiàn)出優(yōu)于SVM和LogisticRegression分類器的分類性能。我們接著評(píng)估了不同方法的組合,如表7所示?;趯?shí)驗(yàn)結(jié)果,我們?cè)谧罱K系統(tǒng)中選擇了DenseSIFT圖像特征和CNN圖像特征來(lái)用于基于人臉視頻的情緒識(shí)別。在音頻情緒識(shí)別方面我們將LSTM方法與傳統(tǒng)方法(EmotiW2014Baseline)進(jìn)行了比較,結(jié)果如圖4所示。實(shí)驗(yàn)結(jié)果表明LSTM方法的準(zhǔn)確度比傳統(tǒng)方法的識(shí)別準(zhǔn)確率高出了8%。
最后一個(gè)實(shí)驗(yàn)是視頻和音頻系統(tǒng)的融合。我們測(cè)試了三種融合方案:第一種是其中情緒類別的融合均使用相同的權(quán)重;第二和第三種是對(duì)于每個(gè)情緒類別的子系統(tǒng)賦予不同的權(quán)重。在驗(yàn)證數(shù)據(jù)集上的結(jié)果表明基于LSTM的音頻識(shí)別方法在進(jìn)行恐懼和悲傷情緒分類時(shí)表現(xiàn)得很好(優(yōu)于視頻方法),但對(duì)厭惡和驚訝兩種情緒的分類效果不佳。實(shí)驗(yàn)結(jié)果同時(shí)顯示使用不同的權(quán)重進(jìn)行系統(tǒng)融合能更好地結(jié)合子系統(tǒng)的相對(duì)優(yōu)勢(shì)和弱點(diǎn),達(dá)到比統(tǒng)一權(quán)值更好的融合效果。表3列出了實(shí)驗(yàn)所測(cè)試的三種融合方案。融合方案3在驗(yàn)證數(shù)據(jù)集以及最終測(cè)試數(shù)據(jù)集上取得了最佳結(jié)果,在測(cè)試集上的識(shí)別準(zhǔn)確率達(dá)到了53.9%。
實(shí)驗(yàn)結(jié)果表明:一、本文所提出的方法在識(shí)別憤怒和快樂(lè)兩種情緒時(shí)效果最好,分別獲得了80%和75%的準(zhǔn)確率。這兩個(gè)識(shí)別結(jié)果與EmotiW2014和2015年的第一名的方法的表現(xiàn)持平。二、與14和15年的第一名方法相比,基于LSTM的音頻情緒識(shí)別方法在恐懼情緒的識(shí)別準(zhǔn)確率方面取得了10%的提升。三、與2014第一名和2015第一名方法相比,本文的方法對(duì)于無(wú)情緒(Neutral)狀態(tài)的識(shí)別上存在著過(guò)擬合的問(wèn)題。具體表現(xiàn)在無(wú)情緒狀態(tài)的識(shí)別在開發(fā)數(shù)據(jù)集上取得了約70%的準(zhǔn)確率,與兩種第一名方法持平,但是但在測(cè)試數(shù)據(jù)集上較差,識(shí)別準(zhǔn)確率下降了約7%。

4.總結(jié)
本文提出了一種基于視音頻的自然情景下的情緒識(shí)別方法,該方法只利用了少量的樣本數(shù)據(jù)來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)確能夠達(dá)到目前最先進(jìn)的識(shí)別準(zhǔn)確率。本文提出的方法在EmotiW2016測(cè)試集上達(dá)到了53.9%的識(shí)別準(zhǔn)確率,相比比基線的40.47%[41]高出了13.5%。測(cè)試結(jié)果表明:一、當(dāng)可用于訓(xùn)練的臉部視頻情緒識(shí)別數(shù)據(jù)量較少時(shí),基于DCNN權(quán)值微調(diào)的遷移學(xué)習(xí)策略是一種有效的方法;二、對(duì)于音頻情緒識(shí)別,直接使用EmotiW2016所提供的少量的訓(xùn)練數(shù)據(jù)和LSTM-RNN模型就可以得到相比傳統(tǒng)方法更好的識(shí)別效果。我們今后的工作將分兩個(gè)方向進(jìn)行。首先是通過(guò)考察不同的預(yù)先訓(xùn)練的DCNN和不同微調(diào)策略來(lái)獲取更有效的為臉部情緒識(shí)別特征。其次是對(duì)基于音頻的情緒識(shí)別進(jìn)行更深入的研究,通過(guò)設(shè)計(jì)更有效LSTM-RNN模型來(lái)提高音頻識(shí)別效果。
5.參考文獻(xiàn)
Valstar,MichelF.,etal."Fera2015-secondfacialexpressionrecognitionandanalysischallenge."AutomaticFaceandGestureRecognition(FG),201511thIEEEInternationalConferenceandWorkshopson.Vol.6.IEEE,2015.
Valstar,Michel,etal."AVEC2016-Depression,Mood,andEmotionRecognitionWorkshopandChallenge."arXivpreprintarXiv:1605.01600(2016).
Dhall,Abhinav,etal."Videoandimagebasedemotionrecognitionchallengesinthewild:Emotiw2015."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Valstar,MichelF.,etal."Thefirstfacialexpressionrecognitionandanalysischallenge."AutomaticFace&GestureRecognitionandWorkshops(FG2011),2011IEEEInternationalConferenceon.IEEE,2011.
Almaev,TimurR.,andMichelF.Valstar."Localgaborbinarypatternsfromthreeorthogonalplanesforautomaticfacialexpressionrecognition."AffectiveComputingandIntelligentInteraction(ACII),2013HumaineAssociationConferenceon.IEEE,2013.
Pietikainen,Matti,etal.Computervisionusinglocalbinarypatterns.Vol.40.SpringerScience&BusinessMedia,2011.
A.Dhall,A.Asthana,R.Goecke,andT.Gedeon.Emotionrecognitionusingphogandlpqfeatures.InFG.IEEE,2011.
Liu,Mengyi,etal."Combiningmultiplekernelmethodsonriemannianmanifoldforemotionrecognitioninthewild."Proceedingsofthe16thInternationalConferenceonMultimodalInteraction.ACM,2014.
D.G.Lowe.Distinctiveimagefeaturesfromscale-invariantkeypoints.Internationaljournalofcomputervision,60(2):91{110),2004.
N.DalalandB.Triggs.Histogramsoforientedgradientsforhumandetection.InCVPR.IEEE,2005.
J.HammandD.D.Lee.Grassmanndiscriminantanalysis:aunifyingviewonsubspace-basedlearning.InICML.ACM,2008.
R.Wang,H.Guo,L.S.Davis,andQ.Dai.Covariancediscriminativelearning:Anaturalandefficientapproachtoimagesetclassfication.InCVPR.IEEE,2012.
R.Vemulapalli,J.K.Pillai,andR.Chellappa.Kernellearningforextrinsicclassficationofmanifoldfeatures.InCVPR.IEEE,2013.
P.Li,Q.Wang,andL.Zhang.Anovelearthmover'sdistancemethodologyforimagematchingwithgaussianmixturemodels.InICCV.IEEE,2013.
Yao,Anbang,etal."Capturingau-awarefacialfeaturesandtheirlatentrelationsforemotionrecognitioninthewild."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Hassner,Tal,etal."Effectivefacefrontalizationinunconstrainedimages."ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015.
Zeiler,MatthewD.,etal."Deconvolutionalnetworks."ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010.
Zhang,Xiao,etal."Findingcelebritiesinbillionsofwebimages."IEEETransactionsonMultimedia14.4(2012):995-1007.
Ng,Hong-Wei,etal."Deeplearningforemotionrecognitiononsmalldatasetsusingtransferlearning."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Goodfellow,IanJ.,etal."Challengesinrepresentationlearning:Areportonthreemachinelearningcontests."InternationalConferenceonNeuralInformationProcessing.SpringerBerlinHeidelberg,2013.
EbrahimiKahou,Samira,etal."Recurrentneuralnetworksforemotionrecognitioninvideo."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
He,Lang,etal."Multimodalaffectivedimensionpredictionusingdeepbidirectionallongshort-termmemoryrecurrentneuralnetworks."Proceedingsofthe5thInternationalWorkshoponAudio/VisualEmotionChallenge.ACM,2015.
Anagnostopoulos,Christos-Nikolaos,TheodorosIliou,andIoannisGiannoukos."Featuresandclassifiersforemotionrecognitionfromspeech:asurveyfrom2000to2011."ArtificialIntelligenceReview43.2(2015):155-177.
Connor,JeromeT.,R.DouglasMartin,andLesE.Atlas."Recurrentneuralnetworksandrobusttimeseriesprediction."IEEEtransactionsonneuralnetworks5.2(1994):240-254.
Pascanu,Razvan,TomasMikolov,andYoshuaBengio."Onthedifficultyoftrainingrecurrentneuralnetworks."ICML(3)28(2013):1310-1318.
Hochreiter,Sepp,andJürgenSchmidhuber."Longshort-termmemory."Neuralcomputation9.8(1997):1735-1780.
Senior,Andrew,HasimSak,andIzhakShafran."ContextdependentphonemodelsforLSTMRNNacousticmodelling."2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2015.
Zazo,Ruben,etal."LanguageIdentificationinShortUtterancesUsingLongShort-TermMemory(LSTM)RecurrentNeuralNetworks."PloSone11.1(2016):e0146917.
Khorrami,Pooya,etal."HowDeepNeuralNetworksCanImproveEmotionRecognitiononVideoData."arXivpreprintarXiv:1602.07377(2016).
H.Wold.Partialleastsquares.Encyclopediaofstatisticalsciences,1985.
Eyben,Florian,etal."TheGenevaminimalisticacousticparameterset(GeMAPS)forvoiceresearchandaffectivecomputing."IEEETransactionsonAffectiveComputing7.2(2016):190-202.
A.Dhall,R.Goecke,J.Joshi,K.Sikka,andT.Gedeon.Emotionrecognitioninthewildchallenge2014:Baseline,dataandprotocol.InACMICMI.ACM,2014.
F.Ringeval,S.Amiriparian,F.Eyben,K.Scherer,andB.Schuller.Emotionrecognitioninthewild:Incorporatingvoiceandlipactivityinmultimodaldecision-levelfusion.InProc.ofEmotiW,ICMI,pages473{480,Istanbul,Turkey,November2014.
D.Bone,C.-C.Lee,andS.S.Narayanan.Robustunsupervisedarousalrating:Arule-basedframeworkwithknowledge-inspiredvocalfeatures.IEEETransactionsonAffectiveComputing,5(2):201{213,April-June2014.
F.Eyben,F.Weninger,F.Grob,andB.Schuller.RecentdevelopmentsinopenSMILE,theMunichopen-sourcemultimediafeatureextractor.InProc.ofACMMM,pages835{838,Barcelona,Spain,October2013.
Weninger,Felix,JohannesBergmann,andBjornSchuller."IntroducingCURRENNT–theMunichopen-sourceCUDARecurREntneuralnetworktoolkit."JournalofMachineLearningResearch16.3(2015):547-551.
Kim,Bo-Kyeong,etal."Hierarchicalcommitteeofdeepcnnswithexponentially-weighteddecisionfusionforstaticfacialexpressionrecognition."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Jia,Yangqing,etal."Caffe:Convolutionalarchitectureforfastfeatureembedding."Proceedingsofthe22ndACMinternationalconferenceonMultimedia.ACM,2014.
Krizhevsky,Alex,IlyaSutskever,andGeoffreyE.Hinton."Imagenetclassificationwithdeepconvolutionalneuralnetworks."Advancesinneuralinformationprocessingsystems.2012.
AbhinavDhall,RolandGoecke,SimonLucey,andTomGedeon.CollectingLarge,RichlyAnnotatedFacial-ExpressionDatabasesfromMovies.IEEEMultiMedia,19(3):34{41,2012.
AbhinavDhall,RolandGoecke,JyotiJoshi,JesseHoey,andTomGedeon,EmotiW2016:VideoandGroup-levelEmotionRecognitionChallenges,ACMICMI2016.