訂閱
糾錯(cuò)
加入自媒體

計(jì)數(shù)和定位:一個(gè)純粹基于點(diǎn)的框架

image.png

歡迎關(guān)注公眾號(hào) CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

前言:

在人群中定位個(gè)體更符合后續(xù)高級(jí)人群分析任務(wù)的實(shí)際需求,而不是簡(jiǎn)單地計(jì)數(shù)。然而,現(xiàn)有的基于定位的方法依賴于作為學(xué)習(xí)目標(biāo)的中間表示(即密度圖或偽框)是違反直覺和容易出錯(cuò)的。

論文提出了一個(gè)純粹基于點(diǎn)的框架,用于聯(lián)合人群計(jì)數(shù)和個(gè)體定位。對(duì)于這個(gè)框架,論文提出了一個(gè)新的度量標(biāo)準(zhǔn),稱為密度歸一化平均精度 (density Normalized Average Precision --nAP),而不是僅僅報(bào)告圖像級(jí)別的絕對(duì)計(jì)數(shù)誤差,以提供更全面和更精確的性能評(píng)估。

此外,論文在這個(gè)框架下設(shè)計(jì)了一個(gè)直觀的解決方案,稱為點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet 丟棄了多余的步驟,直接預(yù)測(cè)一組point proposals來(lái)表示圖像中的頭部,與人類標(biāo)注結(jié)果一致。通過(guò)徹底的分析,論文揭示了實(shí)現(xiàn)這種新穎想法的關(guān)鍵步驟是為這些proposals分配最佳學(xué)習(xí)目標(biāo)。

P2PNet 不僅在流行的計(jì)數(shù)基準(zhǔn)上顯著超越了SOTA方法,而且還實(shí)現(xiàn)了有前途的定位精度。

出發(fā)點(diǎn)

  1. 在人群分析的所有相關(guān)具體任務(wù)中,人群計(jì)數(shù)是一個(gè)基本支柱,旨在估計(jì)人群中的個(gè)體數(shù)量。 然而,簡(jiǎn)單地給出一個(gè)數(shù)字顯然遠(yuǎn)遠(yuǎn)不能支持后續(xù)更高層次的人群分析任務(wù)的實(shí)際需求,如人群跟蹤、活動(dòng)識(shí)別、異常檢測(cè)、流量/行為預(yù)測(cè)等。

  2. 事實(shí)上,這個(gè)領(lǐng)域有一個(gè)明顯的趨勢(shì),即除了簡(jiǎn)單的計(jì)數(shù)之外,更具有挑戰(zhàn)性的細(xì)粒度估計(jì)(即個(gè)體的位置)。 具體來(lái)說(shuō),一些方法將人群計(jì)數(shù)視為頭部檢測(cè)問(wèn)題,但在對(duì)小尺度頭部進(jìn)行勞動(dòng)密集型注釋上留下了更多的努力。 其他方法試圖生成僅提供點(diǎn)注釋的頭部偽邊界框,但這至少看起來(lái)很棘手或不準(zhǔn)確。 同樣試圖直接定位個(gè)體,有幾種方法在抑制或分裂過(guò)近的候選實(shí)例時(shí)陷入困境,由于頭部尺度的極端變化,特別是對(duì)于高度擁擠的區(qū)域,它們?nèi)菀壮鲥e(cuò)。

  3. 在評(píng)估指標(biāo)方面,一些有遠(yuǎn)見的工作鼓勵(lì)采用補(bǔ)丁級(jí)別的指標(biāo)進(jìn)行細(xì)粒度評(píng)估,但它們僅提供了對(duì)定位的粗略衡量標(biāo)準(zhǔn)。 其他現(xiàn)有的定位感知指標(biāo)要么忽略了人群中的顯著密度變化,要么缺乏對(duì)重復(fù)預(yù)測(cè)的懲罰。

創(chuàng)新思路

  1. 為了解決上述問(wèn)題,論文提出了一個(gè)純粹基于點(diǎn)的框架,用于聯(lián)合計(jì)數(shù)和定位人群中的個(gè)人。 該框架直接使用點(diǎn)標(biāo)注作為學(xué)習(xí)目標(biāo),同時(shí)輸出點(diǎn)來(lái)定位個(gè)體,受益于點(diǎn)表示的高精度定位特性和相對(duì)便宜的標(biāo)注成本。

  2. 論文提出了一種稱為密度歸一化平均精度 (density Normalized Average Precision --nAP) 的新指標(biāo),為定位和計(jì)數(shù)錯(cuò)誤提供綜合評(píng)估指標(biāo)。nAP 指標(biāo)支持框和點(diǎn)表示作為輸入(即預(yù)測(cè)或注釋),沒有上述缺陷。

  3. 作為這個(gè)新框架下的直觀解決方案,論文開發(fā)了一種新方法來(lái)直接預(yù)測(cè)一組具有圖像中頭部坐標(biāo)及其置信度的point proposals。具體來(lái)說(shuō),論文提出了一個(gè)點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò) (P2PNet) 來(lái)直接接收一組帶標(biāo)注的頭部點(diǎn)用于訓(xùn)練,并在推理過(guò)程中預(yù)測(cè)點(diǎn)。

    為了使這樣的想法正確工作,論文深入研究了ground truth target分配過(guò)程,以揭示這種關(guān)聯(lián)的關(guān)鍵。結(jié)論是,無(wú)論是多個(gè)proposals 與單個(gè)ground truth匹配的情況,還是相反的情況,都會(huì)使模型在訓(xùn)練期間混淆,導(dǎo)致高估或低估計(jì)數(shù)。

    因此,論文建議通過(guò)匈牙利算法進(jìn)行一對(duì)一匹配,將point proposals與其ground truth target相關(guān)聯(lián),未匹配的proposals 應(yīng)歸類為負(fù)樣本。憑經(jīng)驗(yàn)表明,這種匹配有利于改進(jìn) nAP 指標(biāo),作為論文在新框架下解決方案的關(guān)鍵組成部分。這種簡(jiǎn)單、直觀和高效的設(shè)計(jì)產(chǎn)生了SOTA的計(jì)數(shù)性能和有前途的定位精度。

Methods

Purely Point-based Framework

這里簡(jiǎn)要說(shuō)明這種新框架的思路。給定一個(gè)有N個(gè)個(gè)體的圖像,用N個(gè)點(diǎn)來(lái)表示個(gè)體的頭部中心點(diǎn)。網(wǎng)絡(luò)輸出兩個(gè)東西,一個(gè)是預(yù)測(cè)頭部的中心點(diǎn)P,一個(gè)是該中心點(diǎn)的置信度C。目標(biāo)是使預(yù)測(cè)點(diǎn)與ground truth盡可能地接近,并有足夠高的置信度。

與傳統(tǒng)的計(jì)數(shù)方法相比,該框架提供的個(gè)體位置有助于那些基于運(yùn)動(dòng)的人群分析任務(wù),如人群跟蹤、活動(dòng)識(shí)別、異常檢測(cè)等 此外,該框架不依賴于勞動(dòng)密集型標(biāo)注、不準(zhǔn)確的偽框或棘手的后處理,受益于原始點(diǎn)表示的高精度定位特性,特別是對(duì)于人群中高度擁擠的區(qū)域。

因此,這個(gè)新框架由于其相對(duì)于傳統(tǒng)人群計(jì)數(shù)的優(yōu)勢(shì)和實(shí)用價(jià)值而值得更多關(guān)注。 然而,由于存在嚴(yán)重的遮擋、密度變化和標(biāo)注錯(cuò)誤,處理這樣的任務(wù)是非常具有挑戰(zhàn)性的 ,這在 [13] 中甚至被認(rèn)為是理想的但不可行的。

Density Normalized Average Precision

一個(gè)預(yù)測(cè)點(diǎn) p?j 只有在它可以匹配到某個(gè)ground truth pi 時(shí)才被歸類為 TP。 匹配過(guò)程由基于像素級(jí)歐幾里德距離的準(zhǔn)則 (?pj , pi) 指導(dǎo)。 然而,直接使用像素距離來(lái)測(cè)量親和度忽略了人群之間大密度變化的副作用。 因此,為此匹配標(biāo)準(zhǔn)引入了密度歸一化,以緩解密度變化問(wèn)題。

簡(jiǎn)單說(shuō)來(lái)就是引入最近鄰K(取3)個(gè)點(diǎn),將它們的距離歸一化。

用公式表示如下:

預(yù)測(cè)與ground truth匹配方案

(a) 在為每個(gè)ground truth點(diǎn)選擇最近的提議時(shí),多個(gè)ground truth點(diǎn)可能與同一個(gè)提議匹配,這會(huì)導(dǎo)致計(jì)數(shù)低估。 (b) 在為每個(gè)提案選擇最近的ground truth時(shí),多個(gè)提案可能會(huì)與相同的地面實(shí)況點(diǎn)匹配,這會(huì)導(dǎo)致高估計(jì)數(shù)。 (c) 論文通過(guò)匈牙利算法進(jìn)行一對(duì)一匹配沒有以上兩個(gè)缺陷,因此適合直接點(diǎn)預(yù)測(cè)。

P2PNet

P2PNet 的整體架構(gòu)

建立在 VGG16 之上,它首先引入了一個(gè)上采樣路徑來(lái)獲得細(xì)粒度的深度特征圖。 然后它利用兩個(gè)分支同時(shí)預(yù)測(cè)一組點(diǎn)提議及其置信度分?jǐn)?shù)。pipeline中的關(guān)鍵步驟是確保point proposals和ground truth點(diǎn)之間的一對(duì)一匹配,這決定了這些proposals的學(xué)習(xí)目標(biāo)。

loss function如下:

Conclusion

本文來(lái)源于公眾號(hào) CV技術(shù)指南 的論文分享系列。

歡迎關(guān)注公眾號(hào) CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)