計(jì)數(shù)和定位:一個(gè)純粹基于點(diǎn)的框架
歡迎關(guān)注公眾號(hào) CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
前言:
在人群中定位個(gè)體更符合后續(xù)高級(jí)人群分析任務(wù)的實(shí)際需求,而不是簡(jiǎn)單地計(jì)數(shù)。然而,現(xiàn)有的基于定位的方法依賴于作為學(xué)習(xí)目標(biāo)的中間表示(即密度圖或偽框)是違反直覺和容易出錯(cuò)的。
論文提出了一個(gè)純粹基于點(diǎn)的框架,用于聯(lián)合人群計(jì)數(shù)和個(gè)體定位。對(duì)于這個(gè)框架,論文提出了一個(gè)新的度量標(biāo)準(zhǔn),稱為密度歸一化平均精度 (density Normalized Average Precision --nAP),而不是僅僅報(bào)告圖像級(jí)別的絕對(duì)計(jì)數(shù)誤差,以提供更全面和更精確的性能評(píng)估。
此外,論文在這個(gè)框架下設(shè)計(jì)了一個(gè)直觀的解決方案,稱為點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet 丟棄了多余的步驟,直接預(yù)測(cè)一組point proposals來(lái)表示圖像中的頭部,與人類標(biāo)注結(jié)果一致。通過(guò)徹底的分析,論文揭示了實(shí)現(xiàn)這種新穎想法的關(guān)鍵步驟是為這些proposals分配最佳學(xué)習(xí)目標(biāo)。
P2PNet 不僅在流行的計(jì)數(shù)基準(zhǔn)上顯著超越了SOTA方法,而且還實(shí)現(xiàn)了有前途的定位精度。
出發(fā)點(diǎn)
在人群分析的所有相關(guān)具體任務(wù)中,人群計(jì)數(shù)是一個(gè)基本支柱,旨在估計(jì)人群中的個(gè)體數(shù)量。 然而,簡(jiǎn)單地給出一個(gè)數(shù)字顯然遠(yuǎn)遠(yuǎn)不能支持后續(xù)更高層次的人群分析任務(wù)的實(shí)際需求,如人群跟蹤、活動(dòng)識(shí)別、異常檢測(cè)、流量/行為預(yù)測(cè)等。
事實(shí)上,這個(gè)領(lǐng)域有一個(gè)明顯的趨勢(shì),即除了簡(jiǎn)單的計(jì)數(shù)之外,更具有挑戰(zhàn)性的細(xì)粒度估計(jì)(即個(gè)體的位置)。 具體來(lái)說(shuō),一些方法將人群計(jì)數(shù)視為頭部檢測(cè)問(wèn)題,但在對(duì)小尺度頭部進(jìn)行勞動(dòng)密集型注釋上留下了更多的努力。 其他方法試圖生成僅提供點(diǎn)注釋的頭部偽邊界框,但這至少看起來(lái)很棘手或不準(zhǔn)確。 同樣試圖直接定位個(gè)體,有幾種方法在抑制或分裂過(guò)近的候選實(shí)例時(shí)陷入困境,由于頭部尺度的極端變化,特別是對(duì)于高度擁擠的區(qū)域,它們?nèi)菀壮鲥e(cuò)。
在評(píng)估指標(biāo)方面,一些有遠(yuǎn)見的工作鼓勵(lì)采用補(bǔ)丁級(jí)別的指標(biāo)進(jìn)行細(xì)粒度評(píng)估,但它們僅提供了對(duì)定位的粗略衡量標(biāo)準(zhǔn)。 其他現(xiàn)有的定位感知指標(biāo)要么忽略了人群中的顯著密度變化,要么缺乏對(duì)重復(fù)預(yù)測(cè)的懲罰。
創(chuàng)新思路
為了解決上述問(wèn)題,論文提出了一個(gè)純粹基于點(diǎn)的框架,用于聯(lián)合計(jì)數(shù)和定位人群中的個(gè)人。 該框架直接使用點(diǎn)標(biāo)注作為學(xué)習(xí)目標(biāo),同時(shí)輸出點(diǎn)來(lái)定位個(gè)體,受益于點(diǎn)表示的高精度定位特性和相對(duì)便宜的標(biāo)注成本。
論文提出了一種稱為密度歸一化平均精度 (density Normalized Average Precision --nAP) 的新指標(biāo),為定位和計(jì)數(shù)錯(cuò)誤提供綜合評(píng)估指標(biāo)。nAP 指標(biāo)支持框和點(diǎn)表示作為輸入(即預(yù)測(cè)或注釋),沒有上述缺陷。
作為這個(gè)新框架下的直觀解決方案,論文開發(fā)了一種新方法來(lái)直接預(yù)測(cè)一組具有圖像中頭部坐標(biāo)及其置信度的point proposals。具體來(lái)說(shuō),論文提出了一個(gè)點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò) (P2PNet) 來(lái)直接接收一組帶標(biāo)注的頭部點(diǎn)用于訓(xùn)練,并在推理過(guò)程中預(yù)測(cè)點(diǎn)。
為了使這樣的想法正確工作,論文深入研究了ground truth target分配過(guò)程,以揭示這種關(guān)聯(lián)的關(guān)鍵。結(jié)論是,無(wú)論是多個(gè)proposals 與單個(gè)ground truth匹配的情況,還是相反的情況,都會(huì)使模型在訓(xùn)練期間混淆,導(dǎo)致高估或低估計(jì)數(shù)。
因此,論文建議通過(guò)匈牙利算法進(jìn)行一對(duì)一匹配,將point proposals與其ground truth target相關(guān)聯(lián),未匹配的proposals 應(yīng)歸類為負(fù)樣本。憑經(jīng)驗(yàn)表明,這種匹配有利于改進(jìn) nAP 指標(biāo),作為論文在新框架下解決方案的關(guān)鍵組成部分。這種簡(jiǎn)單、直觀和高效的設(shè)計(jì)產(chǎn)生了SOTA的計(jì)數(shù)性能和有前途的定位精度。
Methods
Purely Point-based Framework
這里簡(jiǎn)要說(shuō)明這種新框架的思路。給定一個(gè)有N個(gè)個(gè)體的圖像,用N個(gè)點(diǎn)來(lái)表示個(gè)體的頭部中心點(diǎn)。網(wǎng)絡(luò)輸出兩個(gè)東西,一個(gè)是預(yù)測(cè)頭部的中心點(diǎn)P,一個(gè)是該中心點(diǎn)的置信度C。目標(biāo)是使預(yù)測(cè)點(diǎn)與ground truth盡可能地接近,并有足夠高的置信度。
與傳統(tǒng)的計(jì)數(shù)方法相比,該框架提供的個(gè)體位置有助于那些基于運(yùn)動(dòng)的人群分析任務(wù),如人群跟蹤、活動(dòng)識(shí)別、異常檢測(cè)等 此外,該框架不依賴于勞動(dòng)密集型標(biāo)注、不準(zhǔn)確的偽框或棘手的后處理,受益于原始點(diǎn)表示的高精度定位特性,特別是對(duì)于人群中高度擁擠的區(qū)域。
因此,這個(gè)新框架由于其相對(duì)于傳統(tǒng)人群計(jì)數(shù)的優(yōu)勢(shì)和實(shí)用價(jià)值而值得更多關(guān)注。 然而,由于存在嚴(yán)重的遮擋、密度變化和標(biāo)注錯(cuò)誤,處理這樣的任務(wù)是非常具有挑戰(zhàn)性的 ,這在 [13] 中甚至被認(rèn)為是理想的但不可行的。
Density Normalized Average Precision
一個(gè)預(yù)測(cè)點(diǎn) p?j 只有在它可以匹配到某個(gè)ground truth pi 時(shí)才被歸類為 TP。 匹配過(guò)程由基于像素級(jí)歐幾里德距離的準(zhǔn)則 (?pj , pi) 指導(dǎo)。 然而,直接使用像素距離來(lái)測(cè)量親和度忽略了人群之間大密度變化的副作用。 因此,為此匹配標(biāo)準(zhǔn)引入了密度歸一化,以緩解密度變化問(wèn)題。
簡(jiǎn)單說(shuō)來(lái)就是引入最近鄰K(取3)個(gè)點(diǎn),將它們的距離歸一化。
用公式表示如下:
預(yù)測(cè)與ground truth匹配方案
(a) 在為每個(gè)ground truth點(diǎn)選擇最近的提議時(shí),多個(gè)ground truth點(diǎn)可能與同一個(gè)提議匹配,這會(huì)導(dǎo)致計(jì)數(shù)低估。 (b) 在為每個(gè)提案選擇最近的ground truth時(shí),多個(gè)提案可能會(huì)與相同的地面實(shí)況點(diǎn)匹配,這會(huì)導(dǎo)致高估計(jì)數(shù)。 (c) 論文通過(guò)匈牙利算法進(jìn)行一對(duì)一匹配沒有以上兩個(gè)缺陷,因此適合直接點(diǎn)預(yù)測(cè)。
P2PNet
P2PNet 的整體架構(gòu)
建立在 VGG16 之上,它首先引入了一個(gè)上采樣路徑來(lái)獲得細(xì)粒度的深度特征圖。 然后它利用兩個(gè)分支同時(shí)預(yù)測(cè)一組點(diǎn)提議及其置信度分?jǐn)?shù)。pipeline中的關(guān)鍵步驟是確保point proposals和ground truth點(diǎn)之間的一對(duì)一匹配,這決定了這些proposals的學(xué)習(xí)目標(biāo)。
loss function如下:
Conclusion
本文來(lái)源于公眾號(hào) CV技術(shù)指南 的論文分享系列。
歡迎關(guān)注公眾號(hào) CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市