摘 要
公共交通乘客上下站點對信息(Origin and Destination,OD)是公交運行管理與規劃的重要基礎數據,對分析與提高公共交通系統的運行效率具有重要意義。傳統通過人工調查的方法,存在成本高且抽樣低等缺點。近年來,智能卡大數據在提取OD 信息上得到了廣泛應用,然而智能卡數據缺乏乘客的下車信息,且數據帶有一定的有偏性,反映真實的居民出行行為還存在一定的偏差。
公交車監控系統已經在公交車內普遍使用,監控視頻數據為獲取真實乘客上下站點對信息提供了新的思路。視頻數據相對容易獲取,能夠獲取所有上下車乘客的數據,彌補 IC 數據帶來的樣本偏差和無法驗證等問題。隨著以深度學習為代表的視頻處理技術的發展與成熟,從視頻數據中對目標進行檢測、跟蹤,實現跨攝像頭的目標重識別成為可能。因此,本文研究了利用計算機視覺技術獲取公交車乘客上下車站點對的方法。論文的具體工作如下:
。1)基于 YOLOv3 的目標檢測框架實現對公交乘客的目標檢測。通過分幀及抽取的方法,得到拍攝視頻的圖像,使用標注工具手工標注乘客對象,獲得公交乘客數據集。對標注數據集進行聚類分析,得到基于乘客目標的預選框,然后利用公交乘客數據集訓練得到針對公交車場景的目標檢測器。最終得到目標檢測器的 mAP值達到 89.4,相比于原有的檢測器提高了 12.3%,較好地實現對乘客目標的檢測。 (2)對檢測的目標進行跟蹤并基于跟蹤軌跡提取上下車乘客。利用卡爾曼濾波算法對檢測框進行狀態估計,并使用外觀特征、運動信息以及級聯匹配三種方法進行幀間匹配,從而達到更加準確的匹配精度,實現對多個乘客目標的連續跟蹤;對獲取的跟蹤對象,我們利用跟蹤軌跡判別檢測對象是否存在上下車行為,并采用閾值法判別對象屬于上車還是下車行為,從而實現對檢測及跟蹤對象的過濾,得到上車乘客數據集和下車乘客數據集。
。3)對上下車乘客進行重識別獲取乘客 OD 信息。重識別算法基于 PCB+RPP框架,對比使用隨機擦除法,加入驗證集等方法對訓練結果的影響。同時,本文基于公交場景,對重識別的數據集進行過濾及篩選,以此減少重識別的檢測時間,提高檢測精度。最后,對過濾和篩選的上下車乘客數據集進行重識別,最終得到公交乘客上下車站點對,獲得乘客 OD 信息。通過實驗,我們得到在公開數據集上表現較好的重識別算法性能,其中 Rank-1 達到 93.78,mAP 達到 83.62.將該算法應用于公交乘客上下車數據集,得到匹配正確率為 80.4%,說明該算法對識別跨攝像頭的公交乘客有較良好的應用效果。
關鍵詞:視頻數據;深度學習;目標檢測;目標跟蹤;重識別;公交 OD
Abstract
Origin and Destination information of passengers is an important basic data for bus operation management and planning. It is of great significance to analyze and improve the operation efficiency of the public transportation system. The traditional method of manual investigation has the disadvantages of high cost and low sampling. In recent years, smart card data has been widely used to extract OD information. However, smart card data lacks passenger disembarkation information, and there is a certain bias in the use of smart card data, which reflects certain deviations in the true travel behavior of residents.
The bus monitoring system has been widely used in buses, and the monitoring video data provides new ideas for obtaining information on real passengers getting on and off the station. Video data is relatively easy to obtain and covers a wide range, making up for sample deviations and unverifiable problems caused by IC data. With the development and maturity of video processing technologies represented by deep learning, it is possible to detect and track targets from video data and achieve cross-camera target recognition. Therefore, this paper studies the method of using computer vision technology to obtain the pair of bus passengers getting on and off the bus. The specific work and innovations of the paper are as follows:
。1) Based on the YOLOv3 target detection framework, the target detection of bus passengers is realized. In order to improve the performance of target detection, we use the video captured in the bus, through the frame framing and extraction method to obtain the video shooting image, use the annotation tool to manually mark the passenger object, and obtain the bus passenger data set. Perform cluster analysis on the data set to obtain a pre-selection frame based on human targets, and finally use the bus passenger data set to train to obtain a target detector for bus scenarios. Finally, the mAP value of the detector reaches 89.4, which is 12.3% higher than the original target detector.
。2) Track the detected target and extract passengers on and off based on the tracking trajectory. The Kalman filter algorithm is used to predict the state of the detection frame, and the three matching methods of apparent feature, motion information and cascade matching are used to achieve more accurate matching accuracy and achieve continuous tracking of multiple passenger targets; Obtained tracking object, we use the tracking trajectory to determine whether the detection object has the behavior of getting on and off, and use the threshold method to determine whether it belongs to the getting on or off behavior, so as to filter the detection and tracking objects, and get the passenger data set and getting off Passenger data set.
。3) Re-identify passengers who get on and off the vehicle to obtain passenger OD information. The re-identification algorithm is based on the PCB+PRR framework, and uses arandom erasure algorithm to train the training data set. Compare the effect of random erasure, adding verification set and other methods on the training results. At the same time, based on the bus scene, this paper filters and screens the data set for re-identification, so as to reduce the detection time of re-identification and improve the detection accuracy. Finally, the filtered and screened passenger data sets are re-identified, and finally the bus passengers get on and off site pairs to obtain passenger OD information. Through comparative experiments, we get the best performance of the re-recognition algorithm on public data sets, with Rank-1 reaching 93.78 and mAP reaching 83.62. This algorithm is applied to the bus passengers getting on and off data set, and the matching accuracy rate is 80.4%, indicating that the algorithm has a good application effect for identifying cross-camera bus passengers.
Key word: Video data; Deep Learning; Bus passengers; Target detection; Target tracking; Re-identification; Travel OD
目 錄
第 1 章 緒 論
1.1 研究背景與意義
1.1.1 研究背景
隨著我國城市化進程的加快,城市人口迅速上升,城市出行人數也大幅度增長,因此,城市的公共交通也面臨挑戰。解決交通問題成為城市化進程中必須面對的重大問題之一。交通問題的解決對城市的發展具有重要意義。乘坐公交出行作為城市居民主要的出行方式,面臨城市巨大的客流量帶來的公交車調度,線路優化等一系列問題[1].合理的公交車調度有利于提升公交資源的利用水平,改善市民出行效率,緩解城市交通擁堵狀況等。不合理的公交車調度容易造成公交資源的浪費,也可能導致客流量較大的站點市民候車時間過長,甚至無車可乘的情況。而公交車的調度,線路優化等任務,需要有公交乘客反饋的數據進行支持,其中,公交乘客出行時的起點與終點數據(OD,Originand Destination)是當中比較重要的數據。
公交乘客 OD 的作用可以體現在公交規劃,公交運營和個體等方面。在公交規劃中,公交乘客的站間 OD 能夠反映公交站的交通壓力,可以為站臺的定位,規模設計或站點的增減等提供參考;公交線路上的乘客 OD 能夠為公交線路的增減或換向提供數據支撐。
在公交線網層面,線網 OD 能夠為大中運量的交通規劃提供依據。對于公交運營,乘客OD 是工作人員制訂公交時刻表的參考,是合理調度公交車輛的重要依據。對于個人,我們可以通過公交乘客 OD 數據分析乘客的出行特征[2],如乘客出行的時間分布或空間分布等,通過了解乘客的出行需求或出行習慣提高公交服務水平。
傳統的 OD 獲取方法是通過人工調查,如使用問卷調查、跟車調查等方法,這些方 法存在明顯的局限性。
。1)調查成本高,人工成本花費較高且會受到人員素質,情緒,態度等影響;
。2)采樣率低,采用人工調查的方法往往采樣率較低,因此很難保證其結論的合理性;
。3)數據的時效性差,從方案的制定到數據采集整理耗時數月,且后期處理時間較長,以此無法保證其時效性[3].
隨著大數據技術的發展,采樣公交刷卡數據推算乘客 OD 得到越來越多的應用,但是,采用公交刷卡數據同樣存在不足:
。1)存在樣本偏差,公交刷卡數據只針對持有公交 IC 卡的公交乘客樣本,使用現金支付或其他支付方法,如微信支付、支付寶等乘客沒有被統計,這種數據會導致統計結果存在偏差;站點的信息,而沒有下車站點的信息。因此,使用這種刷卡數據對 OD 進行推斷時無法對結果進行驗證。
技術的發展為問題的解決提供了新的方法和思路。計算機視覺技術的快速發展以及計算機運算能力的提高,同時基于深度學習的目標檢測與跟蹤,目標重識別技術的成熟為視頻數據的應用起到了很大的促進作用。比如,谷歌的行人檢測系統通過車載攝像頭及感應器,實現對汽車周圍環境的檢測及精確定位,為自動駕駛車輛的應用提供了支持。
在機場,高鐵站等大型交通場所,通過人臉識別技術,對比乘客及身份證信息,可以免取票進站,減少了紙質車票的打印,大大節省的紙張的使用,同時節省了取票的時間。
在安防領域,利用目標檢測技術,高效識別指定人物,大大提高了逃犯抓取效率。
同時,城市公交車輛中安裝攝像頭已經越來越普遍,通過攝像機采集的圖像數據包含大量待發掘和利用的信息。攝像機能夠完整地記錄公交乘客的信息,避免了采用單一刷卡數據導致的樣本偏差。視頻能夠直觀地記錄乘客的上下車站點信息,減少了使用復雜模型推算乘客 OD 時的不確定性,其結果可以被驗證。使用視頻數據也能減少問卷調查或跟車調查等方法帶來的高成本和低收益問題。
綜上,公交乘客 OD 信息對公交問題的解決有著重要的重要,使用傳統的人工調查或公交 IC 刷卡數據推算的方法存在各種的不足,而公交攝像頭的普及和計算機視覺技術的發展與成熟為解決公交乘客 OD 的獲取提供了新的研究思路。在此背景下,本文研究使用計算機視覺技術提取公交乘客上下車站點對的方法,以達到提取公交乘客 OD 的目的。
1.1.2 研究意義
一、對于公交應用領域,乘客 OD 信息具有重要的價值。公交線路的規劃,公交資源的調度需要有數據支撐,其中,公交乘客的 OD 數據能夠反映居民的出現需求和規律,是公共交通線網規劃、公交調度管理、提高運營效率的重要參考數據。
二、使用視頻數據作為數據源,彌補其他數據存在的不足。我國各個城市的公交車已經普遍安裝監控攝像頭,每天都會產生大量的視頻監控數據,利用公交車內攝像頭獲取的公交車內視頻數據,能夠挖掘公交客流,出行 OD 等信息。相比于其他數據源,視頻數據相對容易獲取,覆蓋面廣泛,而且能夠提供更加直觀的信息,彌補 IC 數據帶來的樣本偏差和無法驗證等問題。
三、將計算機視覺技術應用于乘客 OD 提取,減少人工成本。在計算機視覺技術尚未成熟之前,這些數據的利用率還遠遠不足。而計算機視覺技術的發展為這種數據的信息挖掘提供了支持。利用計算機視覺技術獲取公交上下車乘客的識別,這樣可以不借助人工調查的方法獲取乘客 OD 信息,大大減少了人工成本。這為構建環保高效智能低碳和以人為本的公共交通系統提供了快捷而準確的數據支撐,有著非常重要的意義。
1.2 國內外研究現狀
1.2.1 公交乘客 OD 調查研究現狀
公交乘客 OD 是指公交乘客出行時的起到與終點信息,它能夠反映公交乘客的出行空間分布。公交乘客 OD 調查的方法主要人工調查、基于公交大數據和基于手機移動信號等方法。
人工調查的包含常規問卷調查方法和跟車調查等。問卷調查的方法是指對公交乘客發放調查問卷或采用微信問卷等電子問卷方式[4].公交乘客根據自身的情況填寫上下車站點時間等信息,然后對調查問卷進行分析處理得到公交乘客的 OD 數據。這種方法是一種直接獲取乘客的出行信息的方法,但是該方法往往無法大規模開展,采用率較低;其次,這種方法也受到公交乘客的個人意愿等影響,無法保證數據的全面性和客觀性。
跟車調查法也是一種獲取公交乘客 OD 的方法。陳素平等人[5]提出一種跟車小票調查的方法。其過程如下:調查員在公交乘客上車時給其發放帶有編碼的小票,讓每一個公交乘客擁有唯一的編碼,然后在乘客下車時回收小票。通過這種方式可以對調查時段的公共乘客進行追蹤,進而得到同一乘客上下車的站點信息。但是這種方式同樣需要投入大量的勞動力和公交乘客的配合,無法進行大規模開展。
利用公交 IC 卡數據推算乘客出行 OD 是當前比較主流的 OD 調查方法。Barry J 等 人[6]基于 IC 刷卡數據,運用出行鏈的思想推導乘客下車站點。Zhao J H 等[7]將出行鏈和時間進行匹配,從而推算出公交乘客上下車的站點,進一步使用出行鏈方法分析了單個乘客的出行特征。Munizage M 等[8]綜合運用了地鐵與公交車的 IC 卡數據、GPS 數據以及線路的站點數據,實現了從地鐵到地鐵以及地鐵到公交車兩類出行方式下車站點的推導。Spiess H 等人[9]以上下車系數和公交車舒適度作為度量的指標,建立了基于公交網絡的分配算法,并通過以上兩個度量指標定義模型來分析公交乘客的 OD 矩陣。章威等人[10]結合公交車的刷卡數據與 GPS 數據對 OD 進行提取,利用乘客刷卡數據,獲取乘客上車時間和線路等數據,再利用 GPS 技術得到出行者上下車時間和站點等信息,通過對這些信息的統計,推算公交乘客的出行 OD.這種方法成本較低,但該方法只統計使 用 IC 卡進行乘車的公交乘客,統計結果存在一定的有偏性。帥富杰等[11]利用公交 IC 卡數據,提取乘客上下車站點的交集,并判斷出乘客出行的起止與換乘站點,結合交通信息系統評價體系和社會經濟評價模型,形成公交客流 OD 矩陣。
利用手機移動信號數據同樣可以獲得 OD 信息。Kang S P 等人[12]提出使用蜂窩基站估計 OD 的方法,通過采集出行人員的手機基站定位數據和 GPS 定位數據計算 OD 矩 陣。Sohn K 等[13]提出使用路徑選擇的概率和手機經過蜂窩小區的時間獲取 OD 矩陣的方法, 手機經過蜂窩小區某個位置的時間近似等于行人進入和離開小區邊界的時間差,路徑選擇的概率使用手機基于基站的軌跡進行估計。劉淼等[14]將居民使用的手機作為檢 測器,利用基站的蜂窩小區定位信息和行人出行的特征,推斷出行人出行的起點和終點,出行時間等信息。楊飛等[15]利用手機位置區的定位信息獲得 OD 矩陣,通過對兩條定位數據的空間距離的比較,以及與臨界狀態閾值的比較,結合行人之前的運動狀態,從而判定行人在各個定位點狀態。結合停留狀態等約束條件,推斷行人出行的起點與終點,進一步利用交通小區的劃分信息實現對各個起止點所歸屬的交通小區進行判別,最后對各個小區的出行次數進行統計,從而得到行人的 OD 矩陣。魏玉萍等[16]使用手機的定位數據獲取交通 OD.該方法首先分析了持有手機的行人在觀察時間內的 TDOA 定位數據,并以此判定行人的運動狀態,然后結合行人的停留狀態判別算法,獲得行人出行的起止點,最后將獲得的起止點數據映射到交通小區中,得到行人出行 OD.
研究人員同樣嘗試利用視頻數據提取公交客流 OD.楊軍峰等[17]提出利用公交車內前后門攝像頭獲取的乘客上下車視頻提取公交客流的方法。通過對乘客特征指標的分析,構建了乘客識別體系,實現對乘客辨別的定性和定量化,提出運用分層模糊匹配方法對上下車乘客進行匹配,獲得單條線路公交客流 OD 矩陣。但是該方法需要人工判斷乘客的指標和提取,人工成本比較高,無法得到推廣使用。
1.2.2 計算機視覺技術研究現狀
。1)目標檢測
目標檢測是計算機視覺的基礎任務之一。是指在給定的圖像中檢測目標物體,如行人,汽車等,目標檢測的目的是對于輸入的圖像,使用檢測算法得到具有位置信息的目 標,并給每個檢測出來的目標打上標簽[18].由于圖像中的目標一般具有不同的形態,其運動軌跡沒有規律,而且經常出現目標被遮擋的情況。對于行人目標,由于行人具有相當的柔性,因此會有各種姿態和形狀,其外觀受穿著,姿態,視角等影響非常大,因此,現在目標檢測仍然是具有挑戰性的視覺任務之一。目標檢測技術一般可以劃分為兩個發展階段,即傳統的目標檢測和基于深度學習的目標檢測兩個階段[19].
傳統的目標檢測算法一般通過提取給定圖像的待選區域的特征,設計和訓練分類算 法實現對目標的檢測任務。在預選區域中,算法應該包含圖像中所有可能出行目標的位置。由于目標出現的地方可能是圖像上的任何位置,因此算法通過設置多種尺寸大小,多種長寬比的滑動窗口實現對整張圖像的檢索[20],采用窮舉法得到所有可能出現目標的位置,我們通過對每個窗口計算特征向量,作為圖像的特征表達。為了實現對圖像特征的提取,需要解決目標在不同光照下圖像的變化,目標所處的背景變化復雜和目標自身可能存在多種形態等因素的影響。而其中,特征算子如 Haar,HOG,SURF 表現良好[21- 23].為了對提取的特征進行分類,一般的分類算法有支持向量機 SVM(Support VectorMachine),AdaBoost,Bagging 等[24-26].在目標檢測基準數據集 Pascal VOC 挑戰中,DPM檢測算法[27]是傳統檢測方法表現最好的檢測器,它連續獲得 2007 年到 2009 年的冠軍。
DPM 算法采用"分而治之"的思想,包含訓練和推理兩個步驟。通過訓練學習分解目標的方法,通過推理將不同目標部件進行組合。比如,對于行人,可以看作檢測頭部,手臂,腿等部件,后來一些研究在此基礎上,通過構建更加復雜的系統進一步擴展和改進[28-30].
基于深度學習的目標檢測算法可以分為兩類:兩階段法和一階段法。兩階段法首先由算法生成多個候選框,然后通過卷積神經網絡進行分類,如 RCNN,Faster RCN 等[31- 34].Faster RCNN 是第一個端到端,且接近實時的深度學習檢測器。Faster RCNN 將目標檢測的基本組件:候選區提取、特征提取、目標分類和邊框回歸等都集成到一個統一的學習框架,減少了計算冗余,極大提高了檢測速度。
一階段法則是首先把圖片劃分為固定大小網格,然后進行邊框回歸及分類,YOLO系列,SSD[35-38]是其中的代表。一階段法不再遵循二階段法中先提取候選框再分類的檢測范式,而是將目標檢測問題轉換為邊框回歸問題。如 YOLO 算法使用一個神經網絡,預測整張圖像中包含的物體,包括物體的包圍框(Bounding Box),類別以及置信度。對于重復的預測,通過非極大值抑制(Non-Maximum Suppression, NMS)方法進行處理,過濾預測結果中多余的檢測框。最近,建立在魯棒性的關鍵點估計上實現 anchor-free 的目標檢測器[39-40]取得了較好的檢測性能。
。2)多目標跟蹤
多目標跟蹤(Multi-Object Tracking,MOT)用于識別和跟蹤視頻中的多個對象,如汽車和行人等。例如,在自動駕駛系統中,目標跟蹤算法要對運動的車、行人和障礙物的運動進行跟蹤,對它們在未來的位置、速度等信息作出預判。與目標檢測算法不同的是,多目標跟蹤算法需要對獲取的目標檢測框進行匹配,對視頻或連續圖像中的出現的同一目標進行關聯匹配,得到其運動的軌跡。因此,多目標跟蹤算法需要應對跟蹤目標形態前后可能發生的變化,還需要較好地應對目標對象所處環境或場景的變換;谝曈X的多目標跟蹤在行為分析、自動駕駛等領域都有重要的應用。
多目標跟蹤算法可以分為基于檢測的跟蹤(Detection-Based Tracking)和無檢測的跟蹤(Detection-Free Tracking)兩種算法[41].基于檢測的跟蹤算法首先需要使用目標檢測算法檢測出在每張圖像中的目標對象,然后利用跟蹤算法對相同的目標進行關聯;無檢測的跟蹤需要已知每個跟蹤目標第一次出現在圖像序列中的位置,然后分別對每個檢測目標進行跟蹤。這個過程可以被看作是對同一圖像序列進行多個單目標跟蹤。在這兩類跟蹤算法中,基于目標檢測的跟蹤算法有著運行效率較高,檢測性能比較平衡的特點,因此得到了越來越廣泛的使用[42-43],它的重點在于如何完成新圖像中檢測的對象與已有軌跡的匹配任務。其中,有的研究基于線性規劃或圖的優化方法[44-45],通過最小化代價函數解決跟蹤問題,減少錯誤關聯。當檢測目標發生遮擋時,或是視野內存在外觀比較相似的干擾項等問題時,一般通過加入外觀特征相似性的度量指標來得到較為準確的跟蹤精度[46-47].例如,基于檢測框的位置和大小等信息,結合卡爾曼濾波(Kalman Filter)和匈牙利算法(Hungarian algorithm)實現對行人目標運動狀態估計和目標關聯的 SORT 多算法[46].(3)目標重識別目標重識別是指利用計算機視覺技術判斷圖像或者視頻序列中是否存在檢索目標的技術,廣泛被認為是一個圖像檢索的子問題,它利用目標重識別提取的外觀特征,再通過監督分類和度量學習的方法區分不同的目標。當前,在行人重識別的領域中,一些研究取得了良好的重識別性能。Ristani 等人[48]提出了使用自適應加權三元組損失和難樣本挖掘的算法,應用于訓練 CNN 網絡特征中,從而提高了算法對不同類別的區分性。
Zhang 等人[49]在計算特征相似度時進行了重新排序,進而提高了目標重識別算法的檢測準確性。Luo 等人[50]對比了 Softmax,Triplet 等損失函數在重識別算法中的性能表現,同時總結了常用訓練技巧對模型產生的影響,提出的算法在 Market1501 數據集[51]上實現了較高的行人重識別的精度。Sun [52]等提出了均勻分塊的 Part-based ConvolutionalBaseline(PCB),探討了較優的塊間組合方式,同時提出了基于分塊的 Refined partpooling(RPP),用注意力機制來對齊各個分塊[52].
1.3 主要研究內容及章節安排
1.3.1 主要研究內容
為了對公交車乘客上下車站點對進行提取,我們首先需要檢測出視頻或圖像中的公 交乘客目標,獲取乘客目標的初始位置和候選圖像;然后對單個攝像機中的乘客目標進行跟蹤,關聯圖像序列相同的乘客對象,得到各乘客在單個攝像頭中的運動軌跡信息,根據軌跡提取得到乘客上車和下車數據集;最后,還應設計跨攝像頭的圖像間的匹配算 法,識別在兩個攝像頭中出現的相同乘客對象。因此,基于計算機視覺的公交乘客 OD提取任務分解為乘客目標檢測、乘客目標跟蹤與上下車乘客提取和跨攝像頭乘客重識別三個關聯的組件,實現的技術路線流程圖如圖 1-1 所示。
本文主要研究公交車場景下的乘客 OD 信息獲取方法,利用計算機視覺等相關技術,包括目標檢測、多目標跟蹤、目標重識別等,實現多攝像機視頻的公交乘客 OD 信息提 取。主要開展的工作如下:
。ǎ1)基于深度學習的公交乘客目標檢測方法研究基于 YOLOv3 目標檢測框架構建公交乘客目標檢測模型。使用公交視頻數據進行人工注記,獲得公交場景下的目標檢測數據集。然后使用公交車數據集對標注框進行聚類分析,獲得針對乘客目標的預選框。最后利用公交乘客數據集進行訓練,提高目標檢 測模型的檢測精度。
。2)目標跟蹤與基于軌跡的上下車乘客提取方法研究為了實現對多乘客目標的跟蹤,使用遞歸的卡爾曼濾波算法對目標檢測框進行狀態預測和跟蹤,之后對視頻中連續多幀圖像的乘客進行跟蹤指派,這里使用了外觀匹配、運動匹配以及級聯匹配三種不同的匹配方法以達到更準確的匹配效果。然后基于跟蹤結果,對公交乘客處于不同種狀態下的運動軌跡進行分析,使用基準線相交判斷法判斷處于上下車狀態的乘客,并利用上車與下車乘客與基準線的角度關系,分離出上車與下車的乘客數據集。 (3)跨攝像頭公交乘客上下車重識別方法研究針對公交場景下的時空關系,對上車和下車數據集進行關鍵幀提取并提出匹配策略。
基于 PCB+RPP 重識別網絡框架,使用圖像隨機擦除法,分塊池化等優化方法對模型進行優化,對比 Softmax 損失、標簽平滑正則化和三元組損失等損失函數對網絡的影響,提高重識別算法的檢測性能。最后針對公交乘客上下車數據集,使用優化的重識別算法對上下車乘客進行重識別,獲得乘客上下車站點對,從而得到公交乘客 OD 信息。
1.3.2 章節安排
文章包含六個章節,各章節內容安排如下:
第一章 緒論,主要介紹文章的研究背景和意義。本章說明公交客流 OD 對公交規劃和資源調度的重要性,總結了公交乘客 OD 提取和計算機視覺技術的研究現狀,最后介紹了本文的主要研究內容及章節安排。
第二章 計算機視覺識別理論與方法。本章介紹文中涉及的理論與方法。主要對深度學習方法和卷積神經網絡網絡進行了介紹。
第三章 公交乘客目標檢測,基于 YOLOv3 框架實現對公交乘客目標的檢測。通過公交參考數據集的建立與檢測框聚類分析等方法提高 YOLOv3 對公交乘客的檢測精度。
第四章 公交乘客目標跟蹤與上下車提取。通過跟蹤算法實現公交乘客的多目標跟蹤,基于乘客的軌跡對上下車乘客進行提取,從而得到公交乘客上車和下車數據集。第五章 公交乘客上下車重識別方法。對 PCB+RPP 重識別算法進行測試,對比采用不同策略時重識別的性能。并基于公交車運行的場景,提出約束條件,將重識別算法應用于上車和下車數據集,得到公交乘客上下車站點對,實現對公交乘客的上下車識別。
第六章 總結與展望。對本文的工作進行總結,分析了研究存在的不足并討論和展望了該研究未來的方向。
第 2 章 計算機視覺識別理論與方法
2.1 深度學習基本理論
2.1.1 感知機模型
2.1.2 激活函數
2.1.3 損失函數
2.1.4 誤差傳遞方法
2.2 卷積神經網絡
2.2.1 卷積層
2.2.2 池化層
2.2.3 全連接層
2.3 本章小結
第 3 章 公交乘客目標檢測
3.1 公交乘客檢測算法
3.1.1 網絡結構
3.1.2 邊界框預測
3.1.3 多尺度預測
3.1.4 損失函數
3.2 模型訓練與結果
3.2.1 建立公交車行人數據集
3.2.2 檢測框聚類分析
3.2.3 實驗結果
3.3 本章小結
第 4 章 公交乘客目標跟蹤與上下車提取
4.1 跟蹤算法框架
4.1.1 卡爾曼濾波估計目標運動狀態
4.1.2 檢測目標與跟蹤軌跡匹配
4.2 上下車乘客提取
4.2.1 公交乘客軌跡分析
4.2.2 上下車乘客提取算法
4.3 實驗結果
4.4 本章小結
第 5 章 跨攝像頭公交乘客上下車重識別
5.1 基于公交場景條件約束
5.1.1 基于遮擋關系的圖像提取
5.1.2 公交車條件約束
5.2 跨攝像頭目標重識別
5.2.1 重識別算法框架
5.2.2 網絡訓練與優化方法
5.2.3 損失函數
5.3 實驗過程與結果
5.4 本章小結
第 6 章 總結與展望
6.1 總結
本文基于公交車內視頻數據,利用計算機視覺技術,對公交乘客進行檢測,跟蹤以及重識別。最終實現了對公交車乘客上下車站點對的獲取。主要工作總結如下:
。1)本文綜述了當前行人出行 OD 的調查方法以及計算機視覺技術的發展現狀。
提出了使用公交車內視頻數據結合計算機視覺技術獲取公交乘客上下車站點對的檢測框架。該框架主要基于計算機視覺中的目標檢測,目標跟蹤以及重識別任務。 (2)對公交車內攝像頭拍攝的視頻數據處理分幀得到圖像,利用標注工具對乘客進行人工標注,建立了公交乘客數據集;對數據集的檢測框進行 K 值聚類,得到基于人類目標的預設框;訓練了檢測人類目標的 YOLOv3 檢測器,得到檢測器的 mAP 為 89.4,較好地實現了對公交乘客的目標檢測。
。3)對檢測器得到的檢測框使用卡爾曼濾波算法,對檢測框進行狀態預測,對之后連續多幀圖像中的行人進行跟蹤,算法使用了表觀特征匹配、運動匹配以及級聯匹配這三種匹配方法,從而達到更加準確的匹配,實現對多個乘客目標的連續跟蹤;對獲取的跟蹤對象,利用基準線法判別對象是否存在上下車行為,并采用閾值法判斷上車還是下車,實現對檢測及跟蹤對象的過濾,得到上車乘客數據集和下車乘客數據集。
。4)對目標進行重識別,重識別算法基于 PCB 框架,對訓練的數據集使用隨機擦除算法進行訓練。對比采用隨機擦除,加入驗證集和加入 RPP 網絡的方法對訓練結果的影響。其中,結果最好的重識別算法達到 Rank1 為 93.25 以及 mAP 為 82.06;本文基于公交場景,對進行重識別的數據集進行過濾及篩選,以此減少重識別的檢測時間,提高檢測精度。通過對過濾和篩選的數據集進行重識別,最終得到公交乘客上下車站點對,實驗匹配的正確率為 80.4%.
6.2 展望
盡管本文在實現公交場景下的基于計算機視覺的公交乘客上下車識別研究中獲得初步的成果,并且在克服乘客目標檢測不穩定,乘客跟蹤時丟失目標問題等問題做出了有效嘗試。但在面對實際場景中,仍存在一些挑戰。對此,本研究未來的工作可以在以下方面進行
。1)研究具有更高檢測精度及泛化性能的目標檢測器本文中的目標檢測算法采用當前比較流行的 YOLOv3 檢測算法,其檢測速度快,但精度并不是當前檢測器中精度最高的。后續工作可以對比不同檢測算法,采用不同的訓練策略,進一步提高檢測的精度。其次,對公交乘客數據集,可以采集覆蓋面更加廣泛的公交視頻數據,以面對更加復雜的現實場景。如不同天氣情況中,晴天和雨天的光照不同。不同的公交線路,汽車經過的道路環境不同,背景更加復雜多變。另外,本文基于公交車現有的攝像機鏡頭進行實驗,該鏡頭方向不可避免會有乘客遮擋情況,可以考慮對攝像機的位置和角度進行變換,以最大可能地較少遮擋。
。2)研究跟蹤效果更好的跟蹤器及上下車乘客判別算法本文通過對檢測框采用卡爾曼濾波并使用基于外觀,位置和級聯匹配策略,較好地克服檢測器漏檢或發生遮擋時的目標丟失的問題,但在面對高峰時段,某些站點乘客集中大量上車或下車情況時,依舊會發生漏檢,跟蹤丟失的問題。對此,需要考慮更好地解決多目標跟蹤的問題。在對上下車乘客進行判別中,會導致部分乘客錯誤地被過濾,導致漏檢。因此,需要有更好的判別算法,以減少錯誤。
。3)挖掘更深層次的公交場景時空信息在公交車場景中,還存在許多可以利用的時空關系。在車輛停站及車門開關的處理上,本文基于人工方法進行處理,對于該任務,可以通過利用車輛的速度,車門的開關,車輛 GPS 定位等信息實現自動檢測,從而盡量減少人工的干預。另外,本文只對單支路線,單車輛進行實驗,如何針對車輛與車輛之間的乘客提取 OD,形成線路 OD 或線網OD 也是今后值得研究的方向。
參 考 文 獻
[1] 郭繼孚, 劉瑩, 余柳。 對中國大城市交通擁堵問題的認識[J]. 城市交通, 2011,(02):8-14+6.
[2] 蘆方強, 陳學武, 胡曉健。 基于公交 OD 數據的居民公交出行特征研究[J]. 交通運輸工程與信息學報, 2010,(02):31-36+47.
[3] 劉博愷。 現狀 OD 調查方法的不足與展望[J]. 山東交通科技, 2016,(01):109-110.
[4] 王園園, 黃鳴。 基于公交站點的客流 OD 預測[J]. 城市公用事業, 2007(05):14-17+50.
[5] 陳素平, 陳學武, 楊敏。 基于小票法的公交線路客流 OD 分析方法[J]. 交通信息與安全,2009,27(01):11-14.
[6] Barry J, Newhouser R, Rahbee A, et al. Origin and Destination Estimation in New York City withAutomated Fare System Data[J]. Transportation Research Record Journal of the Transportation ResearchBoard,2002,1817:183-187.
[7] Zhao J H. The planning and analysis implications of automated data collection systems: rail transit ODmatrix inference and path choice modeling examples[J]. Environmental Science & Technology, 2004, 39(23):9309-9316.
[8] Munizaga M, Devillaine F, Navarrete C, et al. Validating travel behavior estimated from smartcard data[J].Transportation Research Part C: Emerging Technologies,2014,44(4):70-79.
[9] Spiess H, Florian M. Optimal Strategies: A new assignment Model for transit network. TransportationResearch.1989,23B:83-102
[10] Zhang W, Xu J M. Approach to Collection of Bus OD Matrix Based on GPS and Bus Intelligent Card[J].Computer and Communications.2006, (24)2:21-23
[11] 師富杰。 基于 IC 卡數據的公交 OD 矩陣構造方法研究[D]. 長春:吉林大學,2004
[12] Yoo B S, Kang S P, Chon K, et al. Origin-Destination Estimation Using Cellular Phone BS Information[J]. Journal of the Eastern Asia Society for Transportation Studies.2005,6:2574-2588.
[13] Sohn K, Kim D. Dynamic Origin-Destination Flow Estimation Using Cellular CommunicationSystem[J]. IEEE Transactions on Vehicular Technology.2008,57(5):2703-2713.
[14] 劉淼, 張小寧, 張紅軍。 基于手機信息的居民出行調查[J]. 城市道橋與防洪。2007,3:18-21.
[15] 楊飛。 基于手機定位的交通 OD 數據獲取技術[J]. 系統工程。2007,25(1):42-48.
[16] 魏玉萍, 韓印。 基于手機定位的交通 OD 獲取技術[J]. 交通與運輸:學術版。2011,12:33-36.
[17] 楊軍峰。 基于公交視頻的公交線路客流 OD 獲得方法研究[D]. 長安大學,2013.
[18] Wu X, Sahoo D, Hoi S C, et al. Recent Advances in Deep Learning for Object Detection.[J]. arXiv:Computer Vision and Pattern Recognition, 2019.
[19] Zou Z, Shi Z, Guo Y, et al. Object Detection in 20 Years: A Survey[J]. arXiv: Computer Vision andPattern Recognition, 2019.
[20] Vedaldi A, Gulshan V, Varma M, et al. Multiple kernels for object detection[C]. International Conferenceon Computer Vision, 2009: 606-613.
[21] Lienhart R, Maydt J. An extended set of Haar-like features for rapid object detection[C]. InternationalConference on Image Processing, 2002: 900-903.
[22] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. Computer Vision andPattern Recognition, 2005: 886-893.
[23] Bay H, Tuytelaars T, Van Gool L, et al. SURF: speeded up robust features[C]. European Conference onComputer Vision, 2006: 404-417.
[24] Hearst M A , Dumais S T , Osman E , et al. Support vector machines[J]. IEEE Intelligent Systems, 1998,13(4):18-28.
[25] Freund Y, Schapire R E. Experiments with a new boosting algorithm[C]. International Conference onMachine Learning, 1996: 148-156.
[26] Opitz D W, Maclin R. Popular ensemble methods: an empirical study[J]. Journal of ArtificialIntelligence Research, 1999, 11(1): 169-198.
[27] Felzenszwalb P F, Mcallester D, Ramanan D, et al. A discriminatively trained, multiscale, deformablepart model[C]. Computer Vision and Pattern Recognition, 2008: 1-8.
[28] Pedro F Felzenszwalb, Ross B Girshick, David McAllester, et al. Object Detection with DiscriminativelyTrained Part-Based Models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010,32(9):1627-1645.
[29] Ross B Girshick, Pedro F Felzenszwalb, David Mcallester, Object Detection with GrammarModels[J].Advances in Neural Information Processing Systems, 2011,442-450.
[30] Girshick R, Felzenszwalb P F, Mcallester D, et al. Object Detection with Grammar Models[C]. NeuralInformation Processing Systems, 2011: 442-450.
[31] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection andSemantic Segmentation[C]. Computer Vision and Pattern Recognition, 2014: 580-587.
[32] Girshick R. Fast R-CNN[C]. International Conference on Computer Vision, 2015: 1440-1448.
[33] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposalnetworks[C]. Neural Information Processing Systems, 2015: 91-99.
[34] Lin T, Dollar P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]. Computer Visionand Pattern Recognition, 2017: 936-944.
[35] Redmon J, Divvala S K, Girshick R, et al. You Only Look Once: Unified, Real-Time ObjectDetection[C]. Computer Vision and Pattern Recognition, 2016: 779-788.
[36] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]. Computer Vision and PatternRecognition, 2017: 6517-6525.
[37] Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[J]. arXiv: Computer Vision and PatternRecognition, 2018.
[38] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]. European Conference onComputer Vision, 2016: 21-37.
[39] Law H, Deng J. CornerNet: Detecting Objects as Paired Keypoints[C]. European Conference onComputer Vision, 2018: 765-781.
[40] Zhou X, Zhuo J, Krahenbuhl P, et al. Bottom-Up Object Detection by Grouping Extreme and CenterPoints[C]. Computer Vision and Pattern Recognition, 2019: 850-859.
[41] Ciaparrone G, Sanchez F L, Tabik S, et al. Deep learning in video multi-object tracking: A survey[J].
Neurocomputing, 2020: 61-88.
[42] Geiger A, Lauer M, Wojek C, et al. 3D Traffic Scene Understanding From Movable Platforms[J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 1012-1025.
[43] Zhang H, Geiger A, Urtasun R, et al. Understanding High-Level Semantics by Modeling TrafficPatterns[C]. International Conference on Computer Vision, 2013: 3056-3063.
[44] Tang S, Andriluka M, Andres B, et al. Multiple People Tracking by Lifted Multicut and Person Reidentification[C]. Computer Vision and Pattern Recognition, 2017: 3701-3710.
[45] Tang Z, Wang G, Xiao H, et al. Single-Camera and Inter-Camera Vehicle Tracking and 3D SpeedEstimation Based on Fusion of Visual and Semantic Features[C]. Computer Vision and Pattern Recognition,2018: 108-115.
[46] Bewley A, Ge Z, Ott L, et al. Simple online and realtime tracking[C]. International Conference on ImageProcessing, 2016: 3464-3468.
[47] Wojke N, Bewley A, Paulus D, et al. Simple online and realtime tracking with a deep associationmetric[C]. International Conference on Image Processing, 2017: 3645-3649.
[48] Ristani E, Tomasi C. Features for Multi-target Multi-camera Tracking and Re-identification[C].
Computer Vision and Pattern Recognition, 2018: 6036-6046.
[49] Zhang Z, Wu J, Zhang X, et al. Multi-Target, Multi-Camera Tracking by Hierarchical Clustering: RecentProgress on DukeMTMC Project[C]. Computer Vision and Pattern Recognition, 2017.
Computer Vision and Pattern Recognition, 2019.
[51] Zheng L, Shen L, Tian L, et al. Scalable Person Re-identification: A Benchmark[C]. InternationalConference on Computer Vision, 2015: 1116-1124.
[52] Sun Y, Zheng L, Yang Y, et al. Beyond Part Models: Person Retrieval with Refined Part Pooling[J].
Computer Vision - ECCV 2018. 15th European Conference. Proceedings: Lecture Notes in ComputerScience,2017:501-518[53] Mcculloch W. Pitts W.A logical calculus of the ideas immanent in nervous activity[J]. The Bulletin ofmathematical biophysics,1943,5(4):115-133.
[54] Hebb D O. Elaborations of Hebb's cell assembly theory[M]. Neuropsychology after Lashley.Routledgc,2018:483-496.
[55] Kobayashi M. Hyperbolic Hopfield neural networks[J]. IEEE Transactions on Neural Networks andLearning Systcms,2013,24(2):335-341.
[56] Hameed AA, Karlik B, Salman M S. Back-propagation algorithm with variable adaptive momentum[J].Knowledge-based systcms,2016,114:79-87.
[57] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].science,2006,313(5786):504-507.
[58] Fukushima K. Neocognitron: A self-organizing neural network model for a mechanism of patternrecognition unaffected by shift in position[J]. Biological Cybcrnctics,1980,36(4):193-202.
[59] 金翠, 王洪元, 陳首兵。 基于隨機擦除行人對齊網絡的行人重識別方法[J]. 山東大學學報(工學版),2018,48(6):67-73.
[60] Deng W, Zheng L, Ye Q, et al. Image-image domain adaptation with preserved self-similarity anddomain-dissimilarity for person re-identification[C], Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018:994-1003.
[61] He X, Zhou Y, Zhou Z, et al. Triplet-center loss for multi-view 3D object retrieval[C], Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2018:1945-1954.
[62] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C],Proceedings of the IEEE conference on computer vision and pattern recognition.2016:2818-2826.
致 謝
時光荏苒,日月如梭,又一年的畢業季到來了,回想這幾年的研究生生活,我要對所有指導、幫助和支持過我的人致以最誠摯的感謝!首先,我要感謝的是我的導師黃正東教授。三年前,有幸成為黃老師的學生,在研究生生涯的三年中,我在黃老師的指導下,進行了科研調查,專利申請,論文投稿,畢業設計等工作,我從中得到了很多的進步,也讓我得到了成長。黃老師知識淵博、視野開闊、治學精神嚴謹、科研精益求精,平易近人的待人風格和寬容的心懷給我帶來了很大影響,讓我終生受益。黃老師為人豁達而寬和,不僅是我學業上的良師,也是我做人的楷模。老師在學業上的悉心指導,在科研上的盡心引導,在生活中的熱心幫助,令我感激不已,在此謹向導師致以最衷心的感謝和最崇高的敬意!
其次,我要感謝給我們上課的張星、涂偉、樂陽、夏吉喆等老師,他們的課程活潑生動,讓我受益良多。我要感謝同班優秀又有趣的徐逸、朱婷婷、吳凱鵬、黃嘉俊、董軒妍和金偉,很榮幸能夠成為地信中的一員,一起上課學習和交流。感謝同門的伍寶、林澤平、韋艷莎和張丹鳳,我們在黃老師的指導下一起科研調查和學習。感謝趙天鴻師兄,在我的畢業設計中,趙師兄耐心指導,提出了許多寶貴的意見和建議,給予了我很大的幫助。
最后要感謝我的父母、家人和朋友們。他們的支持是我讀研的動力,也是我學習和科研的動力。
他們在讀研期間對我的物質資助和關心,也是我讀研期間可以心無旁騖學習和研究的基礎。
(如您需要查看本篇畢業設計全文,請您聯系客服索。