转载

行人检测资源（下）代码数据

这是行人检测相关资源的第二部分：源码和数据集。考虑到实际应用的实时性要求，源码主要是C/C++的。源码和数据集的网址，经过测试都可访问，并注明了这些网址最后更新的日期，供学习和研究进行参考。（欢迎补充更多的资源）

1 Source Code

1.1 INRIA Object Detection and Localization Toolkit

http://pascal.inrialpes.fr/soft/olt/

Dalal于2005年提出了基于HOG特征的行人检测方法，行人检测领域中的经典文章之一。HOG特征目前也被用在其他的目标检测与识别、图像检索和跟踪等领域中。

更新：2008

1.2 Real-time Pedestrian Detection.

http://cs.nju.edu.cn/wujx/projects/C4/C4.htm

Jianxin Wu实现的快速行人检测方法。

Real-Time Human Detection Using Contour Cues：

http://c2inet.sce.ntu.edu.sg/Jianxin/paper/ICRA_final.pdf

更新：2012

1.3 霍夫变换实现的多目标检测

http://graphics.cs.msu.ru/en/science/research/machinelearning/hough

Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

源码：C++

更新：2010

1.4 HIKSVM

http://ttic.uchicago.edu/~smaji/projects/fiksvm/

Classification Using Intersection Kernel SVMs is efficient

HOG+LBP+HIKSVM, 行人检测的经典方法.

源码：C/C++

更新：2012

1.5 GroundHOG

http://www.mmp.rwth-aachen.de/projects/groundhog

GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM,

源码：C/C++

更新：2011

1.6 doppia code

https://bitbucket.org/rodrigob/doppia

这是一个代码集合，包含如下：

Pedestrian detection at 100 frames per second, R. Benenson. CVPR, 2012. 实时的

Stixels estimation without depth map computation

Fast stixels estimation for fast pedestrian detection

Seeking the strongest rigid detector

Ten years of pedestrian detection, what have we learned?

Face detection without bells and whistles

源码：C/C++

更新：2015

1.7 Multiple camera pedestrian detection.

POM: Occupancy map estimation for people detection

http://cvlab.epfl.ch/software/pom/

Paper： Multi-Camera People Tracking with a Probabilistic Occupancy Map

源码：？

更新：2014

1.8 Pitor Dollar Detector.

Piotr’s Computer Vision Matlab Toolbox

http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html

The toolbox is divided into 7 parts, arranged by directory:

channels Robust image features, including HOG, for fast object detection.

classify Fast clustering, random ferns, RBF functions, PCA, etc.

detector Aggregate Channel Features (ACF) object detection code.

filters Routines for filtering images.

images Routines for manipulating and displaying images.

matlab General Matlab functions that should have been a part of Matlab.

videos Routines for annotating and displaying videos.

源码：matlab

更新：2014

2 DataSets

2.1 MIT数据库

http://cbcl.mit.edu/software-datasets/PedestrianData.html

介绍：该数据库为较早公开的行人数据库，共924张行人图片（ppm格式，宽高为64×128），肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本，未区分训练集和测试集。Dalal等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。

更新：2000

2.2 INRIA Person Dataset

http://pascal.inrialpes.fr/data/human/

介绍：该数据库是“HOG+SVM”的作者Dalal创建的，该数据库是目前使用最多的静态行人检测数据库，提供原始图片及相应的标注文件。训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人），负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚，但可用OpenCV正常读取和显示。

更新：2005

2.3 Daimler行人数据库

http://www.gavrila.net/Research/Pedestrian_Detection/Daimler_Pedestrian_Benchmark_D/

该数据库采用车载摄像机获取，分为检测和分类两个数据集。检测数据集的训练样本集有正样本大小为18×36和48×96的图片各15560（3915×4）张，行人的最小高度为72个象素；负样本6744张（大小为640×480或360×288）。测试集为一段27分钟左右的视频（分辨率为640×480），共21790张图片，包含56492个行人。分类数据库有三个训练集和两个测试集，每个数据集有4800张行人图片，5000张非行人图片，大小均为18×36，另外还有3个辅助的非行人图片集，各1200张图片。

更新：2009？

2.4 Caltech Pedestrian Detection

http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒。标注了约250,000帧（约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10，其中set00~set05为训练集，set06~set10为测试集（标注信息尚未公开）。性能评估方法有以下三种：（1）用外部数据进行训练，在set06~set10进行测试；（2）6-fold交叉验证，选择其中的5个做训练，另外一个做测试，调整参数，最后给出训练集上的性能；（3）用set00~set05训练，set06~set10做测试。由于测试集的标注信息没有公开，需要提交给 Pitor Dollar 。结果提交方法为每30帧做一个测试，将结果保存在txt文档中（文件的命名方式为I00029.txt I00059.txt ……），每个txt文件中的每行表示检测到一个行人，格式为“[left, top,width, height, score]”。如果没有检测到任何行人，则txt文档为空。该数据库还提供了相应的Matlab工具包，包括视频标注信息的读取、画ROC（Receiver Operatingcharacteristic Curve）曲线图和非极大值抑制等工具。

更新：2014

2.5 TUD行人数据库

https://www.mpi-inf.mpg.de/departments/multi-cue-onboard-pedestrian-detection/

介绍：TUD行人数据库为评估运动信息在行人检测中的作用，提供图像对以便计算光流信息。训练集的正样本为1092对图像（图片大小为720×576，包含1776个行人）；负样本为192对非行人图像（手持摄像机85对，车载摄像机107对）；另外还提供26对车载摄像机拍摄的图像（包含183个行人）作为附加训练集。测试集有508对图像（图像对的时间间隔为1秒，分辨率为640×480），共有1326个行人。Andriluka等也构建了一个数据库用于验证他们提出的检测与跟踪相结合的行人检测技术。该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位（脚、小腿、大腿、躯干和头部）的大小和位置信息。测试集为250张图片（包含311个完全可见的行人）用于测试检测器的性能，2个视频序列（TUD-Campus和TUD-Crossing）用于评估跟踪器的性能。

更新：2010

2.6 NICTA行人数据库

http://www.nicta.com.au/category/research/computer-vision/tools/automap-datasets/

该数据库是目前规模较大的静态图像行人数据库，25551张含单人的图片，5207张高分辨率非行人图片，数据库中已分好训练集和测试集，方便不同分类器的比较。Overett等用“RealBoost+Haar”评估训练样本的平移、旋转和宽高比等各种因素对分类性能的影响：（1）行人高度至少要大于40个象素；（2）在低分辨率下，对于Haar特征来说，增加样本宽度的性能好于增加样本高度的性能；（3）训练图片的大小要大于行人的实际大小，即背景信息有助于提高性能；（4）对训练样本进行平移提高检测性能，旋转对性能的提高影响不大。以上的结论对于构建行人数据库具有很好的指导意义。

更新：2008

2.7 ETHZ行人数据库

Robust Multi-Person Tracking from Mobile Platforms

https://data.vision.ee.ethz.ch/cvl/aess/dataset/

Ess等构建了基于双目视觉的行人数据库用于多人的行人检测与跟踪研究。该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄，分辨率为640×480，帧率13-14fps，给出标定信息和行人标注信息，深度信息采用置信度传播方法获取。

更新：2010

2.8 CVC行人数据库

http://www.cvc.uab.es/adas/site/?q=node/7

该数据库目前包含三个数据集（CVC-01、CVC-02和CVC-Virtual），主要用于车辆辅助驾驶中的行人检测研究。CVC-01[Geronimo,2007]有1000个行人样本，6175个非行人样本（来自于图片中公路区域中的非行人图片，不像有的行人数据库非行人样本为天空、沙滩和树木等自然图像）。CVC-02包含三个子数据集（CVC-02-CG、CVC-02-Classification和CVC-02-System），分别针对行人检测的三个不同任务：感兴趣区域的产生、分类和系统性能评估。图像的采集采用Bumblebee2立体彩色视觉系统，分辨率640×480，焦距6mm，对距离摄像头0~50m的行人进行标注，最小的行人图片为12×24。CVC-02-CG主要针对候选区域的产生，有100张彩色图像，包含深度和3D点信息；CVC-02-Classification主要针对行人分类，训练集有1016张正样本，7650张负样本，测试集分为基于切割窗口的分类（570张行人，7500张非行人）和整张图片的检测（250张包含行人的图片，共587个行人）；CVC-02-System主要用于系统的性能评估，包含15个视频序列（4364帧），7983个行人。CVC-Virtual是通过Half-Life 2图像引擎产生的虚拟行人数据集，共包含1678虚拟行人，2048个非行人图片用于测试。

更新：2015，目前已经更新到CVC-08了。

2.9 USC行人数据库

http://iris.usc.edu/Vision-Users/OldUsers/bowu/DatasetWebpage/dataset.html

该数据库包含三组数据集（USC-A、USC-B和USC-C），以XML格式提供标注信息。USC-A[Wu, 2005]的图片来自于网络，共205张图片，313个站立的行人，行人间不存在相互遮挡，拍摄角度为正面或者背面；USC-B的图片主要来自于 CAVIAR视频库，包括各种视角的行人，行人之间有的相互遮挡，共54张图片，271个行人；USC-C有100张图片来自网络的图片，232个行人（多角度），行人之间无相互遮挡。

更新：2007