目标检测(Object Detection)是计算机视觉领域的核心技术之一, 主要完成对图像或视频中特定目标的定位与识别任务。 与单纯图像分类不同,目标检测需要同时解决"目标在哪"(定位)和"目标是什么"(分类)两个关键问题, 通过生成边界框(Bounding Box)和类别标签实现对场景的结构化理解。
传统方法主要基于手工特征(如Haar、HOG)与分类器(如SVM)的组合,而现代深度学习方法可分为两类: 两阶段检测器(如Faster R-CNN系列)首先生成候选区域再进行精细分类回归; 一阶段检测器(如YOLO、SSD)则采用端到端方式直接预测目标位置和类别,在速度与精度间取得平衡。 Transformer架构的引入(如DETR)进一步推动了检测技术的发展。
该技术已广泛应用于自动驾驶、智能监控、医疗影像分析等领域。 例如在自动驾驶中,需要实时检测行人、车辆等目标;在医疗领域则用于病灶定位分析。 随着多模态大模型的发展,目标检测正与语义理解、三维重建等技术深度融合,持续拓展应用边界。 当前研究热点包括小样本检测、视频目标检测以及面向开放世界的零样本检测等方向。