Static Version

高精度实时目标检测系统

基于改进型 Transformer 架构的边缘计算解决方案,专为复杂动态场景设计。

Abstract

计算机视觉在近年来取得了长足的进步,但在低算力设备上的实时性依然是一个挑战。本项目提出了一种轻量级的特征金字塔网络(LFPN),结合了自适应注意力机制,在保持精度的同时大幅降低了计算量。实验表明,在 COCO 数据集上,该模型比 YOLOv8 提升了 2.4% mAP,同时推理速度提升了 15%。

Methodology

我们采用了改进的 CSPDarknet 作为主干网络,引入了深度可分离卷积以减少参数量。在数据增强方面,使用了 Mosaic 和 Mixup 混合策略。损失函数方面,设计了新的 IoU 损失函数,优化了边界框回归的收敛速度。

Backbone Design

采用了改进的 CSPDarknet,引入了深度可分离卷积以减少参数量。

Data Augmentation

使用了 Mosaic 和 Mixup 混合增强策略,提升了模型对遮挡目标的鲁棒性。

Loss Function

设计了新的 IoU 损失函数,优化了边界框回归的收敛速度。

Architecture Diagram Placeholder (Place image in /public/architecture.png)

Experimental Results

我们在 COCO val2017 数据集上进行了对比实验。实验环境为 NVIDIA T4 GPU,输入分辨率统一为 640x640。
Model Backbone mAP@0.5 (%) FPS (T4) Params (M)
YOLOv5-s CSPDarknet 37.4 142 7.2
YOLOv8-s CSPDarknet 44.9 120 11.1
Ours-LFPN Best MobileNetV3 47.3 138 6.8

从表中可以看出,我们的模型在参数量减少 40% 的情况下,精度提升了 2.4%。

Qualitative Result A (Placeholder)
Confusion Matrix (Placeholder)

Interactive Inference Demo

Click the button below to simulate a real-time detection process (Static Demo).

Discussion

Static Mode
A
Academic Reviewer #1

Could you explain more about the loss function design?

Admin Response

We used a combination of CIoU and focal loss to improve small object detection.

Leave a Message