本文介绍图像中经典的网络结构

卷积神经网络(CNN)

LeNet

最早期的卷积神经网络之一,由Yann LeCun等人在1998年提出,主要用于手写数字识别,奠定了CNN的基础

AlexNet

2012年ImageNet竞赛的冠军模型,首次引入ReLU激活函数、Dropout等技术,标志着深度学习在计算机视觉领域的崛起

VGGNet

使用小尺寸卷积核和更深的网络结构,显著提高了性能,但计算量较大

生成对抗网络(GAN)

GAN

由生成器和判别器组成,用于生成新的图像数据

DCGAN

深度卷积生成对抗网络,基于卷积神经网络的GAN,提高了图像生成质量

目标检测网络

R-CNN系列

包括R-CNN、Fast R-CNN、Faster R-CNN等,基于区域提议的两阶段检测算法

YOLO系列

单阶段检测算法,速度快,实时性好

SSD

多尺度特征图检测,兼顾速度和精度

Vision Transformer(ViT)

将Transformer结构应用于图像分类,取得了优异效果