1. 模型在做什么?
把一张图片当作数字矩阵输入。前面的卷积层会学习边缘、纹理、形状等视觉模式;后面的全连接层把这些模式映射成“属于每个类别的概率”。
Online Lab / Image Classification
把一张图片当作数字矩阵输入。前面的卷积层会学习边缘、纹理、形状等视觉模式;后面的全连接层把这些模式映射成“属于每个类别的概率”。
模型不会“天生认识你的分类”。它只能从你采集的样本中学习。如果每个类别样本差异明显、数量够,模型会更容易学会区分。
每轮训练都会:前向计算预测结果 → 与真实标签比较误差(loss)→ 反向传播更新参数。重复多轮后,预测会逐步变准。
推理不会再更新参数,只输出各类别概率。概率最高的类别就是当前判定结果。实时推理就是把这个过程持续作用在摄像头视频帧上。