4.2k4 分钟

# 评价指标 # IoU(Intersection over Union,交并比) IoU 是衡量预测边界框(bounding box)与真实边界框重叠程度的指标。 IoU=A∩BA∪BIoU = \frac{A \cap B}{A \cup B} IoU=A∪BA∩B​ # mAP(mean Average Precision,平均精度均值) mAP 是衡量目标检测模型性能的综合指标,它结合了精度(Precision)和召回率(Recall)。 单个类别的 AP(Average Precision)计算 对一个类别,根据检测框的置信度从高到低进行排序。 依
4.4k4 分钟

# 评价指标 # 基本概念 TP(True Positive): 真正例,指正例被正确地预测为正例。 TN(True Negative): 真负例,指负例被正确地预测为负例。 FP(False Positive): 假正例,指负例被错误地预测为正例。 FN(False Negative): 假负例,指正例被错误地预测为负例。 # 核心指标 准确率(Accuracy): 模型正确预测的比例。Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=
5.4k5 分钟

# 无约束优化基础 无约束优化旨在找到使得目标函数值最小的参数。下降方法是解决这类问题的核心思想,其通用迭代公式如下: x(k+1)=x(k)+t(k)Δx(k)x^{(k+1)} = x^{(k)} + t^{(k)} \Delta x^{(k)} x(k+1)=x(k)+t(k)Δx(k) 其中,x(k)x^{(k)}x(k) 是第 kkk 次迭代的参数,t(k)t^{(k)}t(k) 是学习步长,Δx(k)\Delta x^{(k)}Δx(k) 是搜索方向。 # 线搜索(确定学习步长 ttt) 线搜索是确定最优学习步长 ttt 的方法。 精准线搜索(Ex
7.2k7 分钟

# 从样本中学习 # 线性回归 线性回归模型旨在找到一个线性函数 y=wTx+by = w^T x + by=wTx+b 来拟合数据,其中 www 为权重向量,bbb 为偏置项。 # 损失函数(MSE) 均方误差(Mean Squared Error, MSE)是常用的损失函数,它度量了预测值与真实值之间的平均平方差: L(w,b)=1n∑i=1n(yi−wTxi−b)2L(w, b) = \frac{1}{n} \sum_{i=1}^{n} (y_i - w^T x_i - b)^2 L(w,b)=n1​i&#x
4k4 分钟

# 边缘检测(Edge Detection) 边缘是图像中亮度变化剧烈的区域,是图像最基本的特征之一。边缘检测旨在识别这些区域,通常包括以下步骤: # 边缘检测器 边缘检测通常始于对图像进行平滑处理,以减少噪声影响。边缘的特征可以用梯度来描述: 大小(幅度):梯度的范数(L2 范数),表示亮度变化的剧烈程度。 方向:θ=arctan⁡2(−dy,dx)\theta = \arctan2(-dy, dx)θ=arctan2(−dy,dx),表示亮度变化的方向。 边缘检测的基本条件是梯度幅度大于某个阈值。然而,这种简单的阈值处理可能导致边缘过厚,且阈值选择不当容易
5.1k5 分钟

# 视觉信息处理 # 线性平移不变的图像滤波 线性平移不变滤波器通常被定义为卷积操作,通过对图像和卷积核进行加权求和来实现。 (g∗f)(x,y)=∫−∞∞g(y)f(x−y)dy(g∗f)(x,y)=∑i=−∞∞g(i,j)I(x−i,y−j)(g*f)(x, y) = \int_{-\infty}^{\infty} g(y) f(x - y) dy (g*f)(x, y) = \sum_{i=-\infty}^{\infty} g(i, j) I(x - i, y - j) (g∗f)(x,y)=∫−∞∞​g(y)f(x
6.5k6 分钟

# 图像的分类 常见的图像颜色模型包括: R(Red)、G(Green)、B(Blue):一种加色模型,通过不同强度的红、绿、蓝光混合来产生其他颜色,常用于显示设备。 H(Hue)、S(Saturation)、V(Value):一种基于人类视觉感知的颜色模型,H 表示色相,S 表示饱和度,V 表示亮度。 Y(Luminance)、Cb(Blue difference)、Cr(Red difference):一种用于视频和图像编码的颜色模型,Y 表示亮度,Cb 和 Cr 表示色差分量。 Y(Luminance)、U(Blue difference)、V(Red difference):与 YC
7.6k7 分钟

# 基本配置 常用包 import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader import torch.optim as optimizer import pandas as pd # 数据处理和分析 import cv2 # 计算机视觉和图像处理 import matplotlib.pyplot as plt # 创建静态、交互式和动画图形的绘图库 import seaborn as sns # 基于 matplotlib 的高级数据可视化库 import sklear
2.3k2 分钟

# 什么是图神经网络(GNN)? GNN 是一种基于图结构数据的神经网络模型,用于处理节点(VVV)、边(EEE)和全局(UUU)信息。 # GNN 的基本步骤 GNN 的核心思想是通过迭代地聚合和更新节点信息来学习节点的表示。具体步骤如下: 收集信息: 聚合节点自身及其邻居节点的信息,有时也会聚合全局信息。这些信息会被映射到相同的维度空间。 聚合信息: 对收集到的信息进行聚合操作,例如求和、取最大值或取平均值,以得到聚合后的表示。 更新节点: 使用一个更新函数 fff 来整合聚合后的信息和节点自身上一层的表示,从而得到该节点在下一层的表示。 # GNN 的矩阵表示 在数学上,图通常用以下
1.3k1 分钟

# 核心结构与工作原理 LSTM 是 RNN 的一种改进,通过引入门控机制(gating mechanism) 来有效解决梯度消失问题,从而更好地捕获长距离依赖关系。它在每个时间步保留两个状态:隐藏状态(HtH_tHt​)和单元状态(CtC_tCt​)。 # 门控机制 LSTM 通过三个门(遗忘门、输入门和输出门)来控制信息的流动,这些门控单元都由Sigmoid激活函数和矩阵乘法组成,其输出值在 [0, 1] 之间,决定了信息的“通过”程度。 遗忘门 (F(t)F^{(t)}F(t)):决定单元状态中应该保留多少上一时间步的信息。 F(t)=σ(WfH(t−1)+UfX(t)+