Ziyic941 = 真正的火羽白 = 哈基米哈基米

2024-12-084.2k字4 分钟

8. 目标检测

# 评价指标 # IoU（Intersection over Union，交并比） IoU 是衡量预测边界框（bounding box）与真实边界框重叠程度的指标。 IoU=A∩BA∪BIoU = \frac{A \cap B}{A \cup B} IoU=A∪BA∩B # mAP（mean Average Precision，平均精度均值） mAP 是衡量目标检测模型性能的综合指标，它结合了精度（Precision）和召回率（Recall）。单个类别的 AP（Average Precision）计算对一个类别，根据检测框的置信度从高到低进行排序。依

more...

2024-12-074.4k字4 分钟

7. 图像分类

# 评价指标 # 基本概念 TP（True Positive）: 真正例，指正例被正确地预测为正例。 TN（True Negative）: 真负例，指负例被正确地预测为负例。 FP（False Positive）: 假正例，指负例被错误地预测为正例。 FN（False Negative）: 假负例，指正例被错误地预测为负例。 # 核心指标准确率（Accuracy）: 模型正确预测的比例。Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=

more...

2024-12-065.4k字5 分钟

6. 人工神经网络优化算法

# 无约束优化基础无约束优化旨在找到使得目标函数值最小的参数。下降方法是解决这类问题的核心思想，其通用迭代公式如下： x(k+1)=x(k)+t(k)Δx(k)x^{(k+1)} = x^{(k)} + t^{(k)} \Delta x^{(k)} x(k+1)=x(k)+t(k)Δx(k) 其中，x(k)x^{(k)}x(k) 是第 kkk 次迭代的参数，t(k)t^{(k)}t(k) 是学习步长，Δx(k)\Delta x^{(k)}Δx(k) 是搜索方向。 # 线搜索（确定学习步长 ttt）线搜索是确定最优学习步长 ttt 的方法。精准线搜索（Ex

more...

2024-12-057.2k字7 分钟

5. 人工神经网络数理基础

# 从样本中学习 # 线性回归线性回归模型旨在找到一个线性函数 y=wTx+by = w^T x + by=wTx+b 来拟合数据，其中 www 为权重向量，bbb 为偏置项。 # 损失函数（MSE）均方误差（Mean Squared Error, MSE）是常用的损失函数，它度量了预测值与真实值之间的平均平方差： L(w,b)=1n∑i=1n(yi−wTxi−b)2L(w, b) = \frac{1}{n} \sum_{i=1}^{n} (y_i - w^T x_i - b)^2 L(w,b)=n1i&#x

more...

2024-12-044k字4 分钟

4. 视觉特征检测

# 边缘检测（Edge Detection）边缘是图像中亮度变化剧烈的区域，是图像最基本的特征之一。边缘检测旨在识别这些区域，通常包括以下步骤： # 边缘检测器边缘检测通常始于对图像进行平滑处理，以减少噪声影响。边缘的特征可以用梯度来描述：大小（幅度）：梯度的范数（L2 范数），表示亮度变化的剧烈程度。方向：θ=arctan⁡2(−dy,dx)\theta = \arctan2(-dy, dx)θ=arctan2(−dy,dx)，表示亮度变化的方向。边缘检测的基本条件是梯度幅度大于某个阈值。然而，这种简单的阈值处理可能导致边缘过厚，且阈值选择不当容易

more...

2024-12-035.1k字5 分钟

3. 视觉信息处理和编码

# 视觉信息处理 # 线性平移不变的图像滤波线性平移不变滤波器通常被定义为卷积操作，通过对图像和卷积核进行加权求和来实现。 (g∗f)(x,y)=∫−∞∞g(y)f(x−y)dy(g∗f)(x,y)=∑i=−∞∞g(i,j)I(x−i,y−j)(g*f)(x, y) = \int_{-\infty}^{\infty} g(y) f(x - y) dy (g*f)(x, y) = \sum_{i=-\infty}^{\infty} g(i, j) I(x - i, y - j) (g∗f)(x,y)=∫−∞∞g(y)f(x

more...

2024-12-026.5k字6 分钟

2. 人的视听信息系统

# 图像的分类常见的图像颜色模型包括： R（Red）、G（Green）、B（Blue）：一种加色模型，通过不同强度的红、绿、蓝光混合来产生其他颜色，常用于显示设备。 H（Hue）、S（Saturation）、V（Value）：一种基于人类视觉感知的颜色模型，H 表示色相，S 表示饱和度，V 表示亮度。 Y（Luminance）、Cb（Blue difference）、Cr（Red difference）：一种用于视频和图像编码的颜色模型，Y 表示亮度，Cb 和 Cr 表示色差分量。 Y（Luminance）、U（Blue difference）、V（Red difference）：与 YC

more...

2024-12-017.6k字7 分钟

1. Pytorch使用基础

# 基本配置常用包 import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader import torch.optim as optimizer import pandas as pd # 数据处理和分析 import cv2 # 计算机视觉和图像处理 import matplotlib.pyplot as plt # 创建静态、交互式和动画图形的绘图库 import seaborn as sns # 基于 matplotlib 的高级数据可视化库 import sklear

more...

2024-11-202.3k字2 分钟

5. 图神经网络

# 什么是图神经网络（GNN）？ GNN 是一种基于图结构数据的神经网络模型，用于处理节点（VVV）、边（EEE）和全局（UUU）信息。 # GNN 的基本步骤 GNN 的核心思想是通过迭代地聚合和更新节点信息来学习节点的表示。具体步骤如下：收集信息：聚合节点自身及其邻居节点的信息，有时也会聚合全局信息。这些信息会被映射到相同的维度空间。聚合信息：对收集到的信息进行聚合操作，例如求和、取最大值或取平均值，以得到聚合后的表示。更新节点：使用一个更新函数 fff 来整合聚合后的信息和节点自身上一层的表示，从而得到该节点在下一层的表示。 # GNN 的矩阵表示在数学上，图通常用以下

more...

2024-11-191.3k字1 分钟

4. 长短期记忆网络

# 核心结构与工作原理 LSTM 是 RNN 的一种改进，通过引入门控机制（gating mechanism）来有效解决梯度消失问题，从而更好地捕获长距离依赖关系。它在每个时间步保留两个状态：隐藏状态（HtH_tHt）和单元状态（CtC_tCt）。 # 门控机制 LSTM 通过三个门（遗忘门、输入门和输出门）来控制信息的流动，这些门控单元都由Sigmoid激活函数和矩阵乘法组成，其输出值在 [0, 1] 之间，决定了信息的“通过”程度。遗忘门 (F(t)F^{(t)}F(t))：决定单元状态中应该保留多少上一时间步的信息。 F(t)=σ(WfH(t−1)+UfX(t)+

more...