8k7 分钟

# 处理机调度 # 核心概念 # 调度的定义 在多道程序设计系统中,通常会有多个进程(或线程)竞争处理机资源。操作系统必须选择要运行的进程(或线程),并为其分配处理机。完成这一选择工作的操作系统代码称为调度程序(scheduler)。 # 调度的层次 长程调度 (作业调度) 也称为宏观调度或高级调度。它决定将哪些作业调入内存准备运行。其主要面向的是从外存后备队列中挑选作业。 时间尺度:通常是分钟、小时级别。 中程调度 (内存调度) 也称为中级调度。为了缓和内存紧张,它负责将暂时不能运行的进程从内存换出到外存,或在需要时将具备运行条件的进程从外存换入内存。这涉及到了内外存交换。
8.4k8 分钟

# 基本概念 # 进程的同步与互斥 # 进程同步 定义:指系统中多个需要相互合作以共同完成一项任务的进程,其执行次序需要通过协调来保证。这种协作进程之间相互等待对方消息或信号的协调关系即为进程同步。 产生原因:进程间的合作关系。 同步问题分类: 保证一组合作进程按照逻辑上要求的顺序执行。 保证合作进程在访问共享缓冲区(或共享数据)时能够协调一致。 # 进程互斥 定义:指若干进程在并发执行中,因竞争同一共享资源而产生的制约关系。任何时刻,最多只允许一个进程使用该资源,其他试图使用该资源的进程必须等待,直到资源被释放。 产生原因:对共享资源的竞争。 与同步的关系:互斥是一种特殊的同步关
4.6k4 分钟

# 线程的基本概念 # 引入线程的动机 引入进程的最初动机是为了使多个程序能够并发执行,从而提高资源利用率和系统吞吐量。进程具备两个基本属性,这也是其能够并发执行的基础: 资源分配单位: 每个进程拥有独立的虚拟地址空间,保存了进程映像(程序代码与数据),并能控制诸如文件、I/O 设备等资源。 CPU 调度单位: 进程是程序的一条执行轨迹。 然而,传统的进程模型存在一些挑战: 开销过大: 进程作为资源分配单位,其创建、终止和切换会带来较大的时间和空间开销。这限制了系统中并发进程的数量,也使得进程切换的频率不宜过高,从而制约了系统的并发程度。 多处理器系统挑战: 在多处理器(Mul
4.6k4 分钟

# 进程的概念与特征 # 程序的顺序执行与并发执行 # 程序的顺序执行 定义: 系统中只有一个程序在运行,该程序独占所有系统资源。 特点: 顺序性: 程序必须在前一个程序执行完成后才能开始执行。 封闭性: 程序独占资源,计算机状态完全由其控制逻辑决定。 可再现性: 初始条件相同,执行结果也相同。 # 程序的并发执行 定义: 在一定时间内,系统中有两个或两个以上程序都处于开始运行但尚未结束的状态,并且它们的执行次序不是事先确定的。 目的: 提高资源利用率,是目前主流操作系统的执行方式。 特点: 间断性(异步性): 程序“走走停停”,执行时序关系不再固定。 失去封闭性: 程序共享资源
2.3k2 分钟

# 预训练与微调 预训练(Pre-training) 为模型提供一个良好的初始参数估计。在这一阶段,模型通过海量数据学习通用的语言知识和模式。 微调(Fine-tuning) 则是在预训练的基础上,使用特定任务的数据集对模型进行进一步训练。若预训练效果良好,微调能更快地收敛到泛化能力强的局部最优解。 # 大语言模型(LLM)的代表性架构 BERT(Bidirectional Encoder Representations from Transformers) BERT 采用双向 Transformer 编码器。 核心训练任务是 Masked Language Model (Masked L
2.8k3 分钟

# Seq2Seq 概述 # 什么是 Seq2Seq? Seq2Seq(Sequence-to-Sequence) 是一种神经网络架构,用于将一个序列转换为另一个序列,常用于神经网络机器翻译(NMT)。 Seq2Seq 模型是条件语言模型(Conditional Language Model) 的应用。在翻译任务中,解码器在预测下一个单词时,其预测过程是基于源句子 xxx 的条件进行的。其概率计算公式为: P(y∣x)=∏t=1TyP(yt∣y<t,x)P(y | x) = \prod_{t=1}^{T_y} P(y_t | y_{<t},
3.9k4 分钟

# 自注意力机制(Self-Attention) # 基础原理 自注意力机制通过计算序列中不同位置之间的相似度(attention),来生成每个位置的加权表示。 查询、键和值(Query, Key, Value) 首先,对输入序列中的每个词向量 xix_ixi​,通过三个可学习的权重矩阵 WQ,WK,WVW^Q, W^K, W^VWQ,WK,WV 得到其对应的查询向量 qiq_iqi​、键向量 kik_iki​ 和值向量 viv_ivi​。 qi=WQxi,ki=WKxi,vi=WVxiq_i = W^Q x_i, \quad k_i =
4.4k4 分钟

# 循环神经网络 (RNN) # 网络结构 RNN 的核心在于其能够处理序列数据。在每个时间步 ttt,它接收一个输入 x(t)x^{(t)}x(t) 和前一个时间步的隐藏层状态 h(t−1)h^{(t-1)}h(t−1),并计算出当前的隐藏层状态 h(t)h^{(t)}h(t) 和输出 y(t)y^{(t)}y(t)。 输入: 一个 one-hot 向量 x(t)∈RVx^{(t)} \in \mathbb{R}^Vx(t)∈RV,其中 VVV 是词汇表大小。 词向量: e(t)=Ex(t)e^{(t)} = E x^{(t)}e(t)=Ex(t)。EEE 是
2.1k2 分钟

# N-Gram 语言模型 # 基本概念 N-Gram 指的是在一段文本或语音中,连续出现的 nnn 个词。 # 马尔可夫假设与概率计算 N-Gram 语言模型基于 马尔可夫假设,即一个词 xt+1x^{t+1}xt+1 的出现只依赖于它前面紧邻的 n−1n-1n−1 个词,而不是整个历史序列。 因此,条件概率可以表示为: P(xt+1∣xt,xt−1,⋯ ,x1)=P(xt+1∣xt,xt−1,⋯ ,xt−n+2)P(x^{t+1} | x^t, x^{t-1}, \cdots, x^{1}) = P(x^{t+1} | x^t, x^{t-1}, \cdots, x^{
3.1k3 分钟

# 语义分割 # 目的 语义分割的目标是对图像中的每个像素进行分类,为每个像素分配一个类别标签。 # 评测指标 常用的评测指标是平均交并比 (mIoU) 和 F1 分数。 交并比 (IoU):计算预测区域与实际区域的重叠程度,公式为:IoU=TPTP+FP+FN=重叠面积总面积IoU = \frac{TP}{TP+FP+FN} = \frac{\text{重叠面积}}{\text{总面积}} IoU=TP+FP+FNTP​=总面积重叠面积​ F1 分数:是精确率和召回率的调和平均,公式为:F1=2TP2TP+FP+FN