Ziyic941 = ███火羽白 = ?

2023-12-232.3k字2 分钟

8. 多重共线性

# 概念 # 零相关（理想情况）在理想的零相关（正交）情况下，回归模型中的解释变量彼此独立。回归系数：每个回归系数由其对应的解释变量唯一确定。 b=(XTX)−1XTY∼N(β, σ2(XTX)−1)b=(X^TX)^{-1}X^TY\sim N(\beta,\ \sigma^2(X^TX)^{-1})b=(XTX)−1XTY∼N(β, σ2(XTX)−1) XTX=diag(∣∣X02∣∣,∣∣X12∣∣,...,∣∣Xp−1∣∣2)X^TX=diag(||X_0^2||,||X_1^2||,...,||X_{p-1}||^2)XTX

more...

2023-12-223.8k字3 分钟

7. 额外平方和与偏相关系数

# 额外平方和（Extra Sum of Squares）定义与示例额外平方和（SSR）衡量了在模型中已经包含某些变量的情况下，再加入新的变量后，这些新变量所能解释的额外变异。 SSR(X1,X2,X3)SSR(X_1, X_2, X_3)SSR(X1,X2,X3)：在模型中，变量 X1,X2,X3X_1, X_2, X_3X1,X2,X3 联合解释的总变异。 SSR(X1∣X2)SSR(X_1|X_2)SSR(X1∣X2)：在模型中已包含变量 X2X_2X2 的基础上，加入 X1X_1X1 后额外解释的变异。 SSR(X1,X2∣X3,X4)SSR(X_1, X_2

more...

2023-12-212.5k字2 分钟

6. MLR实例与检验

# 数据变换 # 常用方法与考量数据变换是处理回归模型中非正态性或非恒定方差问题的一种常见方法。右偏数据（数据集中存在一些非常大的值，拖动了平均值向右）可以通过取平方根、对数或倒数来使其分布更接近对称。左偏数据（数据集中存在一些非常小的值，拖动了平均值向左）可以通过取平方、立方或更高的幂次来使其分布更接近对称。 # 潜在问题与替代方案尽管数据变换看似有用，但它也带来一些挑战：变换后的数据失去了原有的直观解释。例如，对数收入的回归系数不再是每增加一个单位的自变量带来的收入变化。变换改变了模型的原始假设，例如，误差项的分布可能不再是正态的。变换后的模型不一定能保证正态性或方差的

more...

2023-12-204.5k字4 分钟

5. 多元线性回归

# 多元线性回归模型多元线性回归模型可以表示为： Y=Xβ+εY=X\beta+\varepsilon Y=Xβ+ε 其中，矩阵和向量的定义如下： YYY 是 n×1n \times 1n×1 的因变量向量：Yn×1=[Y1Y2⋯Yn]TY_{n\times 1}=\begin{bmatrix}Y_1&Y_2&\cdots&Y_{n}\end{bmatrix}^TYn×1=[Y1Y2⋯Yn]T XXX 是 n×pn \times pn×p 的自变量矩阵：Xn×p=[1X11X12⋯

more...

2023-12-194.1k字4 分钟

4. SLR诊断与补救

# 诊断 # 解释变量 (XXX) 的诊断解释变量的诊断旨在识别潜在的混杂因子，并分析其分布特征。集中趋势与离散程度：均值、方差、范围。分布形态：偏度 (Skewness)：衡量数据分布的对称性。g1=m3m23/2=1n∑i(xi−xˉ)3(1n∑i(xi−xˉ)2)3/2g_1=\frac{m_3}{m_2^{3/2}}=\frac{\frac1n\sum_i(x_i-\bar x)^3}{(\frac1n\sum_i(x_i-\bar x)^2)^{3/2}} g1=m23

more...

2023-12-183k字3 分钟

3. SLR预测与方差分析

# 预测 # 平均响应的预测对于给定的 XhX_hXh，模型预测的平均响应为 μ^h=b0+b1Xh\hat\mu_h = b_0 + b_1X_hμ^h=b0+b1Xh，其真实值为 μh=β0+β1Xh\mu_h = \beta_0 + \beta_1X_hμh=β0+β1Xh。分布：μ^h\hat\mu_hμ^h 服从正态分布，其均值为 μh\mu_hμh，方差为 σ2(1n+(Xh−Xˉ)2SXX)\sigma^2(\frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{

more...

2023-12-174.5k字4 分钟

2. 简单线性回归

# 模型设定与假设简单线性回归模型（SLR）用于描述一个因变量 YYY 与一个自变量 XXX 之间的线性关系。模型参数: Yi=β0+β1Xi+εiY_i=\beta_0+\beta_1X_i+\varepsilon_i Yi=β0+β1Xi+εi 其中 β0\beta_0β0 是截距，β1\beta_1β1 是斜率。模型假设 (LINE): Linear: 线性关系，即模型形式正确。 Independent: 误差项独立，即 εi\varepsilon_iεi 与 εj\varepsilon_jεj 相互独立。 Normal:

more...

2023-12-161.8k字2 分钟

1. 线性回归分析引子

# 回归分析基础概念术语因变量（Response/Output/Dependent variable）：通常用 YYY 表示，是我们希望预测或解释的变量。自变量（Predictor/Input/Independent or Explanatory variable）：通常用 XXX 表示，是用于预测或解释因变量的变量。简单回归（Simple Regression）：只有一个自变量 Y∼XY \sim XY∼X。多元回归（Multiple Regression）：有多个自变量 Y∼X1,...,Xp−1Y \sim X_1, ...,

more...

2023-12-104.9k字4 分钟

10. 聚类分析

# 简介聚类分析是一种无监督学习技术，旨在根据相似性将数据点分组到不同的簇中。本笔记系统梳理了聚类分析中的关键概念、方法及其优缺点。 # 距离度量在聚类分析中，距离度量是定义数据点或簇之间“相似性”或“不相似性”的核心。 # 点与点之间的距离欧氏距离 (Euclidean Distance)：最常见的距离度量，基于点在多维空间中的直线距离。相关系数 (Correlation Coefficient)：衡量两个变量之间的线性相关性，常用于高维数据。 Jaccard 距离 (Jaccard Distance)：主要用于度量两个集合之间的不相似性。汉明距离 (Hamming Distan

more...

2023-12-094k字4 分钟

9. 判别分析

# 基本概念与分类方法 # 基于似然的分类器这类方法基于似然比进行决策，其核心是假设总体的概率分布已知。 # 基于错误分类的预期成本 (ECM) 该方法的目标是最小化总的错误分类预期成本。定义: ECM=c(2∣1)P(X∈R2,X∈π1)+c(1∣2)P(X∈R1,X∈π2)=c(2∣1)P(2∣1)p1+c(1∣2)P(1∣2)p2ECM = c(2|1)P(X \in R_2, X \in \pi_1) + c(1|2)P(X \in R_1, X \in \pi_2) = c(2|1)P(2|1)p_1 + c(1|2)P(1|2)p_2E

more...