7. 额外平方和与偏相关系数
# 额外平方和(Extra Sum of Squares)
定义与示例
额外平方和(SSR)衡量了在模型中已经包含某些变量的情况下,再加入新的变量后,这些新变量所能解释的额外变异。
SSR(X1,X2,X3)SSR(X_1, X_2, X_3)SSR(X1,X2,X3):在模型中,变量 X1,X2,X3X_1, X_2, X_3X1,X2,X3 联合解释的总变异。
SSR(X1∣X2)SSR(X_1|X_2)SSR(X1∣X2):在模型中已包含变量 X2X_2X2 的基础上,加入 X1X_1X1 后额外解释的变异。
SSR(X1,X2∣X3,X4)SSR(X_1, X_2
more...6. MLR实例与检验
# 数据变换
# 常用方法与考量
数据变换是处理回归模型中非正态性或非恒定方差问题的一种常见方法。
右偏数据(数据集中存在一些非常大的值,拖动了平均值向右)可以通过取平方根、对数或倒数来使其分布更接近对称。
左偏数据(数据集中存在一些非常小的值,拖动了平均值向左)可以通过取平方、立方或更高的幂次来使其分布更接近对称。
# 潜在问题与替代方案
尽管数据变换看似有用,但它也带来一些挑战:
变换后的数据失去了原有的直观解释。例如,对数收入的回归系数不再是每增加一个单位的自变量带来的收入变化。
变换改变了模型的原始假设,例如,误差项的分布可能不再是正态的。
变换后的模型不一定能保证正态性或方差的
more...4. SLR诊断与补救
# 诊断
# 解释变量 (XXX) 的诊断
解释变量的诊断旨在识别潜在的混杂因子,并分析其分布特征。
集中趋势与离散程度: 均值、方差、范围。
分布形态:
偏度 (Skewness): 衡量数据分布的对称性。g1=m3m23/2=1n∑i(xi−xˉ)3(1n∑i(xi−xˉ)2)3/2g_1=\frac{m_3}{m_2^{3/2}}=\frac{\frac1n\sum_i(x_i-\bar x)^3}{(\frac1n\sum_i(x_i-\bar x)^2)^{3/2}}
g1=m23
more...3. SLR预测与方差分析
# 预测
# 平均响应的预测
对于给定的 XhX_hXh,模型预测的平均响应为 μ^h=b0+b1Xh\hat\mu_h = b_0 + b_1X_hμ^h=b0+b1Xh,其真实值为 μh=β0+β1Xh\mu_h = \beta_0 + \beta_1X_hμh=β0+β1Xh。
分布:μ^h\hat\mu_hμ^h 服从正态分布,其均值为 μh\mu_hμh,方差为 σ2(1n+(Xh−Xˉ)2SXX)\sigma^2(\frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{
more...1. 线性回归分析引子
# 回归分析基础概念
术语
因变量(Response/Output/Dependent variable): 通常用 YYY 表示,是我们希望预测或解释的变量。
自变量(Predictor/Input/Independent or Explanatory variable): 通常用 XXX 表示,是用于预测或解释因变量的变量。
简单回归(Simple Regression): 只有一个自变量 Y∼XY \sim XY∼X。
多元回归(Multiple Regression): 有多个自变量 Y∼X1,...,Xp−1Y \sim X_1, ...,
more...10. 聚类分析
# 简介
聚类分析是一种无监督学习技术,旨在根据相似性将数据点分组到不同的簇中。本笔记系统梳理了聚类分析中的关键概念、方法及其优缺点。
# 距离度量
在聚类分析中,距离度量是定义数据点或簇之间“相似性”或“不相似性”的核心。
# 点与点之间的距离
欧氏距离 (Euclidean Distance):最常见的距离度量,基于点在多维空间中的直线距离。
相关系数 (Correlation Coefficient):衡量两个变量之间的线性相关性,常用于高维数据。
Jaccard 距离 (Jaccard Distance):主要用于度量两个集合之间的不相似性。
汉明距离 (Hamming Distan
more...





