# 常见分布

  1. 二项分布

    p(yθ)=Bin(yn,θ)=(ny)θy(1θ)nyp(y|\theta)=\mathrm{Bin}(y|n,\theta)={\binom{n}{y}}\theta^{y}(1-\theta)^{n-y}

  2. 正态分布(固定方差)

    p(yθ)exp(12σ2i=1n(yiθ)2)p(\vec{y}|\theta)\propto\exp\left({-\frac{1}{2\sigma^{2}}\sum_{i=1}^n(y_i-\theta)^{2}}\right)

  3. 正态分布(固定均值)

    p(yσ2)σnexp(12σ2i=1n(yiθ)2)=(σ2)n2exp(n2σ2v)p(\vec{y}|\sigma^{2})\propto\sigma^{-n}\exp\left(-\frac{1}{2\sigma^{2}}\sum_{i=1}^n(y_i-\theta)^{2}\right) =(\sigma^{2})^{-\frac{n}{2}}\exp\left(-\frac{n}{2\sigma^{2}}\,\mathcal{v}\right)

  4. 泊松分布

    p(yθ)=θyeθy!,fory=0,1,2,,p(y|\theta)={\frac{\theta^{y}e^{-\theta}}{y!}},\mathrm{for}\,y=0,1,2,\ldots,

  5. 指数分布

    p(yθ)=θexp(yθ),fory>0p(y|\theta)=\theta\exp(-y\theta)\,,\mathrm{for}\,y>0


# 常见似然先验后验

似然 先验 后验
Bin(n,θ)Bin(n,\theta) U(0,1)U(0,1) Beta(y+1,ny+1)Beta(y+1, n-y+1)
Bin(n,θ)Bin(n,\theta) Beta(α,β)Beta(\alpha, \beta) Beta(y+α,ny+β)Beta(y+\alpha, n-y+\beta)
Poisson(θ),iidPoisson(\theta),iid Gamma(α,β)Gamma(\alpha, \beta) Gamma(α+nyˉ,β+n)Gamma(\alpha+n\bar{y}, \beta+n)
N(θ,σ02),iidN(\theta,\sigma_0^2), iid N(μ0,τ02)N(\mu_0, \tau_0^2) N(μn,τn2), μn=1τ02μ0+nσ02yˉ1τ02+nσ02, 1τn2=1τ02+nσ02N(\mu_n, \tau_n^2),~\mu_{n}=\frac{\frac{1}{\tau_{0}^{2}}\mu_{0}+\frac{n}{\sigma_0^{2}}\bar{y}}{\frac{1}{\tau_{0}^{2}}+\frac{n}{\sigma_0^{2}}},~\frac{1}{\tau_{n}^{2}}=\frac{1}{\tau_{0}^{2}} +\frac{n}{\sigma_0^{2}}
N(θ0,σ2),iidN(\theta_0,\sigma^2), iid Invχ2(ν0,σ02)\mathrm{Inv-}\chi^{2}(\nu_{0},\sigma_{0}^{2}) Invχ2(ν0+n,ν0σ02+nvν0+n), v=1ni=1n(yiθ)2\mathrm{Inv-}\chi^{2}\left(\nu_{0}+n,\frac{\nu_{0}\sigma_{0}^{2}+n v}{\nu_{0}+n}\right),~v={\frac{1}{n}}\sum_{i=1}^{n}(y_{i}-\theta)^{2}
N(θ0,σ2),iidN(\theta_0,\sigma^2), iid (σ2)1(\sigma^2)^{-1} Invχ2(n,v)\mathrm{Inv-}\chi^{2}(n,v)

# 单参数贝叶斯模型

# 核心计算公式

这部分总结了单参数贝叶斯模型中的核心计算公式,包括参数后验、先验预测和后验预测。

# 参数后验

后验分布 p(θy)p(\theta|y) 反映了在观测到数据 yy 之后,对参数 θ\theta 认识的更新。它与先验分布 p(θ)p(\theta) 和似然函数 p(yθ)p(y|\theta) 的乘积成正比。

p(θy)p(θ)p(yθ)p(\theta|y) \propto p(\theta)p(y|\theta)

# 预测分布

预测分布用于对新数据 y~\tilde{y} 进行预测。

  • 先验预测: 在没有观测数据的情况下,利用参数的先验分布对新数据进行预测。

    p(y~)=p(y~θ)p(θ)dθp(\tilde{y})=\int p(\tilde{y}|\theta)p(\theta)d\theta

  • 后验预测: 在观测到数据 yy 之后,利用参数的后验分布对新数据进行预测。

    p(y~y)=p(y~θ)p(θy)dθp(\tilde{y}|y)=\int p(\tilde{y}|\theta)p(\theta|y)d\theta


# 先验与后验信息的关系

这部分阐述了先验信息与后验信息之间的统计学关系,特别是在均值和方差方面。

  • 均值关系: 参数的先验均值等于其后验均值在所有可能数据分布上的期望。

    E(θ)=E(E(θY))\operatorname{E}(\theta)=\operatorname{E}(\operatorname{E}(\theta|Y))

  • 方差关系: 参数的先验方差可以分解为两部分:后验方差的期望,以及后验均值的方差。

    var(θ)=E ⁣(var(θY))+var(E ⁣(θY))\operatorname{var}(\theta)=\operatorname{E}\!\left(\operatorname{var}(\theta|Y)\right)+\operatorname{var}(\operatorname{E}\!\left(\theta|Y\right))

  • 信息更新: 后验方差的期望总是小于或等于先验方差,这表明平均而言,后验分布比先验分布提供更多信息(方差更小),但对于特定的数据集,后验方差不一定小于先验方差。

    var(θ)E(var(θY))\operatorname{var}(\theta)\geq\operatorname{E}\bigl(\operatorname{var}(\theta|Y)\bigr)


# 无信息先验

无信息先验在先验信息缺失时,旨在最小化对后验分布的影响。

# 位置参数与尺度参数

这部分通过枢轴量(Pivotal Quantity)的概念,推导了位置参数和尺度参数的无信息先验。

  • 位置参数: 如果 yθy-\theta 是枢轴量,其先验分布 p(yθ=uθ)p(y-\theta=u|\theta) 仅依赖于 uu,则其无信息先验为均匀分布。

    p(θ)1p(\theta)\propto1

  • 尺度参数: 如果 y/θy/\theta 是枢轴量,其先验分布 p(y/θ=uθ)p(y/\theta=u|\theta) 仅依赖于 uu,则其无信息先验为反比例函数。

    p(θ)1/θp(\theta)\propto 1/\theta

# Jeffery 无信息先验

Jeffery 先验是一种在参数变换下不变的无信息先验,其核心思想是利用费雪信息来定义先验分布。

  • 变换不变性: 在参数 θ\thetaϕ=h(θ)\phi=h(\theta) 的变换下,我们希望先验分布的“形式”保持不变,即 π(θ)=η(ϕ)\pi(\theta)=\eta(\phi)。这要求先验满足:

    π(ϕ)=π(θ)dθdϕ\pi(\phi)=\pi(\theta)\left|\frac{d\theta}{d\phi}\right|

  • 费雪信息: 费雪信息 J(θ)J(\theta) 量化了似然函数所包含的关于参数 θ\theta 的信息量。

    J(θ)=E((dlogp(yθ)dθ)2θ)=E(d2logp(yθ)dθ2θ)=Var (θlogp(yθ))J(\theta)=E\left(\left({\frac{d\log p(y|\theta)}{d\theta}}\right)^{2}\mid\theta\right)=-E\left({\frac{d^{2}\log p(y|\theta)}{d\theta^{2}}}\mid\theta\right)=\mathrm{Var}\ \left({\frac{\partial}{\partial\theta}}\log p(y|\theta)\right)

    费雪信息在参数变换下的性质为:

    J(ϕ)1/2=J(θ)1/2dθdϕJ(\phi)^{1/2}=J(\theta)^{1/2}\left|\frac{d\theta}{d\phi}\right|

  • Jeffery 先验的定义: 结合变换不变性,Jeffery 先验与费雪信息的平方根成正比。

    π(θ)[J(θ)]1/2\pi(\theta) \propto [J(\theta)]^{1/2}


# 观测费雪信息

观测费雪信息是费雪信息的一个重要概念。

  • 定义: 观测费雪信息 Iobs(θ)I_{obs}(\theta) 是对数似然函数二阶导数的负值。对于独立同分布(i.i.d.)数据,其期望等于费雪信息 Jn(θ)J_n(\theta)

    Iobs(θ)=i=1n2θ2logp(yiθ)I_{o b s}(\theta)=-\sum_{i=1}^{n}\frac{\partial^{2}}{\partial\theta^{2}}\log p(y_{i}\mid\theta)

  • 期望关系:

    E(Iobs(θ))=Jn(θ)=nJ(θ)\operatorname{E}\bigl(I_{o b s}(\theta)\bigr)=J_{n}(\theta)=nJ(\theta)


# 指数分布族的共轭先验

共轭先验使得后验分布与先验分布属于同一分布族,大大简化了贝叶斯后验的计算。

  • 指数分布族: 概率密度函数具有特定形式。

    p(yiθ)=f(yi)exp(ϕ(θ)Tu(yi)g(θ))p(y_{i}|\theta)=f(y_{i})\cdot\exp(\phi(\theta)^{T}u(y_{i})-g(\theta))

  • 独立同分布联合似然: 对于 nn 个独立同分布的样本,联合似然函数可以写成:

    p(yθ)exp(ϕ(θ)Tt(y)ng(θ))p(y|\theta)\propto\exp(\phi(\theta)^{T}t(y)-n\,g(\theta))

    其中 t(y)=i=1nu(yi)t(y)=\sum_{i=1}^{n}u(y_{i}) 是充分统计量。

  • 共轭先验: 共轭先验与似然函数具有相似的形式。

    p(θ)exp ⁣(ϕ(θ)Tvn0g(θ))p(\theta)\propto\exp\!\left(\phi(\theta)^{T}v-n_{0}\,g(\theta)\right)

  • 后验分布: 结合似然和先验,后验分布的形式保持不变,参数得到更新。

    p(θy)exp(ϕ(θ)T(v+t(y))(n0+n)g(θ))p(\theta|y)\propto\exp(\phi(\theta)^{T}(v+t(y))-(n_{0}+n)\,g(\theta))