1. 单参数贝叶斯模型

# 常见分布

二项分布

$p(y|\theta)=\mathrm{Bin}(y|n,\theta)={\binom{n}{y}}\theta^{y}(1-\theta)^{n-y}$
正态分布（固定方差）

$p(\vec{y}|\theta)\propto\exp\left({-\frac{1}{2\sigma^{2}}\sum_{i=1}^n(y_i-\theta)^{2}}\right)$
正态分布（固定均值）

$p(\vec{y}|\sigma^{2})\propto\sigma^{-n}\exp\left(-\frac{1}{2\sigma^{2}}\sum_{i=1}^n(y_i-\theta)^{2}\right) =(\sigma^{2})^{-\frac{n}{2}}\exp\left(-\frac{n}{2\sigma^{2}}\,\mathcal{v}\right)$
泊松分布

$p(y|\theta)={\frac{\theta^{y}e^{-\theta}}{y!}},\mathrm{for}\,y=0,1,2,\ldots,$
指数分布

$p(y|\theta)=\theta\exp(-y\theta)\,,\mathrm{for}\,y>0$

似然	先验	后验
$Bin(n,\theta)$	$U(0,1)$	$Beta(y+1, n-y+1)$
$Bin(n,\theta)$	$Beta(\alpha, \beta)$	$Beta(y+\alpha, n-y+\beta)$
$Poisson(\theta),iid$	$Gamma(\alpha, \beta)$	$Gamma(\alpha+n\bar{y}, \beta+n)$
$N(\theta,\sigma_0^2), iid$	$N(\mu_0, \tau_0^2)$	$N(\mu_n, \tau_n^2),~\mu_{n}=\frac{\frac{1}{\tau_{0}^{2}}\mu_{0}+\frac{n}{\sigma_0^{2}}\bar{y}}{\frac{1}{\tau_{0}^{2}}+\frac{n}{\sigma_0^{2}}},~\frac{1}{\tau_{n}^{2}}=\frac{1}{\tau_{0}^{2}} +\frac{n}{\sigma_0^{2}}$
$N(\theta_0,\sigma^2), iid$	$\mathrm{Inv-}\chi^{2}(\nu_{0},\sigma_{0}^{2})$	$\mathrm{Inv-}\chi^{2}\left(\nu_{0}+n,\frac{\nu_{0}\sigma_{0}^{2}+n v}{\nu_{0}+n}\right),~v={\frac{1}{n}}\sum_{i=1}^{n}(y_{i}-\theta)^{2}$
$N(\theta_0,\sigma^2), iid$	$(\sigma^2)^{-1}$	$\mathrm{Inv-}\chi^{2}(n,v)$

这部分总结了单参数贝叶斯模型中的核心计算公式，包括参数后验、先验预测和后验预测。

后验分布 $p(\theta|y)$ 反映了在观测到数据 $y$ 之后，对参数 $\theta$ 认识的更新。它与先验分布 $p(\theta)$ 和似然函数 $p(y|\theta)$ 的乘积成正比。

$p(\theta|y) \propto p(\theta)p(y|\theta)$

预测分布用于对新数据 $\tilde{y}$ 进行预测。

先验预测： 在没有观测数据的情况下，利用参数的先验分布对新数据进行预测。

$p(\tilde{y})=\int p(\tilde{y}|\theta)p(\theta)d\theta$
后验预测： 在观测到数据 $y$ 之后，利用参数的后验分布对新数据进行预测。

$p(\tilde{y}|y)=\int p(\tilde{y}|\theta)p(\theta|y)d\theta$

这部分阐述了先验信息与后验信息之间的统计学关系，特别是在均值和方差方面。

均值关系： 参数的先验均值等于其后验均值在所有可能数据分布上的期望。

$\operatorname{E}(\theta)=\operatorname{E}(\operatorname{E}(\theta|Y))$
方差关系： 参数的先验方差可以分解为两部分：后验方差的期望，以及后验均值的方差。

$\operatorname{var}(\theta)=\operatorname{E}\!\left(\operatorname{var}(\theta|Y)\right)+\operatorname{var}(\operatorname{E}\!\left(\theta|Y\right))$
信息更新： 后验方差的期望总是小于或等于先验方差，这表明平均而言，后验分布比先验分布提供更多信息（方差更小），但对于特定的数据集，后验方差不一定小于先验方差。

$\operatorname{var}(\theta)\geq\operatorname{E}\bigl(\operatorname{var}(\theta|Y)\bigr)$

无信息先验在先验信息缺失时，旨在最小化对后验分布的影响。

这部分通过枢轴量（Pivotal Quantity）的概念，推导了位置参数和尺度参数的无信息先验。

位置参数： 如果 $y-\theta$ 是枢轴量，其先验分布 $p(y-\theta=u|\theta)$ 仅依赖于 $u$ ，则其无信息先验为均匀分布。

$p(\theta)\propto1$
尺度参数： 如果 $y/\theta$ 是枢轴量，其先验分布 $p(y/\theta=u|\theta)$ 仅依赖于 $u$ ，则其无信息先验为反比例函数。

$p(\theta)\propto 1/\theta$

Jeffery 先验是一种在参数变换下不变的无信息先验，其核心思想是利用费雪信息来定义先验分布。

变换不变性： 在参数 $\theta$ 到 $\phi=h(\theta)$ 的变换下，我们希望先验分布的“形式”保持不变，即 $\pi(\theta)=\eta(\phi)$ 。这要求先验满足：

$\pi(\phi)=\pi(\theta)\left|\frac{d\theta}{d\phi}\right|$
费雪信息： 费雪信息 $J(\theta)$ 量化了似然函数所包含的关于参数 $\theta$ 的信息量。

$J(\theta)=E\left(\left({\frac{d\log p(y|\theta)}{d\theta}}\right)^{2}\mid\theta\right)=-E\left({\frac{d^{2}\log p(y|\theta)}{d\theta^{2}}}\mid\theta\right)=\mathrm{Var}\ \left({\frac{\partial}{\partial\theta}}\log p(y|\theta)\right)$

费雪信息在参数变换下的性质为：

$J(\phi)^{1/2}=J(\theta)^{1/2}\left|\frac{d\theta}{d\phi}\right|$
Jeffery 先验的定义： 结合变换不变性，Jeffery 先验与费雪信息的平方根成正比。

$\pi(\theta) \propto [J(\theta)]^{1/2}$

观测费雪信息是费雪信息的一个重要概念。

定义： 观测费雪信息 $I_{obs}(\theta)$ 是对数似然函数二阶导数的负值。对于独立同分布（i.i.d.）数据，其期望等于费雪信息 $J_n(\theta)$ 。

$I_{o b s}(\theta)=-\sum_{i=1}^{n}\frac{\partial^{2}}{\partial\theta^{2}}\log p(y_{i}\mid\theta)$
期望关系：

$\operatorname{E}\bigl(I_{o b s}(\theta)\bigr)=J_{n}(\theta)=nJ(\theta)$

共轭先验使得后验分布与先验分布属于同一分布族，大大简化了贝叶斯后验的计算。

指数分布族： 概率密度函数具有特定形式。

$p(y_{i}|\theta)=f(y_{i})\cdot\exp(\phi(\theta)^{T}u(y_{i})-g(\theta))$
独立同分布联合似然： 对于 $n$ 个独立同分布的样本，联合似然函数可以写成：

$p(y|\theta)\propto\exp(\phi(\theta)^{T}t(y)-n\,g(\theta))$

其中 $t(y)=\sum_{i=1}^{n}u(y_{i})$ 是充分统计量。
共轭先验： 共轭先验与似然函数具有相似的形式。

$p(\theta)\propto\exp\!\left(\phi(\theta)^{T}v-n_{0}\,g(\theta)\right)$
后验分布： 结合似然和先验，后验分布的形式保持不变，参数得到更新。

$p(\theta|y)\propto\exp(\phi(\theta)^{T}(v+t(y))-(n_{0}+n)\,g(\theta))$