AI安全-数学基础

微积分

微积分:导数、梯度下降、链式法则(用于模型优化)

导数

导数 —— Wiki

导数(英语:derivative)是微积分学中的一个概念。函数在某一点的导数是指这个函数在这一点附近的变化率(即函数在这一点的切线斜率)。导数的本质是通过极限的概念对函数进行局部的线性逼近。当函数 f 的自变量在一点 x0上产生一个增量 h 时,函数输出值的增量与自变量增量 h 的比值在 h 趋于0时的极限如果存在,即为 f 在 x0 处的导数,记作
f′(x0)、df/dx(x0) 或df/dx|x=x0。

例如在运动学中,物体的位移对于时间的导数就是物体的瞬时速度

导数是函数的局部性质。不是所有的函数都有导数,一个函数也不一定在所有的点上都有导数。若某函数在某一点导数存在,则称其在这一点可导(可微分),否则称为不可导(不可微分)。如果函数的自变量和取值都是实数的话,那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。

对于可导的函数 f,x↦f′(x) 也是一个函数,称作 f 的导函数。寻找已知的函数在某点的导数或其导函数的过程称为求导(英语:differentiation)。

反之,已知导函数也可以倒过来求原来的函数,即不定积分。

微积分基本定理说明了求原函数与积分是等价的。求导和积分是一对互逆的操作,它们都是微积分学中最为基础的概念。

梯度下降

当我们处理多个变量的函数(例如 $f(x,y)$ )时,我们希望了解函数在任意点如何变化。梯度是实现这一目标的强大工具。梯度被定义为包含函数偏导数的向量,并指向函数值增加最快的方向。

简单来说,想象一下你站在一座山上,想要找到爬山最快的方向。梯度向量所指的方向就是那个方向。

可能你已经在非常多地方看过这个说法了,接下来我们从几何证明的角度上一步步推这个结论!别慌,这个证明非常的直观,只需要你有一点点的极限基础!

证明:梯度是函数增长最快的方向

证明过程:略,见:什么是梯度?为什么梯度下降?一篇就够了(真)

链式法则

链式法则是微积分中的求导法则,用于求一个复合函数的导数,是在微积分的求导运算中一种常用的方法。复合函数的导数将是构成复合这有限个函数在相应点的导数的乘积,就像锁链一样一环套一环,故称链式法则。

其基本思想是:如果一个变量依赖于另一个变量,而这个中间变量又依赖于另一个变量,那么可以通过链式法则把这些依赖关系串联起来,从而计算最终的导数。

链式法则的形式 假设有两个函数 $f(x)$ 和 $g(x)$,并且想求复合函数 $f(g(x))$ 对 $x$ 的导数,链式法则表示为: $$ \frac{d}{dx} [f(g(x))] = f’(g(x)) \cdot g’(x) $$ 用语言来描述:

先对内层函数 $g(x)$ 求导, 再对外层函数 $f(x)$ 在 $g(x)$ 的值上求导, 最后将两个导数相乘。

代数

矩阵运算、特征分解、张量(支撑深度学习的张量计算)

矩阵运算

矩阵运算是线性代数中的重要内容,主要包括以下几种基本运算:

  • 加减法:只有同型矩阵才能进行加法和减法运算,运算时对应元素相加或相减。
  • 数乘:将一个数乘以矩阵中的所有元素,得到的新矩阵。
  • 乘法:矩阵乘法有特定的规则,通常涉及行与列的乘积,且不满足交换律
  • 转置与求逆:矩阵的转置是将行和列互换,而求逆则是找到一个矩阵的逆,使得两者相乘得到单位矩阵。
  • 特殊运算:如哈达玛积等,涉及对应元素的乘积。

这些运算是理解线性代数的基础,掌握它们有助于进一步学习更复杂的数学概念。

特征分解

特征分解

线性代数中,特征分解(Eigendecomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。需要注意只有对可对角化矩阵才可以施以特征分解。

矩阵的特征值分解是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。

从特征值分解的定义,可以了解到矩阵的特征值分解就是将矩阵的特征值和特征向量分开。

从特征值和特征向量的定义:$Ax=\lambda x$,可以明确$A、\lambda 、x$ 三者之间建立了一种关系。但是仅用单独的一个 $\lambda、x$ 是无法表示矩阵 $A$ ,因为这个式子不是完备的。对于一个秩为 $m$ 的矩阵 $A$ ,应该存在 $m$ 个这样的式子,完备式子应该是: $$ A\left(x_{1}, x_{2}, \ldots, x_{m}\right)=\left(\lambda_{1} x_{1}, \lambda_{2} x_{2}, \ldots, \lambda_{m} x_{m}\right)\[8mm] =\left(x_{1}, x_{2}, \ldots, x_{m}\right)\left[\begin{array}{ccc} \lambda_{1} & \cdots & 0 \ \vdots & \ddots & \vdots \ 0 & \cdots & \lambda_{m} \end{array}\right] \[10mm] $$ 上面的式子可以写作 $A X = X \Lambda$

进一步的做变换 $A=X \Lambda X^{-1}$

这种形式就可以看成矩阵 $A$ 被分解了。

张量

张量(英语:Tensor)在数学中是一个代数对象,描述了与矢量空间相关的代数对象集之间的多重线性映射。张量可以作为不同的对象之间的映射,例如矢量、标量,甚至其他张量。 张量有很多种类型,包括标量和矢量、对偶矢量、矢量空间之间的多重线性映射,甚至还有一些运算,例如点积。张量的定义独立于任何基,尽管它们通常由与特定坐标系相关的基中的分量来表示;这些分量形成一个数组,可以将其视为高维矩阵。 $n$ 维空间上的 $r$ 阶张量有 $n^r$ 个分量,$r$​ 也称为该张量的秩(与矩阵的秩和阶均无关系)。

概率论

概率分布、贝叶斯理论、假设检验(模型评估与泛化分析)

概率分布

概率分布(probability distribution)是给出事件发生的概率的函数,它是一种通过样本空间(sample space)和事件的概率描述随机事件的方式。

贝叶斯理论

贝叶斯定理(英语:Bayes’ theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。

比如,如果已知某种健康问题与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出某人有某种健康问题的概率。

条件概率(Conditional Probability) 事件 A 在事件 B 已发生的条件下的概率定义为: $$ P(A∣B)=\frac{P(A∩B)}{P(B)} $$ ,其中 $P(B)>0$

全概率公式(Law of Total Probability) 若事件 $B1,B2,…,BnB_1,B_2,…,B_n$

构成一个完备事件群(互斥且并集为全集),则对任意事件 A: $$ P(A)=\sum_{i=1}^{n}P(A∣B_i)P(Bi) $$

贝叶斯公式(Bayes’ Theorem) 基于条件概率和全概率公式,贝叶斯公式的经典形式为: $$ P(B∣A)=\frac{P(A∣B)P(B)}{P(A)} $$

进一步展开全概率公式:

$$ P(B∣A)=\frac{P(A∣B)P(B)}{\sum_{i=1}^{n}P(A∣Bi)P(Bi)} $$

符号解释:

  • P(B):先验概率(Prior),即未观测到数据 AA 时对 BB 的初始信念。
  • P(A∣B):似然度(Likelihood),即在 BB 成立的条件下观测到 AA 的概率。
  • P(B∣A):后验概率(Posterior),即结合数据 AA 后对 BB 的修正信念。
  • P(A):证据因子(Evidence),即数据 AA 的边际概率,用于归一化。

假设检验

假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立

假设检验是统计推断中的一个基本过程,旨在通过样本数据来评估一个特定假设的可信度。

其基本步骤包括:

  • 设定假设:通常包括原假设(H0)和备择假设(H1),原假设是统计者希望拒绝的假设,而备择假设是希望接受的假设。
  • 选择显著性水平:显著性水平(α)是指在原假设为真的情况下,错误拒绝原假设的概率。
  • 进行检验:常用的假设检验方法包括t检验、Z检验、卡方检验和F检验等。
  • 结果分析:通过计算检验统计量并与临界值比较,决定是否拒绝原假设。

假设检验在科研、工业和日常生活中都扮演着重要角色,帮助我们在不确定性中做出判断。

优化理论

凸优化、拉格朗日乘子法(模型参数调优)

凸优化

凸优化问题的优势

  1. 凸优化问题的局部最优解就是全局最优解
  2. 很多非凸问题都可以被等价转化为凸优化问题或者被近似为凸优化问题(例如拉格朗日对偶问题)
  3. 凸优化问题的研究较为成熟,当一个具体被归为一个凸优化问题,基本可以确定该问题是可被求解的

凸集和凸函数

凸集

凸集的定义 一个集合 $c \subseteq R^n$ 是凸集,如果对任意 $x,y\in C$ 都有 $$ tx+(1-t)y\in C,\ for\ all\ 0\leq t\leq 1 $$ 许多常见的集合,如空集,点、线集合,仿射空间 ${x:Ax=b,\ for\ given\ A,b}$ 都属于凸集。正因如此,对于凸集中的变量做仿射变换得到的仍然是凸集。

凸函数

凸函数的定义 如果函数 $f:\ R^n\rightarrow R$ 是凸函数,那么函数的定义域 $dom(f)\subseteq R^n$ 是凸的,且对于所有$x,y\in dom(f)$,都有 $$ f(tx+(1-t)y)\leq tf(x)+(1-t)f(y),\ for\ 0\leq t\leq 1 $$ 换句话说,函数永远不会高于 $f(x)$ 和 $f(y)$ 两点连线。

凸优化问题

一个凸优化问题具有以下基本形式:

                    $min_{x\in D} f(x)$
subject to 			$g_{i}(x)\leq0,  i=1,...,m$
					$h_{j}(x)=0,     j=1,...,r$

其中,$f$ 和 $g_i$ 都是凸函数的,且 $h_j$ 是仿射变换。

凸优化问题有一个良好的性质,即对于一个凸优化问题来说,任何局部最小值都是全局最小值

凸优化问题是优化问题中被研究得比较成熟的,也是非凸优化的基础,许多非凸优化问题也被局部近似为凸优化问题求解。

拉格朗日乘子法(模型参数调优)

拉格朗日乘子法是一种用于求解有约束的优化问题的数学方法。它通过引入拉格朗日乘子,将含有约束条件的优化问题转化为无约束的问题。

  • 拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下极值的方法。
  • 通过引入拉格朗日乘子,可将有 $d$ 个变量与 $k$ 个约束条件的最优化问题转化为具有 $d+k$ 个变量的无约束优化问题求解。

具体步骤如下:

  • 构造拉格朗日函数:设目标函数为 $f(x)$,约束条件为 $g(x) = 0$ ,则拉格朗日函数为 $L(x, \lambda) = f(x) + \lambda g(x)$。
  • 求解方程:通过对拉格朗日函数求偏导数并设为零,得到一组方程,求解这些方程可以找到最优解。

因果学习

孟德尔随机化方法、因果森林(解决数据偏差与归因问题)

孟德尔随机化方法

孟德尔随机化(Mendelian randomization,简称MR)是一种基于遗传变异的因果推断方法,其基本原理是利用自然界中的随机分配的基因型对表型的影响来推断生物学因素对疾病的影响。

因果森林

因果森林(Causal Forest)是一种用于因果推断的统计方法,主要用于估计个体处理效应(ITE)。其基本原理如下:

结构:因果森林由多棵因果树构成,每棵树通过最大化异质性标准进行分裂,以便在每个叶子节点中估计样本的均值作为群体估计效应(CATE)。

分裂准则:与传统回归树不同,因果树的分裂准则旨在最大化分裂后两个子集的增益差异,从而更好地区分不同用户的处理效应。

假设要求:因果森林需满足观测性因果推断的两个假设,即样本在所有混淆因子上有重叠,并且实验数据天然满足条件独立性和随机性

因果森林在人工智能和大数据领域的应用越来越广泛,成为连接因果科学与深度学习的重要工具

参考文献

文件属性

创建时间:2025-08-10 15:57

修订记录:

  • 2025-08-10 ,此次修订内容| 新建,未完成

备注: XXXXX

0%