其中,是样本集的协方差矩阵。
下面以一个简单的实例进行计算:
某二维分布,中心点在,协方差矩阵为试计算点与中心点的欧氏距离和马氏距离。
有:欧氏距离
欧氏距离
参考:马氏距离和欧式距离详解|CSDN、《机器学习导论》中文版56页
待更,见动手学深度学习
根据公共协方差的定义,有:
其中,,如果第个样本,则,否则为。
待更
自创理解之蓝色散点与红色散点
https://blog.csdn.net/Just_do_myself/article/details/103357618
公式上的理解:
“流形”这个中文词|翻译 取自文天祥的“天地有正气,杂然赋流形”
这个词第一次作为当前的数学意义使用是由北大数学系的一位老教授江泽涵 老先生
老先生是我国代数拓扑学的开拓者
参考:浅谈流形学习
:线性层,最原始的称谓,单层即无隐层。torch
中的 torch.nn.Linear
就是提供了一个 in_dim * out_dim
的 tensor layer
。
:密集层,可以指单层 linear
也可以指多层堆叠,有无隐层均可,但一般多指有隐层。keras
中常常提到的 dense
层其实就是多层线性层的堆叠。
:多层感知器(Multi-layer Perceptron Neural Networks),指多层 linear
的堆叠,有隐层。
:全连接层(Fully Connected Layer),单层多层均可以表示,是对 Linear Classifier
最笼统的一种称谓。
机器学习模型中一般有两类参数:
一类需要从数据中学习和估计得到,称为模型参数(Parameter)—即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。
还有一类则是机器学习算法中的调优参数(tuning parameters),需要人为设定,称为超参数(Hyperparameter)。比如,迭代次数、学习率、退化率、正则化系数λ、决策树模型中树的深度等。
机器学习中一直说的“调参”,实际上不是调“参数”,而是调“超参数”。
GridSearchCV
https://zhuanlan.zhihu.com/p/642060346
https://blog.csdn.net/Roy_Allen/article/details/131030684
消融 的原意是通过手术切除身体组织。
消融研究 |Ablation study 一词起源于 20 世纪 60 年代和 70 年代的实验神经心理学领域,通过切除部分动物大脑来研究这对动物行为的影响。
在机器学习领域,尤其是复杂的深度神经网络中,消融实验被用来描述切除网络某些部分的过程,以便更好地了解网络的行为,探寻因果关系。
可以看出,消融实验的目的在于移除系统中的特定的部分,来控制变量式的研究这个部分对于系统整体的影响。
如果去除这一部分后系统的性能没有太大损失,那么说明这一部分对于整个系统而言并不具有太大的重要性;
如果去除之后系统性能明显的下降,则说明这一部分的设计是必不可少的。
当然,如果出现了第三种情况,也就是去除之后模型的性能不降反升,那么建议找一下bug或者修改设计。
metric 1 | … | metric N | |
---|---|---|---|
A (baseline) | |||
A+B | |||
A+C | |||
A+B+C (final) |
举个栗子。在上图中,metric 1 - N 表示N个用来评价系统性能的指标,原始模型 M(只含有 A 模块)会被首先测试,得到的结果会成为baseline用来对比。接下来,分别测试模型 A+B 与 A+C 来分别测试 B 模块与 C 模块的单独作用。最后,就要把所有的模块都放在一起,也就是模型A+B+C,来测试最终模型的性能。
计算图是用来描述运算的有向无环图,有两个主要元素:节点 (Node) 和 边 (Edge)。
节点表示数据,如向量、矩阵、标量等;
边表示运算,如加减乘除卷积等。
PyTorch 采用的是动态图机制 (Dynamic Computational Graph),而 Tensorflow 采用的是静态图机制 (Static Computational Graph)。
动态图 是指计算图的运算和搭建同时进行,也就是可以先计算前面的节点的值,再根据这些值搭建后面的计算图。
优点是灵活,易调节,易调试。PyTorch 里的很多写法跟其他 Python 库的代码的使用方法是完全一致的,没有任何额外的学习成本。
静态图 是先搭建图,然后再输入数据进行运算。
优点是高效,因为静态计算是通过先定义后运行的方式,之后再次运行的时候就不再需要重新构建计算图,所以速度会比动态图更快。
缺点是不灵活。TensorFlow 每次运行的时候图都是一样的,是不能够改变的,所以不能直接使用 Python 的 while
循环语句,需要使用辅助函数 tf.while_loop
写成 TensorFlow 内部的形式。
简单匹配系数 SMC
Jaccard系数
类别与类别的相关性用卡方(?)
pytorch | softmax(x,dim=-1)参数dim的理解 - 知乎 (zhihu.com)
Zipf 定律(齐普夫定律,Zipf’s law) 是美国语言学家 George K. Zipf 发现的,他在1932年研究英文单词的出现频率时,发现如果把单词频率从高到低的次序排列,每个单词出现频率 和它的符号访问排名 存在简单反比关系:
等价于:
对词频分布来说: 取1, 取0.01。
一个样本数为 的离散随机变量的齐普夫分布,它的概率分布函数(概率质量函数)为:
当 时,有黎曼函数:
此时齐普夫分布变成了 Zeta 分布;当 时,齐普夫分布变成了均匀分布。
https://zhuanlan.zhihu.com/p/464719532
分类评价指标 F值 详解 | Micro F1 & Macro F1 & Weight F1-CSDN博客