R语言 PCA主成分分析(2)
R语言 PCA主成分分析(2)
前言PCA分析的一些术语及思想R语言中2种PCA函数的差异一些基础概念后记
前言
昨天学习了下PCA的R语言操作,但是今天复习的时候突然发现昨天似乎疏忽了一个问题——做PCA分析似乎有2个函数:prcomp
和princomp
。而且关于PCA中的一些基本思想似乎我还没有那么熟悉,于是,到B站学习了半个小时,似乎大致弄懂了些东西,这里就再顺便记录下好了。
当然了,还是推荐大家自己去学习,我会把所有用到的学习资料链接都放上:
https://www.bilibili.com/video/BV1T4411T73S
https://www.bilibili.com/video/BV1T4411T733
https://blog.csdn.net/weixin_44084325/article/details/90729121
https://blog.csdn.net/lfz_carlos/article/details/48442091
https://www.jianshu.com/p/86d533128f7e
https://blog.csdn.net/weixin_44084325/article/details/90729121
PCA分析的一些术语及思想
关于PCA分析的中心思想,看了看发现我很早之前在学习statquest的时候就总结过,所以就不再赘述了,放个链接,想学的自己去看:
关于PCA中的几个术语解释:载荷分数 (Loading score),特征值,奇异值。
参考下图来理解:
特征值:图中的SS(所有绿点的投影点到原地距离的平方和)
奇异值:特征值的平方根
Loading:每个基因所占比例,越大说明贡献越多
R语言中2种PCA函数的差异
reference:
https://blog.csdn.net/weixin_44084325/article/details/90729121
https://blog.csdn.net/lfz_carlos/article/details/48442091
总结来说:
princomp | prcomp | |
---|---|---|
R mode / Q mode | 只适用于R mode | 适用于R mode 和 Q mode |
基于算法 | 基于 协方差(covariance) 或者 相关矩阵(correlation) 提取的特征(eigen) , 也叫 spectral decomposition | 基于SVD分解 |
载荷因子的表示 | loadings | rotation |
一些基础概念
reference:
https://www.jianshu.com/p/86d533128f7e
https://blog.csdn.net/weixin_44084325/article/details/90729121
变量(variable):个体中感兴趣的特征。在测序数据中,可以理解为基因。
观测值(observation):对某一特定个体得到的测量值集合。在测序数据中,可以理解为样本。
R mode / Q mode 之间的差异与联系:
R-mode PCA examines the correlations or covariances among variables.
Q-mode focusses on the correlations or covariances among samples.
也就是说,对于找基因之间关系,我们应该用R-mode,也就是用函数
princomp
而对于对于找样本之间关系,我们应该用Q-mode,也就是用函数
prcomp
后记
内容有些简陋,没有写的那么仔细,但是内容量还是比较干货,希望大家能看懂。