vlambda博客
学习文章列表

R语言统计学习学习笔记(一)——基本概念和一般步骤(一)

本笔记中原始数据及代码均来源于李东风先生的R语言教程,在此对李东风先生的无私分享表示感谢。



调入需要的扩展包:
library(leaps) # 全子集回归library(ISLR) # 参考书对应的包library(glmnet) # 岭回归和lasso
library(tree) # 树回归library(randomForest) # 随机森林和装袋法
library(MASS)library(gbm) # boosting
library(e1071) # svm


统计学习的基本概念和方法

统计学习(statistical learning), 也有数据挖掘(data mining),机器学习(machine learning)等称呼。 主要目的是用一些计算机算法从大量数据中发现知识。 方兴未艾的数据科学就以统计学习为重要支柱。 方法分为有监督(supervised)学习与无监督(unsupervised)学习。 无监督学习方法如聚类问题、购物篮问题、主成分分析等。

有监督学习即统计中回归分析和判别分析解决的问题, 现在又有树回归、树判别、随机森林、lasso、支持向量机、 神经网络、贝叶斯网络、排序算法等许多方法。 无监督学习在给了数据之后, 直接从数据中发现规律, 比如聚类分析是发现数据中的聚集和分组现象, 购物篮分析是从数据中找到更多的共同出现的条目 (比如购买啤酒的用户也有较大可能购买火腿肠)。

有监督学习方法众多。 通常,需要把数据分为训练样本和检验样本, 训练样本的因变量(数值型或分类型)是已知的, 根据训练样本中自变量和因变量的关系训练出一个回归函数, 此函数以自变量为输入, 可以输出因变量的预测值。 训练出的函数有可能是有简单表达式的(例如,logistic回归)、 有参数众多的表达式的(如神经网络), 也有可能是依赖于所有训练样本而无法写出表达式的(例如k近邻分类)。


偏差与方差折衷

对回归问题,经常使用均方误差

来衡量精度。 对分类问题,经常使用分类准确率等来衡量精度。 易见

所以均方误差可以分解为

训练的回归函数如果仅考虑对训练样本解释尽可能好, 就会使得估计结果方差很大,在对检验样本进行计算时因方差大而导致很大的误差, 所以选取的回归函数应该尽可能简单。 如果选取的回归函数过于简单而实际上自变量与因变量关系比较复杂, 就会使得估计的回归函数偏差比较大, 这样在对检验样本进行计算时也会有比较大的误差。 所以,在有监督学习时, 回归函数的复杂程度是一个很关键的量, 太复杂和太简单都可能导致差的结果, 需要找到一个折衷的值。

复杂程度在线性回归中就是自变量个数, 在一元曲线拟合中就是曲线的不光滑程度。 在其它指标类似的情况下,简单的模型更稳定、可解释更好, 所以统计学特别重视模型的简化。