搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 供应链智云 > 方法论14——机器学习方法(一)

方法论14——机器学习方法(一)

供应链智云 2020-06-25
点击上方“蓝字”关注我们吧!
方法论14——机器学习方法(一)
方法论14——机器学习方法(一)

  机器学习是一门多领域交叉学科,它涉及概率论、统计学、计算机科学以及软件工程。机器学习是指一套工具或方法,凭借这套工具和方法,利用历史数据对机器进行“训练”进而“学习”到某种模式或规律,并建立预测未来结果的模型。机器学习涉及两类学习方法,第一类是有监督学习,主要用于决策支持,它利用有标识的历史数据进行训练,以实现对新数据的标识的预测。有监督学习方法包括分类与回归。

方法论14——机器学习方法(一)

方法论14——机器学习方法(一)


1. 分类

分类技术预测的数据对象是离散值。例如,电子邮件是否为垃圾邮件,肿瘤是恶性还是良性等。分类模型将输入数据分类,典型应用包括医学成像、信用评分等。

2. 聚类

聚类算法用于在数据中寻找隐藏的模式或分组。聚类算法构成分组或类,类中的数据具有更高的相似度。聚类建模的相似度衡量可以通过欧几里得距离、概率距离或其他指标进行定义。

方法论14——机器学习方法(一)

方法论14——机器学习方法(一)


方法论14——机器学习方法(一)

1.K-近邻分类

K-近邻(K-NN,K-Nearest Neighbors)算法是一种基于实例的分类方法,最初是由Cover和Hart于1968年提出的,是一种非参数的分类方法。

K-近邻分类方法通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近k个训练样例,k个样品中哪个类别的训练样例占多数,则待分类元组就属于哪个类别。使用最近邻确定类别的合理性可用下面的谚语来说明:“如果走像鸭子,叫像鸭子,看起来还像鸭子,那么它很可能就是一只鸭子”,如下图所示。最近邻分类器把每个样例看作d维空间上的一个数据点,其中d是属性个数。给定一个测试样例,我们可以计算该测试样例与训练集中其他数据点的距离(邻近度),给定样例z的K-近邻是指找出和z距离最近的k个数据点。

方法论14——机器学习方法(一)

下图给出了位于圆圈中心的数据点的1-邻近、2-近邻和3-近邻。该数据点根据其近邻的类标号进行分类。如果数据点的近邻中含有多个类标号,则将该数据点指派到其最近邻的多数类。
在图(a)中,数据点的1-近邻是一个负例,因此该点被指派到负类。如果最近邻是三个,如图(c)所示,其中包括两个正例和一个负例,根据多数表决方案,该点被指派到正类。在最近邻中正例和负例个数相同的情况下(如图(b)),可随机选择一个类标号来分类该点。

方法论14——机器学习方法(一)

方法论14——机器学习方法(一)

K-NN算法具体步骤如下:

a) 初始化距离为最大值;

b) 计算未知样本和每个训练样本的距离dist;

c) 得到目前k个最邻近样本中的最大距离maxdist;

d) 如果dist小于maxdist,则将该训练样本作为K-近邻样本;

e) 重复步骤b)、c)、d),直到未知样本和所有训练样本的距离都计算完;

f) 统计k个最近邻样本中每个类别出现的次数;

g) 选择出现频率最大的类别作为未知样本的类别。


根据K-NN算法的原理和步骤,可以看出,K-NN算法对k值的依赖较高,所以k值的选择就非常重要了。如果k太小,最近邻分类器可能会误分类测试样例,因为最近邻列表中可能包含远离其近邻的数据点(见下图)。确定k值的有益途径是通过有效参数的数目这个概念,有效参数的数目是和k值相关的,大致等于n/k,其中,n是这个训练数据集中实例的数目。在实践中往往通过若干次实验来确定k值,取分类误差率最小的k值。

方法论14——机器学习方法(一)

K-NN方法在类别决策时,只与极少量的相邻样本有关,因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于K-NN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样本集来说,K-NN方法较其他方法更为合适。

该方法的不足之处是计算量较大,因为对每一个待分类的样本都要计算它到已知样本的距离,才能求得它的k个最近邻点。针对该不足,主要有以下两类改进方法:

(1) 对于计算量大的问题,目前常用的解决方法是事先对已知样本点进行剪辑,去除对分类作用不大的样本。这样可以挑选出对分类计算有效的样本,使样本总数合理地减少,以同时达到减少计算量、存储量的双重效果。该算法适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域,采用这种算法容易产生误分。

(2) 对样本进行组织、整理、分群、分层,尽可能将计算压缩到接近测试样本邻域的小范围内,避免盲目地与训练样本集中的每个样本进行距离计算。

方法论14——机器学习方法(一)


 总的来说,该算法的适应性强,尤其适用于样本容量比较大的自动分类问题,而那些样本容量较小的分类问题,采用这种算法容易产生误分。
方法论14——机器学习方法(一)
方法论14——机器学习方法(一)
方法论14——机器学习方法(一)


在看点这里

版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《方法论14——机器学习方法(一)》的版权归原作者「供应链智云」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注供应链智云微信公众号

供应链智云微信公众号:SCIC--

供应链智云

手机扫描上方二维码即可关注供应链智云微信公众号

供应链智云最新文章

精品公众号随机推荐