搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 开源最前线 > 【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark

【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark

开源最前线 2017-10-29
开源最前线(ID:OpenSourceTop) 猿妹编译

来源:https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。每年各大科技巨头在这方面的研发投入也是十分巨大的,最近微软开源了一项用于 Spark 的深度学习库 —— MML Spark。


Spark 的深度学习库 MML Spark


授权协议:MIT

开发语言:Scala

操作系统:跨平台

开发厂商:微软

Github:https://github.com/Azure/mmlspark 397


微软正式开源 MML Spark,用于 Apache Spark 的机器学习库, MML Spark 为 Apache Spark 提供了大量的深度学习和数据科学工具,包括与 Microsoft Cognitive Toolkit(CNTK)和 OpenCV 的,帮助用户快速创建强大的、高度可伸缩的图像和文本数据集的预测分析模型。


通过大量的实践发现,Spark 确实是构建可伸缩ML模型的强大平台。但是,需要耗费大量时间在调用底层 API 上,例如将字符串、特征向量和强制数据整合到机器学习算法的布局中。Microsoft 机器学习 Apache Spark(MMLSpark)简化了在 PySpark 中的重复性工作。


该库为处理不同类型的数据(如文本或分类)提供了简化的 API。例如,以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:



为了使用 SparkML 来对该数据进行特征化和训练,你需要将字符串转换成数字向量,再将数字向量组合在一起,并索引标签列。这些操作使得代码很难实现模块化,因为它依赖于数据布局和 ML 算法。但是,在MMLSpark中,在MMLSpark中只需要两行代码,就可以实现


【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark



深度学习和计算机视觉


深度神经网络(DNNs)是一种强大的技术,它能对图像分类、语音识别等领域的实力和人类不相上下。但是,训练 DNN 模型通常需要具备专业知识的人员。而且DNN库与SparkML 不容易集成。数据类型和 API 不容易兼容。


有了MMLSpark,我们提供了易于使用的 Python API,可以方便地训练DNN算法。MMLSpark可以方便地使用现有模型进行分类任务、在分布式GPU节点上进行训练、以及使用OpenCV建立可扩展的图像处理管线。


例如,考虑使用神经网络对图像的集合进行分类。有了 MMLSpark,您就可以简单地从 Microsoft Cognitive Toolkit(CNTK) 中初始化一个预先训练的 DNN 模型,并使用它以简单的几行代码,从图像中抽取特征。然后将其传递给传统的 ML 算法,如逻辑回归:


【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark


如今我们将 MML Spark 开源,并托管至 GitHub 上,发布到 Docker Hub 上,使用下面的命令即可在单机部署:



附:新开源报道汇总






●本文编号62,以后想阅读这篇文章直接输入62即可

●输入m获取文章目录


↓↓↓ 点击"阅读原文" 进入GitHub详情页  

版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark》的版权归原作者「开源最前线」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注开源最前线微信公众号

开源最前线微信公众号:OpenSourceTop

开源最前线

手机扫描上方二维码即可关注开源最前线微信公众号

开源最前线最新文章

精品公众号随机推荐