搜公众号
推荐 原创 视频 Java开发 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库
Lambda在线 > 与数据同行 > 关于2018年我的50篇大数据文章的主要内容,你看这一篇就可以了(上)!

关于2018年我的50篇大数据文章的主要内容,你看这一篇就可以了(上)!

与数据同行 2019-02-14
举报

这是傅一平的第264篇原创



个人微信:fuyipingmnb


2018年就要过去了,这一年自己大概写了50篇原创文章,为了方便您的选择,笔者给出了每篇文章的中心思想和访问链接,共分三篇,这是第一篇,点击标题链接可以直接查看原文。



所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,企业只有数据规模和数据服务达到一定程度的时候,才有必要去提中台,比如阿里,数据中台讲究个规模效应,数据中台也不是顶层设计,演化出来的比较靠谱。



为了提升运营商大数据变现能力,其位置数据要进一步提升精度,上网数据要多做研究,不要纠结于https,通话、短信等数据则要重新挖掘潜力,总体来讲,运营商大数据并不是低垂的果实。



取数技能可以分解成业务理解、数据理解、系统理解、业务与数据映射、人际沟通、代码编写、工具使用、输入输出等组成部分,只有针对每个环节进行反复的练习,针对不足之处进行专项提升,才能建立起强大的心理表征能力。



数据挖掘师的的实际水平绝对不是掌握了几个算法、几个工具所能代表的,我们往往关注“看得见”的专业能力,而忽视了“隐形”专业能力的培养,对于大多数企业来讲,自己的数据挖掘师其实并不”专业”,数据挖掘师需要具备跨领域的专业知识才能真正的干成事。



当初自己以贝叶斯为例子来阐述这个道理,现在看来犯了确认偏误,就好比大数据比较侧重相关一样,对于算法师来讲,也许需要知其所以然,但对于大多数建模者来讲,要解决的往往是个工程问题,当算法基础设施原来越好的时候,“知其所以然”这个必要性实际降低了。



笔者学习贝叶斯也是东看看,西看看,看了忘,忘了看,这次写成一篇还算易懂的文章,算是了却一个心愿,但很多算法不是这样,公式的推导就已经让人发疯,更别提搞懂来龙去脉甚至用业务的语言进行表述,从历史上看,牛人一般也只愿意show 结果,而不愿意把思考过程写下来,比如费马定理的证明,这个非常遗憾。



存量人才的底蕴、学徒制、培训体系、新人成长表是当前转型DT的企业必须要打造的东西,否则就会面临招不到人,招到了也培养不好,培养成了也会跑的局面。



最近的大数据变现让笔者发现数据团队有很大的短板,即就数据论数据,在直面商业客户时,这种狭隘的认识只会让他们手足无措,《梁宁-产品思维30讲》让笔者眼前一亮,取数报表者、数据建模者、数据管理者都可以从中受益。



数据中台的概念笔者在《数据中台到底是什么》有过解释,但企业光有数据中台是远远不够的,更需要打造基于数据中台的运营框架,这才是“大中台,小前台”的精髓,任何希望用大数据驱动创新业务发展的公司,都应该好好研究一下,其实数据中台完成建设才是大数据运营真正的开始,后面还有更艰辛的挑战。



科斯说,是交易成本与管理成本的对比,确定了企业的边界,交易成本越低的事情,越应该外部化,管理成本越低的事情,越应该内部化,基于这个原则,数据仓库模型、传统业务的数据挖掘就不要外包,创新型业务、培训和运营则可以外包,而外包团队的选择又至关重要。



新零售的本质是为了提高效率,从商业三流看,信息流、资金流、物流都贡献了大数据,信息流留下的是客户行为,资金流留下的是消费能力,物流留下的的是物的流转信息,这些数据是新零售效能提升的基础;从用户角度看,大数据可以驱动引流,把目标用户引过来或者到目标用户的地方去,也驱动了转化率的提升,是当前互联网数字广告体系的基石,同时,大数据各类分析已经在提升客单价方面发挥重要作用,比如协同过滤;从供应链角度看,大数据为个性化设计,工业制造4.0,智能物流赋能,围绕供应链的各种商业模式层出不穷。



笔者至今也没办法在15秒的电梯时间用业务语言把神经网络的概念清晰的表达出来,但总想着尝试写出来,最好不用一个公式,就好比小学的时候不用方程式而用逻辑解题一样,这符合一般的思考过程,这篇文章是个尝试,希望能比大多数网上的文章表达的要清楚。



总结了关于人工智能的七个观点: 人工智能不存在需不需要的问题、人工智能的使用不是所见即所得、人工智能呼唤产业革命的崛起、开发人工智能应用的方向选择、自主研究算法不再有必要、数据成为差异化竞争力。



我们一方面在提博雅教育、通识教育,希望能开阔年轻人的眼界,提升素质,另一方面,媒体的算法却越来越擅长投其所好,移动互联网+大数据本来是为了让信息传递变得更为透明便捷,现在也带来了副作用,巨头的算法+高度集中的媒体是否成为了另一种禁锢?



传统企业的模型复制由于业务环境、数据理解、数据准备、算法选择、模型训练、测试验证、生产应用、迭代提升等方面的原因容易造成水土不服,长期来讲,最佳模型推广一要靠业务的真正统一,二要靠系统化,自动化的复制手段,否则很容易昙花一现。



从智能手环、智能手表、VR、AR、MR、共享单车再到无人驾驶,物联网将会彻底颠覆我们的生活,《图解物联网》这本书对物联网以及相关技术做了很透彻的解读。



很多传统企业里数据挖掘有点像奢侈品,因为数据挖掘的过程一般较长,总体来讲性价比不高,规则取数往往成为了企业数据驱动业务的主流,笔者从打造全流程挖掘引擎、降低变量准备时间、选对模型提升的方法、快速迭代及时止损、通过运营保有挖掘资产五个方面来阐述了自己的敏捷数据挖掘方法论。



OLTP和OLAP是企业内两大典型系统,OLTP以流程为核心,侧重于生产,OLAP以数据为核心,侧重于分析,因此一般在OLAP系统更强调数据资产管理,本文阐述了OLTP系统数据资产管理的难点,并从策略、流程、系统三个层面给出了实施建议。



大数据洞察类产品的低频使用、距离一线生产端过远以及无法替代企业的经验决策决定了它有限的商业价值,只有将洞察的能力+触达的能力有机结合起来,才能让产品有持续的生命力。



谈了数据新人进入企业后快速成长的五个要点:包括主动积极、学会反思、及时反馈、讲究逻辑、刻意练习,特别是,新人入门不要一上来就去学什么花哨的工具和高大上的算法,要用常识去理解事物,先尽可能的去理解企业的业务和数据,而算法和平台在未来将如水电煤一样普及,很难形成自己独特的竞争力。


未完待续,感谢您2018年的陪伴,2019年会更精彩!






可能错过的近期精选文章(点击链接即可阅读)




一起成长,让我们与数据同行

忙完工作,偷得浮生半日闲,讲述自己的数据人生

大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现

 


版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《关于2018年我的50篇大数据文章的主要内容,你看这一篇就可以了(上)!》的版权归原作者「与数据同行」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

举报