COSMOPlat平台,你一定要知道的系列,第三篇:机器如何学习?机器学到的是什么?
2019-03-07 14:50:33 阅读次数:1320

缘起


为了响应上海市经信委对工业互联网企业扩大对外宣传的要求,海尔数字科技(上海)将在2019年上半年适时举办“COSMOPlat上海G60论坛(待定)”。论坛将涵盖COSMOPlat服务能力介绍(包含工业互联网平台建设、工业互联网安全防护体系、工业互联网标识解析体系、工业大数据、工业APP、物联网及边缘网关、人工智能)、COSMOPlat上云客户解决案例、COSMOPlat软硬件合作伙伴能力方案等系列部分。所以为论坛,广积粮,这是第一篇:为大数据集群选择正确的硬件;第二篇:CDH网络要求,及角色划分;还会有第三篇,第四篇等等,敬请期待。

 

 

第三篇:机器如何学习?机器学到的是什么?

2019年3月7日星期四

18511-life-happiness-2.jpg.jpg

前有第一篇《为大数据集群正确的选择硬件》,第二篇《大数据集群的角色划分和组网方案》,第三篇顺理成章该总结下hadoop的部署,动态扩容和优化。hadoop部署,动态扩容的官方指导文档有不少坑,所谓小沟里也能翻船,这些是重要,但是踩过的坑与版本和系统环境有关,而优化要有项目和业务背景,以及对数据的理解,更适合以案例的形式呈现,所以略过这些。

从这篇起进入大数据的分析处理呈现。正在建设的供应链物流系统,使用到OCR票据信息识别和自动录入,以及票据证件真伪识别,这些小功能背后的技术都与机器学习有关,以此为切入,先说下机器学习的一些概念。


1, 机器学习


机器学习的输入是数据(Data),学到的结果叫模型(Model),从数据中学得模型这个过程是通过执行某个学习算法(Learning Algorithm)来完成。机器学习简而言之是研究“学习算法”的,“学习算法”基于历史的经验数据产生模型,进而使计算机有了对新情况进行预判和预测的“技能”。

 

那么什么样的问题适合用机器学习来解决?或者说什么情况需要使用机器学习?适合用机器学习解决的问题的必要条件

 

那些难以用规则解决的问题,比如辨识一张图片中的物体是不是树叶,辨别树叶的规则很难描述,比如垃圾邮件识别,辨别垃圾邮件规则也难以穷举,类似的问题都可以尝试用机器学习来解决。有大量数据,并且数据中有隐藏的某种规律,机器学习可以把这种规律挖掘出来。如果某些问题没有任何的规律,比如抛硬币,那么无论有多少数据也是不行的。


2样本,特征,标注

 

下表数据记录的是消费者进入购物网站的行为数据(当然这里做了简化)

image.png.png


    学习算法的输入数据,叫“训练数据”(Training Data)。训练数据的每一行称为一个“训练样本”(Training Sample),简称“样本”(Sample)。每个样本有三个属性——年龄、性别、商品价格,用户是否会点击某个商品主要由年龄、性别、商品价格三个因素共同决定(这里做了简化,实际上影响的因素很多)。这里的年龄、性别、商品价格我们称之为“特征”(Feature),在这个场景中,希望学得的模型可以用来预判用户是否会点击某个商品,因此光有年龄、性别、商品价格这样的特征信息还不够,还需要知道每个训练样本用户是否会点击。“是否点击”这个信息,称为样本的标注(Label)。而模型另一个更好理解又非常准确的表述叫映射。X=(X1, X2, X3)


3, 映射(模型)

    3.1映射的输入

    • 输入样本用符号 X 表示,第i个样本记作 Xi。
    • 每个样本有三个特征,样本Xi又可以写成一个向量Xi=(Xi1,Xi2,Xi3) 在这里Xi1指年龄、Xi2指性别、Xi3指商品价格),称为“特征向量” (Feature Vector)。

    • 所有的特征向量的集合就是总的输入集合,例子中本质上是个三维向量组成的三维空间,称为“样本空间” (Sample Space)或“输入空间”,记作X。任意的输入x都是这个3维样本空间X中的一个向量,用符号表示:

image.png.png



    3.2 映射的输出


    • 输出的样本标注用符号Y表示,第i个样本的标注记作Yi。

   • 例子中标注只有-1和1两种取值,用一个一维向量表示:

image.png.png

     同样的,这个一维向量组成的空间称为“标注空间”(Label Space)或“输出空间”,记作Y。任意的输出y都属于Y,用符号表示:

image.png.png

    3.3映射的表示


    机器学习模型就是输入空间X到输出空间Y的一个映射,将映射用符号g表示,则模型记作g : X->Y。
学得这个模型之后我们对于新的样本要预测用户是否会点击,只需要将样本x传入映射函数g,得到的输出就是对用户是否会点击的预测:

image.png.png




4,机器学习流程重新细化图

    

    Learning Algorithm根据训练数据,从Hypothesis Set中选出最优的那个映射作为最终学得的模型

image.png.png


    使得g越接近f越好 

第三篇内容.png.png


5,总结及参考文献 

    

     艾玛,本想把所有的复杂变明了,所有的阴天破乌云,难以为续了。

参考周志华的《机器学习》西瓜书,林轩田机器学习教程(FoundationsTechniques)


6, 推荐阅读:

第一篇:为大数据集群正确的选择硬件

第二篇:大数据集群的角色划分和组网方案

作者:杜中立
WeChat