2017年12月29日星期五

初识机器学习

3.1初识机器学习

3.1.1什么是机器学习?

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

3.1.2数据挖掘

简而言之,数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。

3.1.3 数据挖掘与机器学习的关系

机器学习可以用来作为数据挖掘的一种工具或手段;
数据挖掘的手段不限于机器学习,譬如还有诸如统计学等众多方法;
但机器学习的应用也远不止数据挖掘,其应用领域非常广泛,譬如人工智能

3.1.4 机器学习的应用:

电商推荐系统
机器翻译
垃圾邮件分类
下棋
计算机视觉
人脸识别
语音识别
无人驾驶
无人机

3.2机器学习算法类别

分类与聚类

Classification (分类)
给定一堆样本数据,以及这些数据所属的类别标签,通过算法来对预测新数据的类别
有先验知识

Clustering(聚类)
事先并不知道一堆数据可以被划分到哪些类,通过算法来发现数据之间的相似性,从而将相似的数据划入相应的类,简单地说就是把相似的东西分到一组
没有先验知识


常见的分类与聚类算法

Ø 常用的分类算法:k-最近邻法(k-nearest neighborkNN),决策树分类法,朴素贝叶斯分类算法(native Bayesian classifier)支持向量机(SVM)的分类器,神经网络法,模糊分类法等等。

Ø 常见聚类算法: K均值(K-means clustering)聚类算法K-MEDOIDS算法、CLARANS算法;BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

监督学习与无监督学习

机器学习按照训练数据是否有“先验知识”,一般划分为三类:
1) 监督学习(supervised learning)
2) 无监督学习(unsupervised learning)
3) 半监督学习(semi-supervised learning)


ü 监督式学习技术需要关于结果的先验知识
例如,如果我们正在研究一个市场活动的历史数据,我们可以根据市场是否产生预期的反应来对数据进行分类,或决定下一步要花多少钱。监督式学习技术为预测和分类提供了强大的工具。

ü 无监督学习技术不需要先验知识。
例如,在某些欺诈的案例中,只有当事情发生很久以后,我们才可能知道某次交易是不是欺诈。在这种情况下,与其试图预测哪些交易是欺诈,我们不如使用机器学习来识别那些可疑的交易,并做出标记,以备后续观察。我们对某种特定的结果缺乏先验知识、但仍希望从数据中汲取有用的洞察时,就要用到无监督式学习。




3.3 机器学习的应用步骤

1) 需求分析
2) 收集数据
3) 探索数据特性
4) 提取数据特征并建模
5) 开发代码(常用语言:R语言,Python语言,spark mllib库)
6) 训练模型
7) 应用系统集成(比如将训练好的算法模型集成到推荐系统中)

通用机器学习算法应用工程技术架构

没有评论:

发表评论

Jurassic World 3" opens in theaters this Friday, 27 dinosaurs set to come, 10 first appearance

 The annual mega-production "Jurassic World 3" will be officially released in China on June 10, and simultaneously landed in IMAX ...