Technology-机器学习-基础

本文介绍机器学习的基础知识。

定义

机器学习：把无序的数据抓换成有用的信息。

除却一些无关紧要的情况，人们很难直接从原始数据本身获得所需的信息，例如检测垃圾邮件，单个单词没有作用，但是几个特定单词同时出现时，就可以用于判断为垃圾邮件。

上图是一些典型的应用场景，人脸识别，手写数字识别，垃圾邮件过滤和亚马逊的产品推荐。

主要任务:监督学习和无监督学习

监督学习:算法知道要目标变量的分类信息，分为分类和回归。

分类：将实力数据划分到合适的分类中，下面以识别鸟类的物种为例：

回归：用于预测数值型数据，例如数据拟合曲线。

无监督学习:数据没有类别信息，也不会给出目标值，分为聚类和密度估计。

聚类：将数据集合分为类似的对象组成的多个类的过程。

密度估计：寻找描述数据统计值的过程。

选择算法的流程如下：

了解数据的特征值是离散还是连续，特征值是否存在缺失值，何种愿意造成缺失，特征值的频率，数据是否存在异常值等。

一般并不存在最好的算法，需要同时尝试不同算法的执行效果，对于所选的每种算法，可以用其他技术来改进其性能。

机器学习的步骤如下：