机器学习是智能应用的关键部分,但是你也许不需要一开始就使用。

ML-BG

含义

利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策

顾名思义,机器学习要解决的问题就是对未来不确定场景的决策问题。

确定性的场景 比如说,明天太阳从什么地方升起,我们都知道太阳永远都是从东方升起,西方落下,这个问题的答案是独一无二的。

不确定性的场景 比如你们公司下个季度(本年度第三季度的业绩)的销量,是涨还是跌,假如是涨的话,涨幅是多少,那么这个就是会受许多客观因素所决策的。

所以,我们所谓的机器学习就是要对类似这样的不确定性场景做判断和决策。

png1

那么机器学习是如何解决这些问题的呢?

规律,前面提到了历史数据,规律就是靠计算机从历史数据中挖掘出来的,不同的框架或者算法找出来的规律是不一样的,那规律它是以什么形式呈现在我们面前的呢,我们可以把这个规律看成数学函数或者公式。

而在机器学习中,研究规律的主体就是机器,也就是我们常说的计算机,但有时候,我们也靠人去从历史数据中寻找规律,那么此时的主体就是人;

这两种主体的不同就衍生了现阶段两个职业方向:机器学习和数据分析。

数据分析 大部分是依靠数据分析师的经验和知识水平来完成这一部分的工作

机器学习 相反是想抛弃对这些数据分析师的依赖,单纯的依靠计算机从历史数据中去挖掘规律。

机器学习本质上只是一套框架或者一套算法,我们的原材料还是数据,毕竟巧妇难为无米之炊。而且数据量越大越全,机器学习挖掘出来的规律就越精准,甚至可以找出一些更微妙的数据。

生活中的机器学习

统计学中的找规律

如果你是计算机相关专业或者数学专业的同学,应该还记得大学的时候学过的两门学科:概率论和数理统计,概率论就是机器学习的基石,而数理统计就是从数据中找规律。

传统的统计学在统计过程中,最鸡肋的地方就是它的计算能力,人们主要靠得是手算或者计算器,近些年才利用计算机进行计算。

对于计算机来说,比如计算十万个数字的均值,简直是小菜一碟,可以做到秒出结果,所以统计学在早期数据中寻找规律是依赖于采样的技术。

比如上面提到的求十万个数字的平均数,我无法进行运算时,我通过采样100个数字来求平均值,获得结果后再反作用于那十万个数据的整体。

那这样得出的结论是否靠谱呢?这时候就需要验证你的方法了。

所以传统的统计学找规律游戏主要分成以下四个步骤:

  • 抽样
  • 根据抽样结果做描述统计
  • 得到结论
  • 假设检验

机器学习中的找规律

而在 IT 时代,甚至在大数据时代,我们就不会像统计学的方式那么傻的去耗时耗力,而且结果的准确性还不高。

我们现在的单机计算能力足够强大,数据量单机无法计算时,何况我们还有集群的解决方案,这样我们就不需要去做抽样的处理,直接把所有数据进行处理,丢到集群里去跑。

典型应用

机器学习和数据分析

常用算法

这个段落主要介绍机器学习常用到的十大算法,后面会在《机器学习进阶篇》中有详细的案例和介绍。

  • 决策树
  • 随机森林算法
  • 逻辑回归
  • SVM
  • 朴素贝叶斯
  • K最近邻算法
  • K均值算法
  • Adaboost 算法
  • 神经网络
  • 马尔可夫

解决问题