统计学和机器学习到底有什么区别？

发布时间：2019-04-24 00:35:17 所属栏目：经验来源：medium 编译：周家乐、狗小白、蒋宝尚统计学和机器学习

导读：大数据文摘出品来源：medium 编译：周家乐、狗小白、蒋宝尚统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。而机器学习支撑的人工智能也被称为统计学的外延例如，诺奖得主托马斯萨金特曾经

统计学习理论中的监督学习，给了我们一个数据集，我们将其标为S= {(xᵢ,yᵢ)}，也就是说我们有一个包含N个数据点的数据集，每个数据点由被称为“特征”的其它值描述，这些特征用x描述，这些特征通过特定函数来描绘以返回我们想要的y值。

已知这个数据集，问如何找到将x值映射到y值的函数。我们将所有可能的描述映射过程的函数集合称为假设空间。

为了找到这个函数，我们需要给算法一些方法来“学习”如何最好地着手处理这个问题，而这由一个被称为“损失函数”的概念来提供。因此，对我们所有的每个假设(也即提议的函数)，我们要通过比较所有数据下其预期风险的值来衡量这个函数的表现。

预期风险本质上就是损失函数之和乘以数据的概率分布。如果我们知道这个映射的联合概率分布，找到最优函数就很简单了。但是这个联合概率分布通常是未知的，因此我们最好的方式就是猜测一个最优函数，再实证验证损失函数是否得到优化。我们将这种称为实证风险。

之后，我们就可以比较不同函数，找出最小预期风险的那个假设，也就是所有函数中得出最小下确界值的那个假设。

然而，为了最小化损失函数，算法有通过过度拟合来作弊的倾向。这也是为什么要通过训练集“学习”函数，之后在训练集之外的数据集，测试集里对函数进行验证。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!