时间: 2020-10-08 文章来源: 洋蜜蜂Online Tutor
统计概念是每个数据科学家都应该掌握的基础。洋蜜蜂为你带来基本的统计概念理论,让你更好的了解数据科学!
数据科学是数据推理,算法开发和技术的多学科融合,旨在解决复杂的分析问题。核心是数据。大量原始信息,流式传输并存储在企业 数据仓库 中。通过挖掘可以学到很多东西。我们可以使用它构建高级功能。数据科学最终是要以创造性的方式使用这些数据来产生业务价值
了解什么数据科学包括数学,统计学,计算机科学和信息科学的更广泛领域。为了从事数据科学家的职业,您需要具有统计学和数学方面的扎实背景。大公司将始终优先考虑那些具有良好分析和统计技能的公司。
在此博客中,我们将研究每个数据科学家必须知道的基本统计概念。在下一节中,我们将逐一介绍它们。
统计在数据科学中的作用
在介绍5个最重要的统计概念之前,让我们首先尝试了解统计在数据科学中的重要性!
统计在数据科学中的作用与计算机科学一样重要。这尤其适用于 数据采集 和充实领域以及预测所需的高级建模领域。
只有将数学方法和计算算法与统计推理进行补充和/或结合,特别是针对 大数据 ,才能得出基于适当方法的科学结果。最终,只有所有相关科学之间的平衡相互作用才能导致数据科学的成功解决方案。
数据科学中的重要概念
1. 概率分布
概率分布 是描述获得随机变量可以假定的可能值的可能性的函数。换句话说,变量的值基于潜在的 概率分布 而变化。
假设您抽取一个随机样本并测量对象的高度。在测量高度时,可以创建高度分布。当您需要知道最可能出现哪些结果,潜在值的散布以及不同结果的可能性时,这种类型的分布很有用。
2. 降维
在 机器学习 分类问题中,通常基于太多因素进行最终分类。这些因素基本上是变量或 特征 。功能数量越多,越难以 可视化 训练集,然后对其进行处理。有时,大多数这些功能可能具有相关性,因此是多余的。这是 降维 算法发挥作用的地方。 降维 是通过获取一组主变量来减少所考虑的随机变量数量的过程。它包括 特征 选择和 特征提取 。
降维 的直观示例可能是一个简单的电子邮件分类问题,我们需要在其中对电子邮件是否为垃圾邮件进行分类。这可能涉及许多功能,例如电子邮件是否具有通用标题,电子邮件的内容,电子邮件是否使用模板等。但是,其中某些功能可能会重叠。在另一种情况下,即依赖湿度和降雨的分类问题,我们可以将它们组合为一个基本 特征 ,因为上述两个方面都高度相关。因此,我们可以减少此类问题中的 特征 数量。3-D分类问题可能很难 可视化 ,而我们可以将二维空间中的二维 可视化 ,而将一维问题 可视化 为简单的线条。
3.上采样和 下采样
过采样 和欠采样是 数据挖掘 和数据分析中的技术,用于修改不相等的数据类以创建统一的数据集。另外,我们可以将 过采样 和欠采样称为重采样。
当一类数据在数据样本中的代表类为少数类时, 过采样 技术可用于复制这些结果,从而在训练中获得更均匀的阳性结果。当手头的数据不足时, 过采样 很重要。流行的 过采样 技术是SMOTE(合成少数族裔 过采样 技术),它通过从少数族裔中随机出现的 特征 采样来创建合成样本。
相反,如果一类数据作为多数类的代表过多,则欠采样可能有助于平衡其与少数类的关系。当手头的数据足够时,欠采样很重要。欠采样的常见方法包括 聚类 质心和Tomek链接,这两者均针对收集的数据集中的潜在重叠 特征 以减少多数数据量。
在 过采样 和欠采样中,数据复制并不是真正有用的。通常, 过采样 是可取的,因为 过采样 会导致重要数据的丢失。当收集的数据量大于理想值时,建议进行欠采样,这可以帮助数据挖掘工具保持在有效处理范围之内。
4.贝叶斯统计
贝叶斯统计是一种将概率应用于统计问题的特殊方法。它为我们提供了数学工具来更新我们的信念。考虑到看到有关这些事件的新数据或证据,这些都是关于随机事件的。
贝叶斯推理尤其将概率解释为可信度或置信度的量度。这是个人可能对特定事件的发生拥有的一切。
我们可能对事件有先入为主的看法,但是当证据公开时,我们的看法可能会改变。贝叶斯统计为我们提供了一种将先前的信念和证据结合起来以产生新的后验信念的数学方法。
贝叶斯统计为我们提供了数学工具,可以根据新数据或证据合理地更新我们的信念。
这与另一种统计推断形式相反,称为经典统计或常客统计。假设概率是长期重复试验中特定随机事件发生的频率。
例如,当我们反复滚动一个公平的(即未加权的)六面骰子时,我们会看到骰子上的每个数字往往会出现1/6的时间。
经常性统计数据假设概率是重复试验中长期发生的随机事件。
在进行统计推断时,即从概率系统推断统计信息时,这两种方法(常客和贝叶斯方法)具有截然不同的理念。
频繁的统计数据试图通过提供估计来消除不确定性。贝叶斯统计试图通过根据新证据调整个人信念来保留和改善不确定性。
5.描述性统计
这是所有形式中最常见的形式。在业务中,它为分析师提供了业务中关键指标和度量的视图。描述性统计信息包括 探索性数据分析 , 无监督学习 , 聚类 和基本数据摘要。描述性统计数据有许多用途,最值得注意的是可以帮助我们熟悉数据集。这是任何分析的起点。通常,描述性统计数据可以帮助我们得出假设,以便稍后通过更正式的推论进行检验。
描述性统计数据非常重要,因为如果仅显示原始数据,将很难 可视化 数据显示的内容,尤其是如果有很多数据的话。因此,描述性统计使我们能够以更有意义的方式呈现数据,从而可以更简单地解释数据。例如,如果我们为某门SAT考试获得了1000个学生分数的成绩,我们可能会对这些学生的整体表现感兴趣。我们也会对商标的分布或传播感兴趣。描述性统计使我们能够做到这一点。
让我们再举一个例子,比如数据分析师可以拥有大量客户的数据。了解有关其客户的人口统计信息(例如,我们20%的客户是自雇人士)将被归类为“描述性分析”。利用有效的 可视化 工具可以增强描述性分析的信息。
概要
我们看了数据科学中的重要统计概念。统计是数据科学中的重要组成部分之一。统计和数据科学领域之间存在很多重叠之处,以至于一个学科的许多定义可以很容易地描述另一个学科。但是,实际上,这些 字段 在许多关键方面有所不同。统计是一个基于数学的领域,旨在收集和解释定量数据。相反,数据科学是一个多学科领域,它使用科学方法,过程和系统从多种形式的数据中提取知识。数据科学家使用许多学科的方法,包括统计学。但是,这些领域在其过程,研究的问题类型以及其他几个因素上有所不同。
海外留学学不会?洋蜜蜂在线来帮你。专业在线辅导:数学Mathematics、物理physics、化学chemistry、生物biological sciences、地球科学earth scaiences、计算机科学computer sciences、医学medicine、工程学Engineering、会计Accounting、统计学statistics、精算科学Actuarial Science等涵盖大学90%以上科目均有专业数据科学Tutor给您在线辅导。