留学资讯 一手掌握

洋蜜蜂:数据科学家必备的10种基本技能

时间: 2020-10-15 文章来源: 洋蜜蜂Online Tutor

数据科学作为一个大领域,包含了一些细分领域,作为代表的有:数据准备和探索,数据表示和转换,数据可视化和表示,预测分析和机器学习等,掌握这些技能是否能成为一名数据科学家么?本文洋蜜蜂将带你讨论实践数据科学家必需的10种基本技能。

 

这些技能可以分为两类,即 技术技能 (数学和统计,编码技能,数据整理和预处理技能,数据可视化技能,机器学习技能和现实世界项目技能)和 软技能 (通信技能,终身学习)技能,团队合作伙伴技能和道德技能)。

 

数据科学是一个不断发展的领域,但是掌握数据科学的基础将为您提供追求高级概念(如深度学习,人工智能等)所需的必要背景。本文将讨论以下10个基本技能:从事数据科学家工作。

 

1.数学与统计技能

i)统计和概率

统计和概率用于特征的可视化,数据预处理,特征转换,数据归因,降维,特征工程,模型评估等。这是您需要熟悉的主题:

1.平均值

2.中位数

3.方法

4.标准偏差/方差

5.相关系数和协方差矩阵

6.概率分布(二项式,泊松,正态)

7.p值

8.MSE(均方误差)

9.R2分数

10.贝叶斯定理(精度,召回率,正预测值,负预测值,混淆矩阵,ROC曲线)

11.A / B测试

 

l)蒙特卡洛模拟

ii)多变量微积分

大多数机器学习模型都是使用具有多个功能或预测变量的数据集构建的。因此,熟悉多变量演算对于建立机器学习模型非常重要。这是您需要熟悉的主题:

1.几个变量的功能

2.导数和梯度

3.阶跃函数,Sigmoid函数,Logit函数,ReLU(整流线性单元)函数

4.成本函数

5.功能图

6.函数的最小值和最大值

 

iii)线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵。线性代数用于数据预处理,数据转换和模型评估。以下是您需要熟悉的主题:

1.向量

2.矩阵

3.转置矩阵

4.矩阵的逆

5.矩阵的行列式

6.点积

7.特征值

8.特征向量 

iv)优化方法

大多数机器学习算法通过最小化目标函数来执行预测建模,从而学习必须应用于测试数据的权重才能获得预测标签。以下是您需要熟悉的主题:

1.成本函数/目标函数

2.似然函数

3.错误功能

4.梯度下降算法及其变体(例如,随机梯度下降算法)

 

在此处找到有关梯度下降算法的更多信息: 机器学习:梯度下降算法的工作原理。

 

2.基本的编程技巧

编程技能在数据科学中至关重要。由于Python和R被认为是数据科学中最流行的两种编程语言,因此这两种语言的基本知识至关重要。一些组织可能只需要R或Python的技能,而不是两者都需要。

i)Python技能 

熟悉python的基本编程技能。这是您应该掌握如何使用的最重要的软件包:

1.Numpy

2.Pandas

3.Matplotlib

4.Seaborn

5.Scikit-learn

6.PyTorch

  

ii)R技能

1.Tidyverse

2.Dplyr

3.Ggplot2

4.Caret

5.Stringr


iii)其他编程语言的技能

一些组织或行业可能需要以下编程语言的技能:

1.Excel

2.Tableau

3.Hadoop

4.SQL

5.Spark

  

3.数据整理和预处理技巧

数据是数据科学中任何分析的关键,无论是推理分析,预测分析还是说明性分析。模型的预测能力取决于用于构建模型的数据的质量。数据以不同的形式出现,例如文本,表格,图像,语音或视频。通常,必须对用于分析的数据进行挖掘,处理和转换,以使其形成适合进一步分析的形式。

i) 数据整理:数据整理的过程对于任何数据科学家而言都是至关重要的一步。在数据科学项目中很难轻易访问数据进行分析。数据更有可能位于文件,数据库中,或者从网页,推文或PDF等文档中提取。了解如何处理和清理数据将使您能够从数据中获得关键的见解,而这些见解会被隐藏。


ii) 数据预处理:关于数据预处理的知识非常重要,其中包括以下主题:

①.处理丢失的数据

②.数据估算

③.处理分类数据

④.编码分类问题的类标签

⑤.特征变换和降维的技术,例如主成分分析(PCA)和线性判别分析(LDA)。

  

4.数据可视化技巧

了解良好的数据可视化的基本组成部分。

①.数据组件:决定如何可视化数据的重要第一步是了解数据是什么类型的数据,例如分类数据,离散数据,连续数据,时间序列数据等。

②.几何成分: 在这里您可以决定哪种可视化形式适合您的数据,例如散点图,线图,条形图,直方图,qqplots,平滑密度,箱形图,成对图,热图等。

③.映射组件: 在这里,您需要确定将哪个变量用作x变量,将哪些变量用作y变量。这很重要,尤其是当您的数据集是具有多个要素的多维数据集时。

④.比例尺组件: 在这里您可以决定使用哪种比例尺,例如线性比例尺,对数比例尺等。

⑤.标签组件:包括轴标签,标题,图例,要使用的字体大小等内容。

⑥.道德要素:在这里,您要确保您的可视化能够讲出真实的故事。在清理,汇总,操作和生成数据可视化文件时,您需要了解自己的操作,并确保您不会使用可视化文件来误导或操纵观众。

 

5.基本的机器学习技能

机器学习是数据科学的一个非常重要的分支。了解机器学习框架很重要:问题框架,数据分析,模型构建,测试和评估以及模型应用。从此处查找有关机器学习框架的更多信息: 机器学习过程。

以下是要熟悉的重要机器学习算法。

i)监督学习(连续变量预测)

a)基本回归

b)多元回归分析

c)正则回归

ii)监督学习(离散变量预测)

a)Logistic回归分类器

b)支持向量机分类器

c)K近邻(KNN)分类器

d)决策树分类器

e)随机森林分类器

iii)无监督学习

a)KMeans聚类算法

 

6.现实世界的顶点数据科学项目的技能

仅从课程工作中获得的技能不会使您成为数据科学家。合格的数据科学家必须能够证明成功完成了一个现实世界的数据科学项目的证据,该项目包括数据科学和机器学习过程的每个阶段,例如问题框架,数据采集和分析,模型构建,模型测试,模型评估,并部署模型。现实世界中的数据科学项目可以在以下位置找到:

a)Kaggle项目

b)实习

c)采访中

 

7.沟通技巧

数据科学家需要能够与团队的其他成员或组织中的业务管理员交流他们的想法。良好的沟通技巧将在这里发挥关键作用,以便能够向很少或根本不了解数据科学技术概念的人们传达和展示非常技术性的信息。良好的沟通能力将有助于与其他团队成员,例如数据分析师,数据工程师,现场工程师等,形成团结和团结的氛围。

 

8.成为终身学习者

数据科学是一个不断发展的领域,因此请准备好接受和学习新技术。与该领域的发展保持联系的一种方法是与其他数据科学家建立网络。某些促进联网的平台包括LinkedIn,GitHub和Medium(面向数据科学 和 面向AI的出版物)。该平台对于获取有关该领域最新动态的最新信息非常有用。

 

9.团队合作精神

作为数据科学家,您将在数据分析师,工程师,管理员的团队中工作,因此您需要良好的沟通技巧。您也需要成为一个好的倾听者,尤其是在项目开发的早期阶段,您需要依靠工程师或其他人员来设计和构筑一个好的数据科学项目。成为优秀的团队合作者将帮助您在商业环境中蓬勃发展,并与团队中的其他成员以及组织的管理员或董事保持良好的关系。

 

10.数据科学中的道德技能

了解您的项目的含义。对自己诚实。避免操纵数据或使用有意产生结果偏差的方法。从数据收集和分析到模型构建,分析,测试和应用的各个阶段,都要遵守道德规范。避免出于误导或操纵观众的目的捏造结果。解释数据科学项目的发现时要有道德。

 

总而言之,我们讨论了实践数据科学家所需的10种基本技能。数据科学是一个不断发展的领域,但是掌握数据科学的基础将为您提供追求高级概念(如深度学习,人工智能等)所需的必要背景。

 

海外留学学不会?洋蜜蜂在线来帮你。专业在线辅导:数学Mathematics、物理physics、化学chemistry、生物biological sciences、地球科学earth scaiences、计算机科学computer sciences、医学medicine、工程学Engineering、会计Accounting、统计学statistics、精算科学Actuarial Science等涵盖大学90%以上科目均有专业数据科学Tutor给您在线辅导。