留学资讯 一手掌握

洋蜜蜂:有关数据科学的深度学习

时间: 2020-10-15 文章来源: 洋蜜蜂Online Tutor

洋蜜蜂将通过一些简单的实验,分享一些数据科学的知识与经验带你深入了解数据科学存在的具体意义。

 

自人类首次进行实验并记录数据以来,数据科学就已经存在。只是自从大数据和异构数据问世以来,才创造了“数据科学”一词。有着如此漫长而多样的历史,该领域应受益于来自不同领域的从业者所带来的多种多样的观点

 

我自己的道路始于信号分析,当时正在构建高速干涉光子计数系统,在那里我的“数据科学”以信噪比和信息编码为主导。

 

这方面的关键方面是数据科学被用于扩展或修改我们对物理系统的知识(理解)。后来,我的数据科学工作集中于随机动力学系统。尽管所采用的技术和工具与信号分析所使用的技术和工具不同,但目标仍然相同。

 

今天,通常被称为数据科学的知识与我的经验相差180度。不是扩展或修改系统知识,而是使用数据科学直接从数据推断潜在系统或潜在系统族。这种差异通常被描述为探索性与确认性,但我更喜欢使用学习与知识。

 

认识论的主要区别在于,知识是改变或增进理解的过程,而学习是获得新的或改变行为或偏好的过程。这是很自然的顺序,学习必须继续知识,深度学习可以带来深度知识。

 

不幸的是,如果没有通用AI,这一步骤既不简单,也不能仅通过当前的数据科学工具来完成。缺乏深厚的知识可能会使公司面临相当大的风险,不了解底层系统的细节会严重限制公司预测所推断的系统将如何对现实世界的变化做出反应或一旦发生变化如何做出反应的能力。

 

特别地,“学习系统”可能仅对有限的一组实际条件有效。一些重要因素可能无法确定,因为在抽样时,它们受到外部市场力量的约束,使其显得不重要。

 

可怕的现实是,底层系统可能与反馈回路呈非线性关系,并且当释放约束因素时,模型可能会爆炸。不了解底层系统的细节会严重限制公司预测所推断的系统将如何对现实世界的变化做出反应或一旦发生变化如何做出反应的能力。

 

为了说明,我将使用一个简单的思想实验,形象化客户满意度领域。

 

应用当前的机器学习技术,该领域可以最好地由3个集群表示。我们假定集群中的所有客户都是相同的,因为它们当前在域中占据相同的区域。

 

注意上一句话中的当前单词,这很重要,因为在进行数据采样时,一些不明身份的市场力量将个人限制在集群中。我们不知道(知识,理解)它们是如何被限制的。虽然集群的凝聚力会随着时间自然下降,但我主要对消除市场力量约束后对集群成员的直接影响感兴趣。

 

假设个人由映射到客户满意度域的多维效用函数表示。此功能包含非线性功能和许多反馈回路,这些回路可能是负值,正值或取决于市场条件。为了说明这一点,让我们考虑双曲线贴现,这是行为经济学中公认的非线性特征。作为指数,市场利率的微小变化会导致价值观念的巨大变化。

 

每个人都有不同的反应,从几乎没有反应到消费和投资行为的急剧变化。利率变化可能会极大地改变集群成员。在正常的宏观经济情况下,双曲线贴现将是主要组成部分,并且在同一集群中将不会包含相差很大的响应函数。但是,正常情况是什么?与我们的抽样相比,金融危机导致在很长的统计时间内利率极低且稳定。如果没有利率变化和波动性,双曲线贴现将显得稳定,几乎没有影响,甚至不会被机器学习所忽略。

 

至关重要的功能未包含在学习算法中,因为该算法无法将其识别为重要。由于模型中不包含利率和双曲线贴现,因此,数据科学家很难理解市场利率变化时发生了什么或如何调整模型。

 

进行深度知识开发的最佳方法是首先将ML模型视为大量互动客户发出的紧急行为的产物。这意味着从相反的方向,即个人客户,了解ML模型。这种观点是基于代理建模的领域。该策略是迭代地操纵控制代理行为的参数和方程,直到我们能够生成创建相同ML模式的紧急行为为止。

 

大量的功能和大量的控制方程将导致潜在的大量生成相同ML伪像的代理配置。分析这些配置将为ML模型的动态性质提供深刻的见解和理解,但是,必须确定最接近实际的配置。我认为,在替代方案中进行选择的最佳区分因素是最大熵。一旦确定了最佳的基于代理的模型,敏感性分析将提供巨大的洞察力,以了解市场力量变化的潜在影响。这些见解将为组织带来巨大的竞争优势。

 

海外留学学不会?洋蜜蜂在线来帮你。专业在线辅导:数学Mathematics、物理physics、化学chemistry、生物biological sciences、地球科学earth scaiences、计算机科学computer sciences、医学medicine、工程学Engineering、会计Accounting、统计学statistics、精算科学Actuarial Science等涵盖大学90%以上科目均有专业数据科学Tutor给您在线辅导。