时间: 2020-10-03 文章来源: 洋蜜蜂Online Tutor
对于复杂的回归模型中串行相关性的掌握对大部分学生来说是一件头疼的事情,下面想大家介绍一个简单的技巧,带你玩转删除回归模型中串行相关性。
如果误差项(残差)是自动相关的,则您不能相信对数据执行的线性或逻辑回归。有多种方法可以使观测值不相关,但是它们通常涉及引入新的矩阵来解决由此产生的 偏差 。例如在这里看到。
线性回归 的要求
根本不同且简单得多的方法是随机重新排列观察值。如果不能解决问题(重新关联后自相关减弱,但仍然很重要),则意味着数据集可能存在根本性的错误,也许与收集数据的方式有关。在那种情况下,清除数据或获取新数据是解决方案。但是通常,重新改组(如果随机进行)将消除这些讨厌的相关性。
诀窍
改组操作如下:
在您的数据集中添加一列,其中包括伪随机数,例如用 EXCEL 中的RAND函数生成的列。
根据新添加的列中的值对整个数据集(所有列,再加上包含伪随机数的新列)进行排序。
然后再次进行回归,并查看模型性能的改进。R平方可能不是一个好的指标,但是应该使用基于交叉验证的技术。
实际上,任何观察顺序无关紧要的回归技术都不会对这些自相关敏感。如果您要坚持使用基于矩阵的标准回归技术,然后将所有观察值重新组合10次(以生成10个新数据集,每个数据集具有相同的观察值,但排序方式不同)。然后,您将获得10种不同的估计和预测变量集:每个数据集一个。您可以比较它们;如果它们之间存在显着差异,则您的数据中会有问题,除非需要进行自相关,如 时间序列 模型中那样(在这种情况下,您可能仍想使用其他技术,例如适用于 时间序列 的技术,请参见此处。 )。
测试观测值中的自相关
如果您有n个观测值和p个变量,则没有全局自相关系数可测量一个观测值与下一个观测值之间的关联。一种方法是分别对每个变量(列)进行计算。这将为您提供p lag-1自相关系数。然后,您可以查看这些p中的最小值(绝对值高吗?)或最大值(绝对值高)?系数。您还可以检查lag-2,lag-3自相关等。尽管观测值之间的自相关与残差之间的自相关并不相同,但是它们是关联的,它仍然是衡量数据质量的有用指标。例如,如果数据来自采样并且由连续的观察数据块组成,每个数据块对应一个段,那么您可能会在观察数据和残差中找到自相关。或者,如果出现数据故障并且某些观察值重复,则您可能会遇到相同的问题。
海外留学学不会?洋蜜蜂在线来帮你。专业在线辅导:数学Mathematics、物理physics、化学chemistry、生物biological sciences、地球科学earth scaiences、计算机科学computer sciences、医学medicine、工程学Engineering、会计Accounting、统计学statistics、精算科学Actuarial Science等涵盖大学90%以上科目均有专业回归模型Tutor给您在线辅导。