搜索
写经验 领红包

数据科学面试(常见的数据科学家面试77个问题)

导语:20最受欢迎的数据科学面试问题

1.特征向量是什么?

特征向量是表示某个物体的数字特征的n维向量。在机器学习中,特征向量被用来表示数字或符号特征,即所谓的特征,在数学上,容易分析的方式。

2.解释制作决策树的步骤。

将整个数据集作为输入。

寻找一个能最大程度地分离类的分割。分割是将数据分为两组的任何测试。

将分割应用于输入数据(分步骤)。

重新应用步骤1到2的分割数据。

当你遇到一些停止标准时停止。

这一步被称为修剪。如果你分裂得太过分,清理树。

3。什么是根本原因分析?

根本分析最初是用来分析工业事故的,但现在广泛应用于其他领域。它是一种解决故障或问题根源的解决问题的技术。一个因素被称为一个根本原因,如果它从问题-错误序列的演绎避免了最后的不良事件再次发生。

4。逻辑回归是什么?

逻辑回归也称为logit模型。这是一种通过预测变量的线性组合来预测二进制结果的技术。

5。推荐系统是什么?

推荐系统是信息过滤系统的一个子类,用来预测用户对产品的偏好或评级。

6。解释交叉验证。

它是一种模型验证技术,用于评估统计分析的结果如何推广到独立的数据集。它主要用于预测目标的背景,并希望评估模型在实践中能够准确完成的程度。交叉验证的目标是在训练阶段(即验证数据集)中对数据集进行术语测试,以限制诸如过度拟合之类的问题,并了解模型将如何推广到独立的数据集。

7。协同过滤是什么?

大多数推荐系统使用的过滤过程,通过协作的透视图、大量的数据源和几个代理来查找模式和信息。

8.梯度下降法在任何时候都会收敛到类似的点吗?

不,它们并不是因为在某些情况下它们达到局部最小值或局部最优值。你不会到达全局最优点。这是由数据和起始条件决定的。

9。A/B测试的目标是什么?

这是一个关于两个变量,a和B的随机实验的统计假设检验。a /B测试的目的是检测网页的任何变化,以最大化或增加策略的结果。

10。线性模型的缺点是什么?

线性模型的一些缺点是:

错误的线性假设。

它不能用于计算结果或二进制结果。

有些过度拟合的问题是无法解决的。

11.什么是大数定律?

这是一个定理,它描述了大量次执行相同实验的结果。这个定理构成了频率式思维的基础。它表示样本均值,样本方差和样本标准差收敛于他们试图估计的值。

12.什么是混肴变量?

这些是统计模型中的无关变量,与相关变量和自变量直接相关或相反。该估计未能解释混淆因素。

13.解释星型模式。

这是一个带有中心表的传统数据库模式。卫星表将ID映射到物理名称或描述,并可使用ID字段连接到中心事实表; 这些表称为查找表,主要用于实时应用程序,因为它们可以节省大量内存。有时,星型模式涉及几层摘要以更快地恢复信息。

14.算法如何定期更新?

在下列情况下您将需要更新算法:

您希望模型能够通过基础架构发展为数据流

基础数据源正在改变

有一种非平稳的情况

15.什么是特征值和特征向量?

特征向量用于理解线性变换。在数据分析中,我们通常计算相关或协方差矩阵的特征向量。特征值是特定线性变换通过翻转,压缩或拉伸而沿着其行进的方向。

16.为什么重采样?

重采样在以下任何情况下完成:

通过使用可访问数据的子集或通过从一组数据点进行替换来随机抽取,估计样本统计的准确性

在进行显着性检验时用数据点上的标签代替

通过使用随机子集验证模型(重采样,交叉验证)

17.解释选择性偏差。

一般而言,选择性偏差是由于非随机总体样本引入误差的问题情况。

18.在抽样过程中会出现哪些类型的偏差?

选择性偏差

覆盖面偏差

幸存者偏差

19.解释幸存者偏差。

这是聚焦方面的一个逻辑错误,它支持在某个过程中生存下来,并随意忽略那些不是因为它们缺乏突出的东西。这可能导致许多不同手段的错误结论。

20.你如何实现随机森林?

这种技术的基本原理是几个弱学习者结合起来提供一个强大的学习者。涉及的步骤是

在引导的数据训练样本上构建几个决策树

在每棵树上,每次考虑拆分时,都会选择一个随机样本的mm预测器作为拆分候选,从所有的pp预测器中选出。

经验法则:在每个分割m =p√m= p

预测:按照多数规则

免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小美创作整理编辑!