搜索
写经验 领红包

中信银行大数据岗位面试题及答案(中信银行大数据岗位面试题目)

导语:中信银行大数据岗位面试题

中信银行

学长2

(1)数据采集框架选型你做了什么,担任什么角色 ? 为什么这么选?

(2)你理解数仓需要什么 ? 哪些是必要的?可以结合你们的数仓讲讲

(3)canal高并发下会不会丢数据 ?讲讲canal 的架构 ,组件 , 和你对它的理解 ? innodb 和 myisam。使用canal有啥区别 ?

(4)sparksql怎么解析sql的?比如求一张表,subject,grade,求各个学科的最大值

学长3 数仓岗外包

采集数据时 ,数据经历了两层flume, 多次切分传输 速度不会慢嘛 。kafka的传输速度是多少?

学长4

(1)自我介绍一下

(2)Flink和SparkStreaming有什么区别?

(3)为什么SparkStreaming是微批次的?为什么它不能够做成实时处理的呢?

(4)SparkStreaming生成作业和提交作业的流程是怎么样的?(不是Spark的执行流程)

(5)SparkStreaming是如何拉取数据,协调和分配任务给Executor去执行?

(6)SparkStreaming从kafka拉取过来的数据是存到哪里呢?在整个过程中Driver起到什么作用呢?

(7)kafka的分区分配策略

(8)kafka的分区分配是哪个组件在做的?

(9)HBase的读写流程是怎样的?

(10)WAL是一定要写入的吗?不写入会有什么问题?

(11)HBase一个节点挂掉之后是如何进行故障恢复的?

(12)HMaster可以高可用吗?高可用之后我怎么知道我要连接哪个Master呢?

(13)多个Master同时工作的话,如何确定哪个是主的Master?

(14)Zookeeper是如何对大数据组件进行中央协调工作的?

(15)Zookeeper集群是如何做到数据的一致性的?

(16)Zookeeper的选举机制介绍一下?leader挂掉之后是如何进行重新恢复的?

(17)常用的Maven命令有哪些?使用遇到过Jar包冲突的问题?怎么解决的?如何查看包之间的依赖关系?

(18)是否使用过Spring和SpringBoot?

本文内容由快快网络小信整理编辑!