搜索
写经验 领红包
 > 影视

大数据面试介绍(大数据面试技巧)

导语:大数据面试题分享-恭喜这位朋友刚毕业拿到了20K

找工作的同学有福气啦!真实大数据面试经验分享系列文章逐步上线,欢迎持续关注!

某网

一位朋友的面经,恭喜他拿到了高薪的 offer。

1、介绍项目

2、redis用过吗

谈谈redis吧

键值分别是什么,用的什么数据结构

谈谈redis的三种模式,你们用的什么模式

3、kafka

kafka+sparkstream的两种模式,有什么区别

direct模式如果偏移量是自己维护吗,如果来了一批数据还没有消费完,下一批就来了,如何保证每消费完的那一部分数据不会丢失

你们kafka里面一个topic下面设置了多少个patition,每个patition多少副本

假如让你设计一个线程安全的kafka消费模型,怎么设置,可以把它放在什么数据结构中

4、hbase

你们region一般设置多少个

假如我要scan一张表,在hbase里面的流程是什么样的(要注意把region的寻址也说出)

hbase你们一般读操作多还是写操作多还是混合操作

5、hive

hive分层

6、spark

spark优化

spark shuffle的种类,分别有什么区别

spark MLlib用过什么库

spark里面的数据模型

spark中job是怎么回事,是怎么划分的

spark任务的执行流程

7、storm与sparkstream对比

8、es了解吗,它比solr好在哪里,底层是什么

9、JVM了解多少

spark统一内存管理中,存储内存和执行内存占的比例,执行内存占用资源后,存储内存还可以拿回去吗

10、java:

spring的aop、ioc

springmvc处理一个请求的流程是什么样的

springmvc用了什么设计模式

arrayList底层是什么?与linkList对比

线程池用的多吗?怎么得到一个带返回值的线程

--------------------------------------------

11、hashmap的原理又被问到了,怎么防止hashmap的碰撞问题

12、写个冒泡排序?快排是什么样的

13、说说spark的RDD

14、hdfs有什么结构

15、hive的优化

16、hbase的rowkey设计

17、kafka的数据丢失和重复消费问题

18、jvm中新生代跟老年代的比例

19、线程有什么状态

20、flume有没有碰到过收集到重复数据的问题,怎么解决呢

21、sqoop从两台不同的服务器拉数据的时候,万一服务器时间不同步会有什么情况

22、dubbo是干什么用的,怎么用

本文内容由快快网络小鸣整理编辑!