大数据面试介绍(大数据面试技巧)

导语：大数据面试题分享-恭喜这位朋友刚毕业拿到了20K

找工作的同学有福气啦！真实大数据面试经验分享系列文章逐步上线,欢迎持续关注！

某网

一位朋友的面经，恭喜他拿到了高薪的 offer。

1、介绍项目

2、redis用过吗

谈谈redis吧

键值分别是什么，用的什么数据结构

谈谈redis的三种模式，你们用的什么模式

3、kafka

kafka+sparkstream的两种模式，有什么区别

direct模式如果偏移量是自己维护吗，如果来了一批数据还没有消费完，下一批就来了，如何保证每消费完的那一部分数据不会丢失

你们kafka里面一个topic下面设置了多少个patition，每个patition多少副本

假如让你设计一个线程安全的kafka消费模型，怎么设置，可以把它放在什么数据结构中

4、hbase

你们region一般设置多少个

假如我要scan一张表，在hbase里面的流程是什么样的（要注意把region的寻址也说出）

hbase你们一般读操作多还是写操作多还是混合操作

5、hive

hive分层

6、spark

spark优化

spark shuffle的种类，分别有什么区别

spark MLlib用过什么库

spark里面的数据模型

spark中job是怎么回事，是怎么划分的

spark任务的执行流程

7、storm与sparkstream对比

8、es了解吗，它比solr好在哪里，底层是什么

9、JVM了解多少

spark统一内存管理中，存储内存和执行内存占的比例，执行内存占用资源后，存储内存还可以拿回去吗

10、java：

spring的aop、ioc

springmvc处理一个请求的流程是什么样的

springmvc用了什么设计模式

arrayList底层是什么？与linkList对比

线程池用的多吗？怎么得到一个带返回值的线程

--------------------------------------------

11、hashmap的原理又被问到了，怎么防止hashmap的碰撞问题

12、写个冒泡排序？快排是什么样的

13、说说spark的RDD

14、hdfs有什么结构

15、hive的优化

16、hbase的rowkey设计

17、kafka的数据丢失和重复消费问题

18、jvm中新生代跟老年代的比例

19、线程有什么状态

20、flume有没有碰到过收集到重复数据的问题，怎么解决呢

21、sqoop从两台不同的服务器拉数据的时候，万一服务器时间不同步会有什么情况

22、dubbo是干什么用的，怎么用

本文内容由快快网络小鸣整理编辑！