大数据面试介绍(大数据面试技巧)
导语:大数据面试题分享-恭喜这位朋友刚毕业拿到了20K
找工作的同学有福气啦!真实大数据面试经验分享系列文章逐步上线,欢迎持续关注!
某网一位朋友的面经,恭喜他拿到了高薪的 offer。
1、介绍项目
2、redis用过吗
谈谈redis吧
键值分别是什么,用的什么数据结构
谈谈redis的三种模式,你们用的什么模式
3、kafka
kafka+sparkstream的两种模式,有什么区别
direct模式如果偏移量是自己维护吗,如果来了一批数据还没有消费完,下一批就来了,如何保证每消费完的那一部分数据不会丢失
你们kafka里面一个topic下面设置了多少个patition,每个patition多少副本
假如让你设计一个线程安全的kafka消费模型,怎么设置,可以把它放在什么数据结构中
4、hbase
你们region一般设置多少个
假如我要scan一张表,在hbase里面的流程是什么样的(要注意把region的寻址也说出)
hbase你们一般读操作多还是写操作多还是混合操作
5、hive
hive分层
6、spark
spark优化
spark shuffle的种类,分别有什么区别
spark MLlib用过什么库
spark里面的数据模型
spark中job是怎么回事,是怎么划分的
spark任务的执行流程
7、storm与sparkstream对比
8、es了解吗,它比solr好在哪里,底层是什么
9、JVM了解多少
spark统一内存管理中,存储内存和执行内存占的比例,执行内存占用资源后,存储内存还可以拿回去吗
10、java:
spring的aop、ioc
springmvc处理一个请求的流程是什么样的
springmvc用了什么设计模式
arrayList底层是什么?与linkList对比
线程池用的多吗?怎么得到一个带返回值的线程
--------------------------------------------
11、hashmap的原理又被问到了,怎么防止hashmap的碰撞问题
12、写个冒泡排序?快排是什么样的
13、说说spark的RDD
14、hdfs有什么结构
15、hive的优化
16、hbase的rowkey设计
17、kafka的数据丢失和重复消费问题
18、jvm中新生代跟老年代的比例
19、线程有什么状态
20、flume有没有碰到过收集到重复数据的问题,怎么解决呢
21、sqoop从两台不同的服务器拉数据的时候,万一服务器时间不同步会有什么情况
22、dubbo是干什么用的,怎么用
本文内容由快快网络小鸣整理编辑!