大數據時代,許多工作都要依靠海量的數據,尤其是IT行業(yè),那么做大數據工程師需要掌握哪些呢?以下就是一些大數據面試題:
1、怎么解決kafka的數據丟失
2、fsimage和edit的區(qū)別?
3、列舉幾個配置文件優(yōu)化?
4、datanode 首次加入 cluster 的時候,如果 log 報告不兼容文件版本,那需要namenode 執(zhí)行格式化操作,這樣處理的原因是?
5、MapReduce 中排序發(fā)生在哪幾個階段?這些排序是否可以避免?為什么?
6、hadoop的優(yōu)化?
7、采集nginx產生的日志,日志的格式為user ip time url htmlId 每天產生的文件的數據量上億條,請設計方案把數據保存到HDFS上,并提供一下實時查詢的功能(響應時間小于3s)
8、有 10 個文件,每個文件 1G,每個文件的每一行存放的都是用戶的 query,每個文件的query 都可能重復。要求你按照 query 的頻度排序。 還是典型的 TOP K 算法,
9、在 2.5 億個整數中找出不重復的整數,注,內存不足以容納這 2.5 億個整數。
10、騰訊面試題:給 40 億個不重復的 unsigned int 的整數,沒排過序的,然后再給一個數,如何快速判斷這個數是否在那 40 億個數當中?
相關推薦:
更多內容
>>本文地址:http://www.jecan.cn/jiuye/2019/47376.html
聲明:本站稿件版權均屬中公教育優(yōu)就業(yè)所有,未經許可不得擅自轉載。
1 您的年齡
2 您的學歷
3 您更想做哪個方向的工作?