關(guān)于海量數(shù)據(jù)處理的面試題
關(guān)于海量數(shù)據(jù)處理的面試題
面試由于它的靈活性和有效性常被運(yùn)用招聘中。那關(guān)于海量數(shù)據(jù)處理的一些面試題有哪些呢?下面是學(xué)習(xí)啦小編為你整理的海量數(shù)據(jù)處理的一些面試題,希望對(duì)你有幫助。
海量數(shù)據(jù)處理的面試題
在處理海量數(shù)據(jù)問(wèn)題時(shí),首先要仔細(xì)分析問(wèn)題,明白問(wèn)題需要解決那些關(guān)鍵問(wèn)題,明白需要達(dá)到怎樣的存儲(chǔ)、性能要求,在這之前,應(yīng)充分理解業(yè)務(wù)數(shù)據(jù)的分布、數(shù)據(jù)粒度、數(shù)據(jù)服務(wù)的質(zhì)量要求、數(shù)據(jù)的動(dòng)態(tài)性、數(shù)據(jù)的關(guān)聯(lián)性等真實(shí)數(shù)據(jù)、業(yè)務(wù)熟悉。通常,處理海量數(shù)據(jù)問(wèn)題時(shí),心中要有一些基本概念:
1. 現(xiàn)有的開(kāi)源的優(yōu)秀工具那些是處理海量數(shù)據(jù)的;
2. 海量數(shù)據(jù)就因?yàn)閿?shù)據(jù)大嗎,可以考慮對(duì)海量數(shù)據(jù)進(jìn)行分區(qū)操作;
3. 加快海量數(shù)據(jù)的訪(fǎng)問(wèn),數(shù)據(jù)索引必不可是;
4. 內(nèi)存總是有限的,內(nèi)存的速度是最好的,建立緩存機(jī)制是十分必要的;
5. 海量數(shù)據(jù)來(lái)源多樣,數(shù)據(jù)格式也不相同,最好是統(tǒng)一為字符串處理,邏輯處理交給上層應(yīng)用;
6. 海量數(shù)據(jù)離不開(kāi)集群、分布式,分布式的出錯(cuò)處理、負(fù)載均衡就必然要有一套可行的機(jī)制;
7. 所有底層的問(wèn)題或者說(shuō)存儲(chǔ)的問(wèn)題解決了,未來(lái)方便上層應(yīng)用或者夸大底層支持的業(yè)務(wù),對(duì)外應(yīng)該有一個(gè)明朗的邏輯視圖;
8. 系統(tǒng)設(shè)計(jì)和結(jié)構(gòu),會(huì)因?yàn)椴煌恼Z(yǔ)言、操作性在實(shí)現(xiàn)難以上不同,這也需要考慮;
9. 海量數(shù)據(jù)的一個(gè)應(yīng)用就是數(shù)據(jù)挖掘服務(wù),多域數(shù)據(jù)來(lái)源統(tǒng)一管理下,數(shù)據(jù)倉(cāng)庫(kù)和相關(guān)計(jì)算也應(yīng)該了解一二;
10. 盡管說(shuō)存儲(chǔ)不是問(wèn)題,如果能對(duì)數(shù)據(jù)進(jìn)行壓縮處理,又可以接受的性能,這何樂(lè)而不為呢。
在參考前人博客、文摘加上個(gè)人一點(diǎn)理解,匯總以下一些基礎(chǔ)概念已幫助和我一樣面臨就業(yè)的學(xué)生,應(yīng)對(duì)未來(lái)公司的面試考核。當(dāng)然,有實(shí)際工作經(jīng)驗(yàn)的大牛門(mén)來(lái)說(shuō),下面的問(wèn)題早已不是問(wèn)題,他們都在某個(gè)問(wèn)題上是專(zhuān)家了。歡迎大牛指導(dǎo)!
具有通用性的數(shù)據(jù)結(jié)構(gòu)和算法思路匯總有:
1. Bloom filter
2. Hashing
3. bit-map
4. 堆
5. 雙層桶劃分,可以理解為多級(jí)索引
6. 數(shù)據(jù)庫(kù)索引
7. 倒排索引(Inverted index)
8. 外排序
9.trie樹(shù)
10.分布式處理
看過(guò)“關(guān)于海量數(shù)據(jù)處理的面試題”的人還看了:
1.面試數(shù)據(jù)分析師常見(jiàn)的面試問(wèn)題