Skip to content

Latest commit

 

History

History
30 lines (20 loc) · 2.11 KB

File metadata and controls

30 lines (20 loc) · 2.11 KB

本章导读

一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名。

然毕竟受文章和理论之限,本文将摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题。最后,有一点必须强调的是,全文行文是基于面试题的分析基础之上的,具体实践过程中,还是得具体情况具体分析,且各个场景下需要考虑的细节也远比本文所描述的任何一种解决方法复杂得多。

OK,若有任何问题,欢迎随时不吝赐教。谢谢。

何谓海量数据处理?

所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。

事实上,针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom Filter/Hash/Bitmap/堆/数据库或倒排索引/Trie树,针对空间,大而化小,分而治之(hash映射),也就是说规模太大的话,就把规模大化为规模小的,最终各个击破。

至于所谓的单机及集群问题,通俗点来讲,单机就是处理装载数据的机器有限(只要考虑CPU,内存,硬盘的数据交互),而集群,机器有多辆,适合分布式处理,并行计算(更多考虑节点和节点间的数据交互)。

一般说来,处理海量数据问题,有以下十种典型方法:

  1. 分而治之;
  2. 多层划分;
  3. Bloom Filter;
  4. Bitmap;
  5. Trie树;
  6. 数据库;
  7. 倒排索引;
  8. 外排序;
  9. 分布式处理之MapReduce;
  10. simhash算法。

本章会先简要介绍下set/map/multiset/multimap,及hash_set/hash_map/hash_multiset/hash_multimap之区别**(万丈高楼平地起,基础最重要)**,而本文第二部分,则针对上述那6种方法模式结合对应的海量数据处理面试题分别具体阐述。