大数据小白系列——MR(1)_玖富娱乐主管发布


玖富娱乐是一家为代理招商,直属主管信息发布为主的资讯网站,同时也兼顾玖富娱乐代理注册登录地址。

 一部编程发展史就是一部顺序员偷懒史,MapReduce(下称MR)同样是顺序员们用来偷懒的对象。

来了一份大数据,我们写了一个顺序预备剖析它,须要怎样做?

老式的处置惩罚要领不可,数据量太大时,所需的时刻无法忍受,以是,必需并行盘算。比如1000块砖,1小我搬须要1小时,10小我同时搬,只须要6分钟。

不外举行并行盘算,面对几个细思头大题目:

  • 怎样切分数据
  • 怎样处置惩罚局部义务失利
  • 怎样对多路盘算的效果举行汇总

 

不外不消忧郁,天下就是如许的,少局部人发明创造对象,大局部人运用对象。总有智慧人在适宜的时刻出来解决题目。

Google在2004年出了个paper,《MapReduce: Simplifed Data Processing on Large Clusters》,提出来一种针对大数据的并行处置惩罚模子、并基于此理论做了一个盘算框架。

以是,你能够说MR是一种盘算模子、也能够叫它一个盘算框架。广义的MR以至还包孕一套资源管理(JobTracker、TaskTracker),背面这个我们不讲,由于,过,时,了。

 

Q 框架是什么?

A 就是套路。内部会帮你处置惩罚那些让你头大的题目。

 

作为小白系列,我们先来看看MR简朴的流程图:

为轻易明白,来一个WorkCount示例(WordCount就比如大数据的HelloWorld,总要来一个的)。假定我们有一个文件包罗内容:

Live for nothing, die for something

统计每个单词涌现的次数:

Splitting是怎样做的,分红几份?

A 框架决议(通常是文件有多少个数据块,就分红几份,数据块不懂的回去看HDFS系列)。

-玖富娱乐是一家为代理招商,直属主管信息发布为主的资讯网站,同时也兼顾玖富娱乐代理注册登录地址。-

 

k1,v1是什么?

A 一般来说,k1是行号(在WordCount示例顶用不到),v1是文件的某一行。本例只是观点示例,不消纠结。

 

Mapping发生的效果存储在那里?

A 地点机械的当地文件体系,非HDFS,以制止发生过剩的副本(HDFS默许多个副本)。

 

Shuffling是做什么的?

A 卖力将Mapping发生的中央效果发给Reducer,哪些数据发个哪一个Reducer,有框架决议。

 

Reducer有几个,运转在哪些机械上?

A 框架决议。

 

哪些是须要顺序员举行代码完成的?

Mapping及Reducing,即图中两个红框局部。

 

好了,这期就先说到这,下期将轻微深切相识一下MR中的Shuffling、Sorting等观点。Cheers!

END

 迎接存眷“顺序员杂书馆”民众号,领取大数据典范纸质书。

 

 

-玖富娱乐是一家为代理招商,直属主管信息发布为主的资讯网站,同时也兼顾玖富娱乐代理注册登录地址。