복습SqoopMapReduceReducer지역성을 이용해서 mapper가 데이터가 있는 곳에 뜬다철저히 프로세스가 동작하는 곳은 데이터가 있는곳 - 이 규칙이 최근에 깨지고 있음Spark 이 나오면서 많이 변하고 있음Spark도 data locality가 중요한 요소이긴 하나, spark을 동작하는것은 yarn 이고 이중 하나가 HDFS일 뿐따러서 yarn과 HDFS가 같은 클러스터면 data locality가 지켜지나, Hadoop cluster 1에 spark이 떠있고 Hadoop cluster2에 있는 data를 가져다가 쓸 경우에는 data locailty가 깨진다.(hadoop cluster1=computing layer, hadoop cluster2=data layer)이 경우 10G 이상의 ..