Computer Science/Big data 7

4일차

* Scala study 사이트exercism.io* 모든 언어의 코드 비교http://rosettacode.org/wiki/Rosetta_Code *암바리http://localhost:8080/#/main/dashboard/metrics*sshhttp://localhost:4200/*zeppelinhttp://localhost:9995/#/ -리뷰- day3 chapter04. spark_overviewR: 사용층이 두껍다 / 단-오래된 언어라서 standalone(하나의 피씨에서)이라서 대용량을 하기엔 애매하다Dataframe으로 데이터 MS, Oracle, Pivotal(Bigdata 안하겠다고 선언), Spark, SparkRPythonRDD메모리를 효율적으로 사용하기 위함lineage라 rage..

Hadoop & Spark 교육 - 3일차

복습SqoopMapReduceReducer지역성을 이용해서 mapper가 데이터가 있는 곳에 뜬다철저히 프로세스가 동작하는 곳은 데이터가 있는곳 - 이 규칙이 최근에 깨지고 있음Spark 이 나오면서 많이 변하고 있음Spark도 data locality가 중요한 요소이긴 하나, spark을 동작하는것은 yarn 이고 이중 하나가 HDFS일 뿐따러서 yarn과 HDFS가 같은 클러스터면 data locality가 지켜지나, Hadoop cluster 1에 spark이 떠있고 Hadoop cluster2에 있는 data를 가져다가 쓸 경우에는 data locailty가 깨진다.(hadoop cluster1=computing layer, hadoop cluster2=data layer)이 경우 10G 이상의 ..

Hadoop & Spark 교육 - 2일차

1교시 - chapter 00.1day-reviewShared-Nothing Architecture공유하는게 Network밖에 없음공유하는것은 메타정보로만 관리할뿐 공유되는것이 없다특정 서버가 나가더라도 전체 서비스에 영향이 없는 구조Hadoop트랜잭션 개념이 없다? chapter 01.mapreduce - 집합연산을 위한 병렬처리 프레임웍MapReducemapper data를 key-value를 만들어서 반환데이터의 움직임을 최소화 시키는 것이 목표Mapper까지는 network의 이동을 안하고 Reduce로 갈때 network 이동 필요데이터 지역성철저하게 지켜지는것이 mapperreducer는 최대한 지키는것이 목표WordCount: Flow p12reducer만 개발자가 직접 짜는것임.. Mapp..

오픈스택을 사용한 클라우드 구축과 관리(1)

===================1일차=================== NIST https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-145.pdf * Deployment Models - Community cloud: 요즘엔 잘 안 씀 - Public cloud: AWS - Private cloud: 보안 및 성능 google.com/trends releases.openstack.org https://launchpad.net *실습하기! Virtualbox 받기 [1] https://www.virtualbox.org 2개 다운로드(순서 중요) 1. Windows hosts 2. All ported platforms - 버츄얼박스 ..

CEP란? - (3)정리(CEP란, Hadoop과의 비교, Storm과의 비교, Esper)

CEP(Complex Event Processing) 정의여러 이벤트 소스로부터 발생한 이벤트를 대상으로 "실시간"으로 의미있는 데이터를 추출하여 대응되는 액션을 수행하는 것 [실시간 분석]이벤트 데이터란, 스트림 데이터로써 대량으로 지속적으로 입력되는 데이터, 시간 순서가 중요한 데이터, 끝이 없는 데이터를 말함DB나 File, Hadoop 등에 저장하지 않고, 다양한 고속의 이벤트 스트림을 In-Memory 기반으로 초당 수 백/ 수 십만건의 Real-time 처리가 가능스트림 데이터는 전동적인 관계형 데이터베이스로는 실시간 처리 및 분석이 불가능 → CEP는 이러한 스트림 데이터를 실시간으로 분석하는 이벤트 데이터 처리 솔루션 Hadoop과의 비교 DB/Hadoop (Batch)구분CEP (Real..

CEP란? - (2)Spark, Storm, Esper 차이

Esper1990년대 부터 시작된 전통적인 Event Stream 처리 기술복합적인 Event를 참조하여 패턴을 알아차리는 기술Data Window, Pattern matching 기능이 핵심Continuous Query EPL 제공 Storm이벤트 스트림 프로세싱(처리)을 위한 분산형 컴퓨팅 프레임워크 스톰은 때때로 실시간 프로세싱 하둡(Hadoop)으로 지칭됨"스톰은 무한대의 데이터 스트림을 하둡의 배치 프로세싱처럼 실시간으로 쉽고 우수하게 처리한다." 이를 위해, 강력한 확장성, '빠른 실패, 자동 재시작(fail fast, auto restart)'이라는 폴트 톨로런스(fault-tolerance, 고장 방지 능력)를 지원하며, 모든 튜플(tuple)의 처리를 보증 주 언어: 클로저(Clojure..

CEP란? - (1)개념(Complex Event Processing)

WIKIComplex event processing, or CEP, is event processing that combines data from multiple sources[2] to infer events or patterns that suggest more complicated circumstances. The goal of complex event processing is to identify meaningful events (such as opportunities or threats)[3] and respond to them as quickly as possible CEP (Complex Event Processing) 정의 여러 이벤트 소스로부터 발생한 이벤트를 대상으로 "실시간"으로 의미있..