Computer Science 25

[ADsP] 주관식 기출 문제 정리

Chapter 1-2 (가)는 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로 자재구매, 생산/재고, 유통/판매, 고객 데이터로 구성된다. SCM (가)란 데이터로부터 의미있는 정보를 추출해 내는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 또한 분석에 초점을 두는 데이터마이닝과는 달리 (가)는 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개념이다. 데이터 사이언스 분석 과제 관리 프로세스는 크게 과제 발굴과 (가) 으로 나누어진다. 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀로 관리하면서 분석과제가 확정되면 (나),(다),..

무어의 법칙(Moore's Law)

고든 무어가 말한 "무어의 법칙" 이란? - 직접회로(마이크로칩)의 수(성능,밀도)가 24개월마다 2배씩 증가한다는 법칙 - 24개월? 18개월? 10년후인 1975년에는 법칙을 수정해서 2년마다 2배로 증가한다고 바꿨다. 그리고 65년도에는 '18개월마다'라고 말한 적은 한 번도 없었는데 누가 자꾸 18개월마다라고 주석을 붙인다라고 했다.(출처: https://namu.wiki/w/%EB%AC%B4%EC%96%B4%EC%9D%98%20%EB%B2%95%EC%B9%99)

Memory Hierarchy - AMAT(Average Memory Access Time)

Wiki에 나온 정의 In computer science, average memory access time (AMAT) is a common metric to analyze memory system performance. AMAT uses hit time, miss penalty, and miss rate to measure memory performance. It accounts for the fact that hits and misses affect memory system performance differently. Average Memory Access Time (AMAT) 수식 AMAT = (1-Miss Rate)*Hit Time + Miss Rate*(Hit Time + Miss Penalty..

4일차

* Scala study 사이트exercism.io* 모든 언어의 코드 비교http://rosettacode.org/wiki/Rosetta_Code *암바리http://localhost:8080/#/main/dashboard/metrics*sshhttp://localhost:4200/*zeppelinhttp://localhost:9995/#/ -리뷰- day3 chapter04. spark_overviewR: 사용층이 두껍다 / 단-오래된 언어라서 standalone(하나의 피씨에서)이라서 대용량을 하기엔 애매하다Dataframe으로 데이터 MS, Oracle, Pivotal(Bigdata 안하겠다고 선언), Spark, SparkRPythonRDD메모리를 효율적으로 사용하기 위함lineage라 rage..

Hadoop & Spark 교육 - 3일차

복습SqoopMapReduceReducer지역성을 이용해서 mapper가 데이터가 있는 곳에 뜬다철저히 프로세스가 동작하는 곳은 데이터가 있는곳 - 이 규칙이 최근에 깨지고 있음Spark 이 나오면서 많이 변하고 있음Spark도 data locality가 중요한 요소이긴 하나, spark을 동작하는것은 yarn 이고 이중 하나가 HDFS일 뿐따러서 yarn과 HDFS가 같은 클러스터면 data locality가 지켜지나, Hadoop cluster 1에 spark이 떠있고 Hadoop cluster2에 있는 data를 가져다가 쓸 경우에는 data locailty가 깨진다.(hadoop cluster1=computing layer, hadoop cluster2=data layer)이 경우 10G 이상의 ..

Hadoop & Spark 교육 - 2일차

1교시 - chapter 00.1day-reviewShared-Nothing Architecture공유하는게 Network밖에 없음공유하는것은 메타정보로만 관리할뿐 공유되는것이 없다특정 서버가 나가더라도 전체 서비스에 영향이 없는 구조Hadoop트랜잭션 개념이 없다? chapter 01.mapreduce - 집합연산을 위한 병렬처리 프레임웍MapReducemapper data를 key-value를 만들어서 반환데이터의 움직임을 최소화 시키는 것이 목표Mapper까지는 network의 이동을 안하고 Reduce로 갈때 network 이동 필요데이터 지역성철저하게 지켜지는것이 mapperreducer는 최대한 지키는것이 목표WordCount: Flow p12reducer만 개발자가 직접 짜는것임.. Mapp..

오픈스택을 사용한 클라우드 구축과 관리(1)

===================1일차=================== NIST https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-145.pdf * Deployment Models - Community cloud: 요즘엔 잘 안 씀 - Public cloud: AWS - Private cloud: 보안 및 성능 google.com/trends releases.openstack.org https://launchpad.net *실습하기! Virtualbox 받기 [1] https://www.virtualbox.org 2개 다운로드(순서 중요) 1. Windows hosts 2. All ported platforms - 버츄얼박스 ..

Maven 이란? (Apache Maven)

Maven이란?아파치 메이븐(Apache Maven)은 자바용 프로젝트 관리 도구아파치 앤트의 대안으로 만들어졌으며, 아파치 라이선스로 배포되는 오픈소스 소프트웨어 POMPOM = Project Object Model, 프로젝트 객체 모델 프로젝트 당 하나의 pom.xml각각의 프로젝트는 pom.xml 파일을 하나씩 가짐POM은 프로젝트 자체와 의존성에 대한 설정 및 정보를 포함메이븐은 pom.xml을 일겅, 프로젝트를 가공하는 방법을 이해3가지 coordinates를 이용해 자원을 식별함Group ID: 프로젝트 그룹(자바의 패키지와 유사), 일반적으로 Full 도메인 이름을 사용하는 경우가 많음Artifact ID: 프로젝트 이름Versionex) JMH 프로젝트 만들때 mvn 명령어: mvn arc..