Computer Science/기타

[ADsP] 주관식 기출 문제 정리

해피단무지 2020. 6. 5. 02:09

Chapter 1-2

(가)는 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로 자재구매, 생산/재고, 유통/판매, 고객 데이터로 구성된다. SCM
(가)란 데이터로부터 의미있는 정보를 추출해 내는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 또한 분석에 초점을 두는 데이터마이닝과는 달리 (가)는 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개념이다. 데이터 사이언스
분석 과제 관리 프로세스는 크게 과제 발굴과 (가) 으로 나누어진다. 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀로 관리하면서 분석과제가 확정되면 (나),(다),분석과제 결과 공유/개선의 분석과제 관리 프로세스를 수행하게 된다. (가) 과제 수행
(나)(다) 팀구성, 분석과제 실행, 분석과제 진행관리
OLAP: 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
(가): 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
 Analytics: 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

※ OLTP: 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려내는 형태.
BA(Business Analytics): 경영 의사 결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
BI (Business Intelligence)
하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 (가) 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다. 아마존은 S3와 BC2 환경을 제공함으로써 (가)를 위한 클라우드 서비스를 최초로 실현하였다. 플랫픔
p.518 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 가하기 위한 시스템 ERP(Enterprise Resource Planning)
   

- 중장기 마스터 플랜: ISP

Chapter 3

- 생명의 진화를 모방하여 최적해를 구하는 알고리즘으로 존 홀랜드가 1975에 개발하였다.
- '최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결할 때 사용된다.
- 어떤 미지의 함수 y=f(x)를 최적화하는 해 x를 찾기 위해, 진화를 모방한 탐색 알고리즘이라 말할 수 있다.
유전자 알고리즘
원 데이터 집합으로부터 크기가 같은 표본을 여러 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법 배깅 (★)
모형 평가 방법 중 주어진 원천데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법 홀드아웃 방법 (★)
이상값 탐색 기법 중 하나로 평균으로부터 k*표준편차만큼 떨어져 있는 값들을 이상값으로 판단하는 방법은?  ESD(Extreme Studentized Deviation)
- 분류분석의 모형을 평가하는 방법. 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프
- (19회) 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에 사용되는 이 그래프는?
향상도 곡선 (★)
(객관식) 모수를 추정하기 위해 구하는 표본의 값들 통계량
회귀 모형에서 사용된 독립 변수 간의 상관관계가 존재하여 회귀 계수 추정치가 불안하고 해석하기 어려워지는 현상 다중공선성
번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번쨰 항목을 추출하는 표본 추출 방법 계통추출방법
시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용함 분해 시계열
- 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
- 백색 잡음의 현재값과 자기 자신의 과거값의 서형 가중합으로 이루어진 정상 확률 모형
- 모형에 사용하는 시게열 자료의 시점에 따라 1차, 2차, ..., p차 등을 사용하거나 정상시계열 모형에서는 주로 1,2차를 사용함
자기회귀모형 (★)
분류모형을 구성하는 경우 예측 실패의 비용이 큰 분류 분석의 대상에 대한 관측치가 현저히 부족하여 모형이 제대로 학습되지 않는 문제 (p558) 범주 불균형 문제
여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법은? 다차원 척도법
계층적 군집을 수행할 때 두 군집간의 거리를 측정하는 방법 중 아래에서 설명하는 방법은?
- 군집내 오차제곱합에 기초하여 군집을 수행한다.
와드 연결법
연관 규칙의 측정 지표 중 도출된 규칙의 우수성을 평가하는 기준으로 두 품목의 상관관계를 기준으로 도출된 규칙이 예측력을 평가하는 지표는? 향상도
최단연결법

※이런 그래프를 '덴드로그램'이라 함.
회귀분석의 가정 중 정상성이란 (가)이 정규분포를 이뤄야 함을 가정한다. 오차의 분포
표본추출 방법/ 상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 이질적인 모집단의 원소들로 서로 유사한 것끼리 몇 개의 층을 나눈 후, 각 계층에서 표본을 랜덤하게 추출한다. 층화추출법
 의사결정나무모형은 분류분석을 위해 실무적으로 가장 많이 사용하는 모델 중 하나이다. 그러나 끝마디가 너무 많이 나오면 모형이 과대 적합된 상태로 현실문제에 적용할 수 있는 규칙이 나오지 않게 된다. 이를 해결하기 위해 분류된 관측치의 비율이나 MSE(Mean Squared Error)등을 고려하여 과적합 문제를 해결하는 방법은?  가지치기 
앙상블 기법 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 방법  부스팅
시계열 분석을 위해서는 정상성을 만족해야 한다. 따라서 주어진 자료가 정상성을 만족하는지 판단하는 과정이 필요하다. 자료가 추세를 보이는 경우에(평균이 일정한 경우) 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꾸어 준다.   차분
 신경망 모형에서 아래의 식으로 계산되는 함수로서 표준화 지수 함수로 불리며, 출력값 z가 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수 softmax 함수 
 두 객체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 두 개체의 벡터 내적을 기반하여 아래의 수식으로 계산할 수 있는 유사성 측도는? 코사인 유사도 
 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도와 군집간 분리도를 계산하여 군집 내이 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는? 실루엣 
시점에 상관없이 시계열의 특성이 일정하다는 것을 의미하는 용어 정상 시계열

- 상대적 거리 -> 다차원 척도법!