데이터분석 준전문가 37회

데이터 이해


1. 다음 중 데이터 사이언티스트의 역량에 대한 설명이 아닌 것은?
  •  설득력 있는 전달을 위한 스토리텔링과 시각화를 할 수 있어야 한다.
  •  창의적 사고와 호기심, 논리적 비판력을 갖고 통찰력 있는 분석을 한다.
  •  빅데이터에 대한 이론적 지식 및 분석 기술에 대한 숙련이 필요하다.
  •  알고리즘에 의해 부당하게 피해를 입은 사람을 구제한다.

2. 경영정보시스템의 하나로 다양한 비즈니스 분야에서 생산,구매,재고,주문,공급자와의 거래, 고객 서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지를 무엇이라고 하는가?
  •  CRM
  •  ERP
  •  SCM
  •  KMS

3. 다음 데이터베이스의 특징에 대한 설명 중 옳지 않은 것은 무엇인가?
  •  통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다
  •  저장된 데이터로 컴퓨터가 접근할 수 있는 저장매체에 저장된다.
  •  공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
  •  변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야한다.

4. 다음 DIKW구조와 예시가 올바르게 짝 지어진 것은?
가) A마트는 500원, B마트는 400원에 볼펜을 판매한다.
나) B마트의 다른 상품도 A 마트보다 저렴할 것이다
다) B마트는 볼펜 가격이 싸다.
라) 상대적으로 저렴한 B마트에서 볼펜을 사야겠다
  •  가)데이터 나)정보 다)지식 라)지혜
  •  가)정보 나)데이터 다)지혜 라)지식
  •  가)데이터 나)지혜 다)정보 라)지식
  •  가)데이터 나)지혜 다)지식 라)정보

5. 다음 중 전략적 인사이트를 주는 가치 기반 분석을 위해 고려할 사항이 아닌 것은?
  •  비즈니스 성과
  •  인구 통계학적 변화
  •  경제사회 트랜드
  •  고객 니즈의 변화

6. 빅데이터가 가치 창출 측면에서 기업, 정부, 개인에 미치는 여향으로 옳지 않은 것은?
  •  기업은 빅데이터를 활용하여 시장 변동을 예측해 비즈니스 모델을 혁신하고 신사업을 발굴할 수 있다.
  •  정부는 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정할 수 있다.
  •  운용 효율성이 증가하면 산업 전체의 생산성이 향상, 국가 전체로서는 GDP가 올라가는 효과가 있다.
  •  개인은 아직 데이터를 활용할 수 없다.

7. 다음 데이터에 대한 설명 중 틀린 것은?
  •  비정형 데이터는 데이터 내부에 메타 데이터를 갖고 있고 파일 형태로 저장된다.
  •  정형 데이터는 행과 열에 의해 데이터의 속성이 구별되는 스프레드 시트 형태이다.
  •  반정형 데이터는 Parsing을 통해 구조를 파악할 수 있다.
  •  HTML, XML, JSON은 반 정형 데이터이다.

8. 다음 데이터 저장소에 대한 설명 중 옳은 것은?
  •  데이터 마트는 특정 조직이나 부서의 사람들과 같이 제한된 사용자 그룹에게 서비스가 제공된다.
  •  기업의 원천(Source)데이터 베이스는 데이터 마트(Data Mart)이다.
  •  데이터 웨어하우스는 데이터 저장소로 저장만 가능하며, 데이터를 검색할 수 없다.
  •  데이터 웨어하우스는 전사적 차원보다는 특정 조직의 업무 분야에 초점을 맞춘다.

9. DIKW 계층 구조에서 데이터의 가공 및 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것을 무엇이라 하는가?

10. 빅데이터 활용 기분 테크닉 중 다음이 설명하는 것은?
이것은 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법으로, 상관 관계가 높은 상품을 함께 진열하거나 시스템 로그 데이터를 분석해 침입자나 유해 행위자 색출이 가능하며, 우유 구매자가 기저귀를 더 많이 구매하는지 등을 분석할 때 사용한다.

데이터분석 기획


11. 다음 분석과제 발굴의 접근방식에 대한 설명 중 옳지 않은 것은?
  •  디자인 싱킹은 중요한 의사결정 시 상향식과 하향식을 반복적으로 사용하는 방법이다.
  •  분석해야 하는 대상이 확실할 경우 상향식 접근 방식을 사용한다.
  •  데이터를 활용하여 생각하지 못했던 인사이트를 도출하고 시행착오를 통해 개선해가는 상향식 접근법의 유용성이 점차 증가하고 있는 추세이다.
  •  분석과제 발굴의 상향식과 하향식 접근법은 실제 분석 과정에서 혼용되어 활용되는 경우가 많다.

12. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 수행하는 주요 태스크가 아닌 것은 무엇인가?
  •  필요 데이터 정의
  •  비즈니스 이해 및 프로젝트 범위 설정
  •  프로젝트 정의 및 수행 계획 수립
  •  프로젝트 위험 계획 수립

13. 다음 분석과제의 특징 중 Accuracy와 Pricision에 대한 설명으로 틀린 것은?
  •  분석의 활용적인 측면에서는 Accuracy가 중요하며, 안정적인 측면에서는 Precision이 중요하다.
  •  Accuracy와 Precision의 관계는 트레이드 오프(Trade-off)가 되는 경우가 많다
  •  Accuracy는 True로 예측된 것 중 실제 True인 것의 비율, Precision은 실제 True인 것 중 True로 예측된 것의 비율이다.
  •  Precision은 모델을 반복했을 때의 편차를 의미한다.

14. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가?
데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
  •  데이터 표준화
  •  표준화 활동
  •  데이터 저장 관리
  •  데이터 관리 체계

15. 다음 중 과제의 우선순위를 결정할 때 고려하는 요소가 아닌 것은?
  •  전략적 중요도
  •  비즈니스 성과/ROI
  •  실행 용이성
  •  기술 적용 수준

16. 빈칸에 들어갈 내용으로 알맞은 것은?
상향식 접근법은 기업에서 보유하고 있는 다양한 원천 데이터로부터의 (A)를 통하여 (B)를 얻을 수 있다. 상향식은 디자인 사고 중 (C)에 해당한다.
  •  A:발견, B:통찰, C:발산
  •  A:인지, B:통찰, C:발산
  •  A:통찰, B:발산, C:수렴
  •  A:발산, B:통찰, C:수렴

17. 데이터 마이닝 프로세스에서 모델링 기법에 따라 변수를 정의하고 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 적합한 형식으로 변환하는 활동 수행 단계는 무엇인가?
  •  데이터 가공
  •  데이터 준비
  •  모델 검증
  •  데이터 마이닝 기법 적용

18. 다음 중 기업의 분석 성숙도 진단 대상이 아닌 것은?
  •  비즈니스 부문
  •  조직 / 역량 부문
  •  서비스 부문
  •  IT 부문

19. 기업의 경영 목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출하며, 이를 수행하기 위한 전략 및 실행 계획을 수립하는 전사적인 종합 추진 계획을 무엇이라고 하는가?

20. 다음은 어떤 분석 모델 프로세스에 관한 설명인가?
사용자 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 사용, 일단 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법을 취한다.

데이터분석


21. 구축된 모델을 평가하여 과대적합 또는 과소적합을 미세조정 하는데 활용하는 데이터는 무엇인가?
  •  학습 데이터(Train data)
  •  검증 데이터(Validation data)
  •  평가 데이터(Test data)
  •  증강 데이터

22. 6개의 feed(사료)를 chicken에게 먹인 후 측정한 weight를 summary 한 결과에 대한 설명으로 틀린 것은?
  •  weight 중앙값은 261.3이다.
  •  총 데이터 개수는 71개 이다.
  •  casein사료를 먹은 chicken은 12마리이다.
  •  feed는 평균 계산을 할 수 없다.

23. 다음은 4개의 변수를 가진 USArrests 데이터에 주성분분석을 적용해서 얻은 결과이다. 제 1주성분을 구하는 식으로 옳은 것은?
  •  -0.536*Murder -0.583*Assault* -0.278*UrbanPop* -0.543*Rape
  •  -0.418*Murder +0.187*Assault* -0.873*UrbanPop* -0.167*Rape
  •  -0.341*Murder -0.268*Assault* -0.378*UrbanPop* +0.818*Rape
  •  0.649*Murder -0.743*Assault* +0.134*UrbanPop* +0.089*Rape

24. 붓스트랩을 통해 한 샘플이 뽑힐 확률이 1/d라고 했을 때, 샘플 추출을 d번 진행하였을 대 어떤 샘플이 한 번도 뽑히지 않을 확률은?
  •  (1- 1/d)²
  •  (1 + d)²
  •  (1- 1/d)ᵈ
  •  √1-1/d

25. 다음의 거리표를 사용해 최단 연결법으로 계층적 군집화를 할 경우, 첫 번째 단계에서 형성되는 군집과 a와의 거리는 얼마인가?
  •  3.6
  •  2.2
  •  3.2
  •  5.0

26. 통계적 가설 검정에 대한 내용중 틀린 것은?
  •  귀무가설이 참인 경우 이것을 기각하여 발생하는 오류를 제 1종 오류라고 한다.
  •  귀무가설이 거짓인 경우 이것을 채택하여 발생하는 오류를 제 2종 오류라고 한다.
  •  유의확률이 유의수준보다 작을 때 귀무 가설을 기각하게 된다.
  •  p-value가 작을수록 해당 검정통계량의 관측값은 귀무 가설을 지지하는 것으로 해석 가능하다.

27. 다음 회귀분석에 대한 설명 중 옳은 것은?
  •  명목형 변수는 더미 변수화 하여 사용할 수 없다.
  •  독립 변수의 수가 많아지면 모델의 설명력이 증가하고 모형이 단순해 진다.
  •  종속 변수들 간 강한 상관관계가 나타나는 다중공선성 문제가 발생 할 수 있다.
  •  독립 변수와 종속 변수의 사이를 모형으로 나타내고 두 변수 관계를 도출하는 것이다.

28. 다음 중 다중공선성(Multicollinearity)에 대한 설명으로 옳지 않은 것은?
  •  다중공선성에 대한 측정은 VIF를 사용한다.
  •  다중공선성이 발생하는 독립 변수들은 표본의 크기에 관계없이 발생하게 된다.
  •  독립변수간 높은 상관관계를 가질 때 다중공선성의 발생이 높다.
  •  중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만든다.

29. 다음 중 주성분 분석에 대한 설명으로 부적절 한 것은?
  •  차원축소 방법 중 하나이다.
  •  비지도 학습(Unsupervised learning)에 해당한다.
  •  이론적으로 주성분 간 상관관계가 없다.
  •  원변수의 선형 결합 중 가장 분산이 작은 것을 제 1주성분(PC1)으로 설정한다.

30. 신경망 모형에서 입력 받은 데이터를 다음 층(Layer)으로 출력하는 형태를 결정하는 함수를 무엇이라고 하는가?
  •  활성화 함수(activation function)
  •  로짓 함수
  •  오즈비 함수
  •  매핑 함수

31. 데이터 탐색 단계에서 고려해야 할 사항으로 가장 적절하지 않은 것은?
  •  이상값을 확인하여 원인을 파악하고, 삭제, 대체, 변환 등의 처리를 한다.
  •  데이터의 종류, 분포 등을 파악하고 변수들 간의 관계를 알아본다.
  •  변수들 간의 상관관계 및 연관성을 분석해 유의미한 변수를 식별한다.
  •  결측값을 확인하여 결측값이 있을 경우 제거하는 것이 바람직하다.

32. ARMA(2, 0)에 대한 설명으로 올바른 것은 무엇인가?
  •  정상시계열이 되기 위해 2차 차분이 필요하다.
  •  PACF는 3차항부터 절단 형태가 되고 ACF는 지수적으로 감소한다.
  •  ARMA(2,0)은 MA(2)와 같은 모형이라고 할 수 있다.
  •  ARMA(2,0)은 비정상 시계열이어서 차분 처리 후, 분석 용도로 사용할 수 없다.

33. 다음 시계열 모형에 대한 설명 중 옳지 않은 것은?
  •  MA모형은 정상성을 만족하기 위한 조건이 필요하다.
  •  AR모형은 백색 잡음의 현재 값과 자기 자신의 과거 값의 선형 가중값으로 이루어진 정상 확률 모형이다.
  •  MA는 현 시점의 자료가 유한 개의 과거 백색 잡음의 선형 결합으로 표현되어 있는 모형이다.
  •  ARIMA는 비정상 시계열이며 차분/변환을 통해 AR, MA, ARMA모형으로 정상화 할 수 있다.

34. 회귀분석의 분석 결과 해석에 대한 설명으로 옳지 않은 것은?
  •  모델의 통계적 유의성은 F통계량과 p-value를 통해 확인한다.
  •  회귀 계수의 유의성 검증은 t값과 p-value를 통해 확인한다.
  •  결정 계수가 커질수록 회귀 방정식의 설명력이 높아진다.
  •  결정 계수는 -1 ~ 1 사이의 값을 가진다.

35. 다음 Wage 데이터의 wage변수에 대한 t검정 결과에 대한 해석으로 옳지 않은 것은?
  •  자유도(degree of freedom)은 2999이다.
  •  유의수준 0.05일 때 귀무가설은 기각되지 않는다.
  •  대립 가설은 'wage의 평균은 100과 같지 않다'이다.
  •  95% 신뢰구간에 점추정 값이 포함되어 있다.

36. 다음 중 다차원 척도법에 대한 설명으로 적절한 것은 무엇인가
  •  데이터를 고차원에서 저차원으로 축소하는 방법으로 독립변수들 간 다중공선성 문제를 해결할 수 있다.
  •  다차원 척도법에서 개체들 간의 유사성 측정에는 밀도 개념을 사용한다.
  •  관측 대상의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress value)로 나타내며, 0에 가까울수록 적합도가 좋다.
  •  상관관계가 있는 변수들을 선형 결합에 의해 상관 관계가 없는 새로운 변수를 만들고 분산을 극대화하는 변수로 축약한다.

37. 인공신경망 모델에 대한 설명으로 옳지 않은 것은?
  •  인간 두뇌의 학습과정을 뉴런과 시냅스의 상호작용을 연산과정으로 간주하고 이를 재현한 분류, 예측 모델이다.
  •  복잡한 비선형 관계 모델링과 대용량 데이터 처리가 가능한 장점이 있다.
  •  은닉층을 포함하고 있어 모델 해석이 어렵고 초기 가중치 설정이 어렵다.
  •  은닉층 수와 노드의 수는 자동으로 설정되며, 은닉층이 많을수록 예측력이 우수하다.

38. 다음 중 연관분석에 대한 설명으로 옳지 않은 것은?
  •  사건들이 어떤 순서로 일어나고 이 사건들 사이에서 연관성을 알아내는 것이 시차연관분석이지만, 원인과 결과의 형태로 해석되지 않는다.
  •  조건반응(if-then)으로 표현되어 결과를 이해하기 쉽다.
  •  너무 세분화된 품목을 가지고 연관 규칙을 찾으려면 의미없는 분석결과가 도출될 수 있다.
  •  강력한 비 목적성 분석 기법이다.

39. 혼합분포군집 모형에서 최대 가능도(Maximum Likelihood Estimation)와 관련되어 있는 알고리즘은 무엇인가?
  •  K-means
  •  DBSCAN
  •  K-medoids
  •  EM 알고리즘

40. 모분산 추정에 대한 설명으로 옳지 않은 것은 무엇인가
  •  모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다.
  •  N개 집단에 대한 분산 검정은 자유도가 N-1인 카이제곱검정을 따른다.
  •  모집단이 정규 분포를 따르지 않더라도 중심 극한 정리를 통해 정규모집단으로 부터의 모 분산에 대한 검정을 유사하게 시행할 수 있다.
  •  이표본(Two sample)에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.

41. 회귀분석에서 유의성 검정을 위한 분산분석표에 대한 설명으로 옳지 않은 것은?
  •  회귀 모형은 5% 수준에서 유의하다.
  •  오차 분산의 불편추정량이 0.1이다.
  •  표본의 개수는 12개이다.
  •  결정 계수는 1/3이다.

42. 텍스트마이닝 관련 설명으로 올바르지 않은 것은?
  •  자연어처리(NLP) 방식으로 특징 추출, 요약,분류,군집화 등 의미를 도출하는 분석이다.
  •  비구조화된 텍스트에서 구조화된 데이터로 변환하는 방법을 코퍼스라고 한다.
  •  텍스트 마이닝 전처리 작업에는 클렌징, 토큰화, 불용어 제거, 어간 추출, 표제어 추출 등이 있다.
  •  감정 분석 및 워드 클라우드 등의 패턴 분석을 할 수 있다.

43. 사회연결망 분석에서 연결망을 표현하는 분석 방법으로 옳지 않은 것은?
  •  K-means
  •  네트워크 그래프
  •  클러스터링
  •  영향력분석

44. 사회관계망 분석에서 중심성 분석으로 적절하지 않은 것은?
  •  연결 중심성
  •  근접 중심성
  •  매개 중심성
  •  링크 중심성

45. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하는 알고리즘을 무엇이라고 하는가?

46. 다음이 설명하는 앙상블 모형의 종류는?
여러 모델이 순차적인 학습을 하며, 이전 모델의 결과에 따라 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치(weight)를 부여하여 표본을 추출한다.

47. 어느 마트에서 A제품과 B제품을 판매하고 있다. A제품-> B제품의 지지도는 0.3이고, 신뢰도가 0.6이다. A제품과 B제품의 판매 수량이 동일할 때, 향상도를 구하시오.

48. 회귀모형에 대한 가정에 대한 설명이다. 빈 칸에 알맞은 용어는?
-잔차와 독립변수의 값이 관련되어 있지 않아야 한다. - 독립성
-잔차들끼리 상관이 없어야 한다. - 비상관성
- (   )이 정규분포를 이뤄야 한다. - 정상성

49. 아래의 덴드로그램을 사용하여 100일 때의 군집의 수를 구하여라.

50. 아래 오분류표에서 민감도(Sensitivity)를 구하는 식은 무엇인가?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr