데이터분석 준전문가 랜덤

데이터 이해


1. 다음 중 빅데이터 활용 요소 3가지로 올바른 것으로만 구성된 것은?
  •  데이터, 인프라, 기술
  •  인프라, 프로세스, 인력
  •  데이터, 인력, 기술
  •  프로세스, 인력, 기술

2. 다음 중 데이터베이스의 특징에 대한 설명으로 옳지 않은 것은?
  •  통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다.
  •  저장된 데이터로 컴퓨터가 접근할 수 있는 저장 매체에 저장된다.
  •  공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
  •  변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다.

3. 다음 중 전략적 인사이트를 주는 가치 기반 분석을 위해 고려할 사항이 아닌 것은?
  •  비즈니스 성과
  •  인구 통계학적 변화
  •  경제사회 트랜드
  •  고객 니즈의 변화

4. 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터를 무엇이라고 하는가?

5. 데이터 사이언티스트의 역량에 대한 설명이 아닌것은?
  •  통찰력 있는 분석, Data Technical Skill
  •  설득력 있는 전달
  •  다분야간 협력
  •  데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제

6. 암묵지와 형식지 상호작용의 과정 중 개인의 내재된 경험을 객관적인 데이터로 변환하여 문서나 매체에 저장.가공.분석하는 과정을 무엇이라고 하는가?
  •  표출화
  •  연결화
  •  내재화
  •  공통화

7. 사생활 침해 문제를 해결하기 위한 방법으로 가장 적절한 것은 무엇인가?
  •  개인정보 사용자 책임제로 전환
  •  결과기반 책임 원칙 고수
  •  알고리즘 접근 허용
  •  사용자 동의제도 시행

8. 이미지, 로그, 영상, 텍스트 등의 데이터 형태로 알맞은 것은?
  •  Structured data
  •  Qualitative data
  •  Unstructured data
  •  Semi-Structured data

9. 다음 내용은 빅데이터가 만들어 내는 본질적인 변화에 대한 설명이다. (A)와 (B)에 들어갈 내용이 옳게 연결된 것은?
"(A)는 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고, (B)는 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없다."
  •  A: 선형 관계, B: 비선형 관계
  •  A: 비선형 관계, B: 선형 관계
  •  A: 인과 관계, B: 상관 관계
  •  A: 상관 관계, B: 인과 관계

10. 다음 중 DIKW 피라미드 계층 구조의 단계별 정의와 예시가 올바르게 연결된 것은 무엇인가?
(가) A학교의 수학 평균점수가 B학교의 수학 평균점수보다 높다
(나) A학교가 B학교보다 다른 과목의 점수도 높을 것이다
(다) A학교의 모의평가 수학 평균점수는 80점, B학교의 모의평가 수학 평균점수는 70점이다
(라) A학교가 B학교보다 수학을 잘 할 것이다
  •  (가) 정보
  •  (나) 지식
  •  (다) 지혜
  •  (라) 데이터

데이터분석 기획


11. 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터 품질, 관리규정 준수를 강조하는 것을 무엇이라고 하는가?
  •  데이터 표준화 활동
  •  분석 마스터 플랜
  •  데이터 거버넌스
  •  메타 데이터

12. 조직에 대한 분석 문화를 자리 잡게 하기 위한 행동으로 알맞지 않은 것은?
  •  경영진이 데이터에 기반 한 의사결정을 할 수 있는 기업문화 정착의 변화관리를 지속해야 한다.
  •  분석적인 사고를 업무에 적용할 수 있도록 다양한 교육을 실시해야 한다.
  •  단순한 도구(Tool) 교육이 아닌 분석 역량의 확보와 강화에 초점을 맞춰야 한다.
  •  경영진을 대상으로 한시적 속성 교육을 강화해야 한다.

13. 다음 중 상향식 접근 방식의 특징으로 적절하지 않은 것은?
  •  상향식 접근 방식의 데이터 분석은 지도학습 방법에 의해 수행된다.
  •  문제의 정의 자체가 어려운 경우 사용하는 방식이다.
  •  디자인 싱킹(Design Thinking)의 발산 단계에 해당한다.
  •  데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이다.

14. 포트폴리오 사분면 분석을 통한 과제 우선순위를 선정하는 기법 중 분석 과제의 적용 우선 순위를 '시급성'에 둔다면 결정해야 할 우선 순위는?
  •  III - IV - II
  •  I - II - III
  •  II - IV - I
  •  III - I - II

15. 데이터 마이닝 프로세스에서 모델링 기법에 따라 변수를 정의하고 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 적합한 형식으로 변환하는 활동 수행 단계는 무엇인가?
  •  데이터 가공
  •  데이터 준비
  •  모델 검증
  •  데이터 마이닝 기법 적용

16. 분석 프로젝트의 관리 방안에 대한 설명 중 적절하지 않은 것은?
  •  분석의 활용적인 측면에서는 정확도가 중요하며, 안정적인 측면에서는 정밀도가 중요하다.
  •  모델을 지속적으로 반복했을 때 편차의 수준을 정확도라고 한다.
  •  난이도에 우선 순위 기준을 놓으면 시급성 높고 난이도 쉬운 과제가 가장 먼저 수행되어야 한다.
  •  시급성이 높고 난이도가 높은 분석 과제는 경영진에 의해 조정 가능하다.

17. 다음 중 새로운 문제를 탐색할 때, 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재 정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 분석과제 접근방법을 무엇이라고 하는가?
  •  중앙식 접근 방법
  •  디자인 사고
  •  하향식 접근 방법
  •  상향식 접근 방법

18. 분석 과제 우선순위 선정 매트릭스에 관한 설명 중 가장 적절하지 않은 것은?
  •  시급성의 판단 기준은 전략도 중요도와 비용 범위에 따라 난이도는 분석 수준과 복잡도 평가로 구분한다.
  •  데이터 분석 과제를 추진할 때 우선 고려해야 하는 요소는 전략도 중요도에 따른 시급성이 가장 중요한 요소이다.
  •  난이도는 해당 기업의 현 상황에 따라 조율할 수 있다.
  •  사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면 영역이다.

19. 빅데이터 분석 방법론의 순서로 올바른 것은?
  •  분석기획- 데이터 준비- 데이터 분석- 시스템 구현- 평가 및 전개
  •  데이터 준비- 분석 기획- 데이터 분석- 시스템 구현- 평가 및 전개
  •  데이터 준비- 분석 기획- 데이터 분석- 평가 및 전개- 시스템 구현
  •  분석 기획- 데이터 준비- 데이터 분석- 평가 및 전개- 시스템 구현

20. 다음 중 비즈니스 모델 캔버스를 활용한 과제 발굴 영역으로 틀린 것은?
  •  혁신
  •  업무
  •  고객
  •  제품

데이터분석


21. 아래 데이터셋 A,B 간의 유사성을 유클리드 거리로 계산하면 얼마인가?
  •  50
  •  25
  •  √50
  •  10

22. 다음 중 배깅(Bagging)에 대한 설명으로 옳은 것은?
  •  서로 다른 여러 개 모형에 대한 결과를 집계하여 최종 결과를 결정한다.
  •  두 단계의 학습이 있으며 첫 번째 단계는 다양한 기본 모델들을 사용한 학습이고, 두 번째 단계는 첫 번째 단계에서 얻은 결과를 입력으로 하는 메타 모델의 학습이다.
  •  약한 학습기의 오류 데이터에 가중치를 부여하면서 최종 모형을 만들어가는 방법이다.
  •  붓스트랩(bootstrap) 방법을 사용하여 동일한 데이터가 여러 번 선택될 수 있고, 어떤 데이터는 추출되지 않을 수 있다.

23. 신경망 모형에서 출력값이 여러 개이고 목표치가 다범주인 경우에 사용하는 것으로 각 범주에 속할 사후 확률을(posterior probability) 제공하는 활성화 함수는 무엇인가?
  •  항등 함수
  •  ReLU
  •  sigmoid
  •  softmax

24. 다음 중 아래의 회귀 분석 결과에 대한 설명으로 옳지 않은 것은?
  •  5개의 독립변수를 갖는 47개의 표본(Sample)이 사용되었다.
  •  독립변수의 수가 많아 수정된 결정 계수 값이 더 작다.
  •  Examination변수는 유의하지 않으므로 회귀식은 Fertility = 66.915 -0.172*Agriculture -0.871* education+0.104*catholic + 1.077*Infant.Mortality이다.
  •  이 모델은 데이터를 70.67% 설명한다.

25. ARMA(2, 0)에 대한 설명으로 올바른 것은 무엇인가?
  •  정상시계열이 되기 위해 2차 차분이 필요하다.
  •  PACF는 3차항부터 절단 형태가 되고 ACF는 지수적으로 감소한다.
  •  ARMA(2,0)은 MA(2)와 같은 모형이라고 할 수 있다.
  •  ARMA(2,0)은 비정상 시계열이어서 차분 처리 후, 분석 용도로 사용할 수 없다.

26. CART에서 쓰이는 불순도 측정 지표로 데이터의 통계적 분산 정도를 정량화해서 표현한 값은 무엇인가

27. 시그모이드 함수의 범위로 알맞은 것은?
  •  0~1
  •  -1~1
  •  -1~0
  •  0.5~1

28. 모집단에서 표본을 추출하여 모집단의 모수를 추측하는 과정에서 범위가 아니라 가장 참값이라고 여겨지는 하나의 모수를 택하는 것을 무엇이라고 하는가?

29. 표본 추출시 발생하는 오차에 관한 설명 중 잘못된 설명은?
  •  표본 오차(Sampling error)는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 의미한다
  •  비표본 오차(non-sampling error)는 표본 크기가 증가함에 따라 증가한다.
  •  표본 편의(Sampling bias)는 표본 추출방법에서 기인하는 오차를 의미하고, 표본 추출 방법에 의해 최소화하거나 없앨 수 있다.
  •  표본 오차는 표본의 크기를 증가시키고, 표본 선택 방법을 엄격히 하여 줄일 수 있다.

30. 의사 결정 나무에 대한 설명 중 적절하지 않은 것은?
  •  비지도 학습으로 상향식 접근 방법을 이용한다.
  •  구조가 단순하여 해석이 용이하다.
  •  목표 변수가 이산형인 경우 분류나무 목표변수가 연속형인 경우 회귀나무가 있다.
  •  부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다.

31. 다음의 거리표를 사용해 최단 연결법으로 계층적 군집화를 할 경우, 첫 번째 단계에서 형성되는 군집과 a와의 거리는 얼마인가?
  •  3.6
  •  2.2
  •  3.2
  •  5.0

32. 주성분 분석의 내용 중 가장 적절하지 않은 것은?
  •  회귀분석의 다중공선성 문제 해결을 위해 사용한다.
  •  서로 상관성이 높은 변수를 선형 결합하여 변수를 축소, 해석상 구조적 문제해결을 위해 사용한다.
  •  다변량 데이터의 저 차원 그래프 표시 및 이상치 탐색에 사용한다.
  •  원래 변수를 선형결합 할 때 목표변수를 고려할 필요는 없다.

33. 신경망 노드 중 무작위로 노드를 선정하여 다수의 모형을 구성하고 학습한 뒤 각 모형의 결과를 결합해 분류 및 예측하는 기법을 무엇이라고 하는가?
  •  Mini-Batch
  •  bagging
  •  Drop-out
  •  AdaBoost

34. 회귀 모형을 평가하는 방법으로 옳지 않은 것은?
  •  모형이 통계적으로 유의미한가?
  •  모형이 데이터를 잘 적합하는가?
  •  회귀계수가 유의한가?
  •  선형성, 정상성, 독립성을 만족하는가?

35. 확률에 대한 설명으로 가장 적합하지 않은 것은?
  •  각 사건의 확률은 0~1이다.(확률은 0이상의 값을 가진다.)
  •  표본 공간(S)에서 발생 가능한 모든 사건의 확률의 합은 1이다.
  •  A와 B가 독립 사건인 경우, 각 독립사건들의 확률의 합은 합집합의 확률과 동일하다.
  •  전체 표본 중 독립적인 것을 근원 사건이라 한다.

36. boxplot에 대한 설명으로 적절하지 않은 것은?
  •  박스플롯의 가운데 중심선은 중앙값을 의미한다.
  •  다섯개 숫자(최소값, 최대값, 중앙값, 제1사분위수, 제3사분위수)를 확인할 수 있다.
  •  데이터의 전체적인 분포를 확인할 수 있다.
  •  이상치를 확인하는 데는 부적절하다.

37. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 알맞지 않은 것은?
  •  Q-Q plot
  •  결정 계수
  •  히스토그램
  •  첨도와 왜도

38. 다음 중 K-Fold 교차검증에 대한 내용으로 옳지 않은 것은?
  •  K=2인 경우, LOOCV라고 한다.
  •  주어진 데이터를 가지고 K번 반복적으로 성과를 측정해 그 결과를 평균한다.
  •  K-Fold는 데이터를 K개로 분할하는 것을 의미한다.
  •  데이터가 충분하지 않은 경우 주로 사용한다.

39. 다음 중 입력 신호를 받아 출력 신호로 연결하기 위한 활성화 함수로 로지스틱 회귀 모델에서도 사용하는 함수는 무엇인가?
  •  sigmold
  •  ReLU
  •  tanh
  •  log

40. 다음 중 통계적 가설검정에 대한 설명으로 옳지 않은 것은?
  •  귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생하는 오류를 유의수준이라 한다.
  •  귀무가설이 거짓일 경우, 이를 옳지 않다고 판단하는 확률을 검정력이라 한다.
  •  사실인 귀무가설을 기각했을 때 발생하는 오류를 제 2종 오류라 한다.
  •  p-value(유의확률)이 클수록 귀무가설을 채택하는 것으로 해석한다.

41. 분해시계열의 요인으로 알맞지 않은 것은?
  •  추세 요인
  •  계절 요인
  •  환경 요인
  •  순환 요인

42. 다음 중 성격이 다른 한가지는?
  •  K-Means
  •  Single Linkage Method
  •  DBSCAN
  •  주성분분석

43. 비계층적 군집분석인 K-means 군집 분석의 수행 순서는?
가) 초기 군집의 중심으로 k개의 객체를 임의로 선택한다.
나) 각 자료를 가장 가까운 군집 중심에 할당한다.
다) 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신한다.
라) 군집 중심의 변화가 거의 없을 때까지 나)와 다)를 반복한다.
  •  가-나-다-라
  •  나-가-다-라
  •  다-나-가-라
  •  라-가-나-다

44. 아래 오분류표를 이용하여 구한 민감도(sensitivity) 값은 얼마인가?
  •  0.4
  •  0.3
  •  0.15
  •  0.5

45. 앙상블 모형이란 주어진 자료로부터 여러 개의 예측 모형을 만든 후 이러한 예측 모형들을 결합하여 하나의 최종 예측 모형을 만드는 방법을 말한다. 다음 중 앙상블 모형에 대한 설명으로 적절하지 않은 것은?
  •  배깅은 주어진 자료에서 여러개의 붓스트랩(bootstrap) 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 모형을 만드는 방법이다.
  •  부스팅은 배깅의 과정과 유사하여 재표본 과정에서 각 자료에 동일한 확률을 부여하여 여러 모형을 만들어 결합하는 방법이다.
  •  랜덤 포레스트는 의사결정나무모형의 특징인 분산이 크다는 점을 고려하여 배깅보다 더 많은 무작위성을 추가한 방법으로 약한 학습기들을 생성하고 이를 선형 결합해 최종 학습기를 만드는 방법이다.
  •  앙상블 모형은 훈련을 한 뒤 예측을 하는데 사용하므로 교사학습법(Supervised Learning)이다.

46. 다음 코드는 chickwts dataset의 weight 변수의 t.test결과에 대한 해석이다. 이에 대한 내용으로 가장 적절하지 않은 것은?
  •  닭 무게 260은 신뢰구간 안에 존재한다.
  •  전체 관측치의 수는 70이다.
  •  닭 무게의 95% 신뢰구간은 242.8~279.7이다.
  •  닭 무게의 점 추정량은 261.3이다

47. 다음 중 데이터 마이닝 프로세스 순서로 올바르게 나열한 것은 무엇인가?
가) 목적 정의
나) 데이터 준비 
다) 데이터 가공
라) 데이터 마이닝 기법의 적용
마) 검증
  •  가 - 마 - 다 - 나 - 라
  •  가 - 나 - 다 - 라 - 마
  •  가 - 나 - 라 - 마 - 다
  •  나 - 가 - 다 - 라 - 마

48. 다음의 수식에 해당하는 데이터 간의 거리 계산 방식은 무엇인가?
  •  유클리드 거리
  •  맨해튼 거리
  •  민코프스키 거리
  •  마할라노비스 거리

49. 확률적 표본추출 방법이 아닌 것은?
  •  단순 무작위 추출법
  •  계통 추출법
  •  집단 추출법
  •  층화 추출법

50. 확률 변수 X가 확률 질량 함수를 갖는 이산형 확률 변수 인 경우 그 기댓값으로 옳은 것은?
  •  E(x) = Σxf(x)
  •  E(x) = ∫xf(x)
  •  E(x) = e[(x-μ)²]
  •  E(x) = x³ - x²

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr