데이터분석 준전문가 랜덤

데이터 이해


1. 다음 괄호 안에 들어갈 말로 알맞은 것은?
데이터 오용의 피해를 막아 줄 유망한 직업으로 알고리즘 접근권 보장, 알고리즘에 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 전문가인(  )의 역할이 대두됨.
  •  데이터관리자
  •  알고리즈미스트
  •  정보보안전문가
  •  애널리스트

2. 암묵지와 형식지 상호작용의 과정 중 개인의 내재된 경험을 객관적인 데이터로 변환하여 문서나 매체에 저장.가공.분석하는 과정을 무엇이라고 하는가?
  •  표출화
  •  연결화
  •  내재화
  •  공통화

3. 데이터 NoSQL 저장 방식과 관련이 없는 도구는?
  •  MongoDB
  •  HBase
  •  Radis
  •  MySQL

4. 다음 데이터 사이언스에 대한 설명으로 가장 부적절한 것은?
  •  데이터 사이언스란 데이터로부터 의미있는 정보를 추출해내는 학문이다.
  •  분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념이다.
  •  정형 데이터를 대상으로 총체적 접근법을 사용한다.
  •  과학과 인문학의 교차로에 서 있다고 할 수 있다.

5. 다음 중 분석 과제 정의서에 필수적으로 포함되어야 할 항목이 아닌 것은?
  •  필요 소스 데이터/ 분석 정의
  •  데이터 입수 난이도
  •  분석 수행주기
  •  상세 분석 알고리즘

6. 데이터 크기를 작은 것 부터 큰 것 순서로 올바르게 나열한 것은?
  •  PB < EB < ZB < YB
  •  PB < YB < EB < ZB
  •  YB < ZB < EB < PB
  •  PB < ZB < EB < YB

7. 경영정보시스템의 하나로 다양한 비즈니스 분야에서 생산,구매,재고,주문,공급자와의 거래, 고객 서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지를 무엇이라고 하는가?
  •  CRM
  •  ERP
  •  SCM
  •  KMS

8. 다음 중 DIKW 피라미드 계층 구조의 단계별 정의와 예시가 올바르게 연결된 것은 무엇인가?
(가) A학교의 수학 평균점수가 B학교의 수학 평균점수보다 높다
(나) A학교가 B학교보다 다른 과목의 점수도 높을 것이다
(다) A학교의 모의평가 수학 평균점수는 80점, B학교의 모의평가 수학 평균점수는 70점이다
(라) A학교가 B학교보다 수학을 잘 할 것이다
  •  (가) 정보
  •  (나) 지식
  •  (다) 지혜
  •  (라) 데이터

9. 다음 데이터베이스의 특징에 대한 설명 중 옳지 않은 것은 무엇인가?
  •  통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다.
  •  저장된 데이터로 컴퓨터가 접근할 수 있는 저장 매체에 저장된다.
  •  공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
  •  변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야한다.

10. 다음 비식별화 기법에 대한 설명으로 틀린 것은?
  •  가명처리는 식별할 수 없는 다른 값으로 대체를 의미한다.
  •  데이터 마스킹은 개인 정보 식별이 가능한 특정 값을 삭제하는 것이다.
  •  범주화는 단일 식별 정보 해당 그룹의 대푯값으로 변환을 한다.
  •  총계처리는 총합 또는 평균값으로 대체하여 개별 데이터의 값이 보이지 않도록 하는 것이다.

데이터분석 기획


11. 분석 마스터플랜 수립 시 우선 순위 고려사항에 해당하지 않는 것은?
  •  전략적 중요도
  •  비즈니스 성과 및 ROI
  •  실행 용이성
  •  데이터 필요 우선 순위

12. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험 계획 수립 시 위험에 대한 대응 방법의 종류에 포함되지 않는 것은?
  •  회피(Avoid)
  •  수용(Accept)
  •  완화(Mitigate)
  •  관리(Management)

13. 데이터 분석을 위한 분석 업무 조직 구조에 대한 설명으로 옳지 않은 것은?
  •  집중형 조직 구조는 일부 협업 부서와 분석 업무가 중복 또는 이원화 될 가능성이 있다.
  •  기능 중심 조직 구조는 전사적 관점에서 핵심 분석이 어렵다.
  •  분산 조직 구조는 분석 결과 실무 적용에 대한 대응이 느리다.
  •  분석 조직의 인력들이 협업 부서에 배치되어 업무를 수행하는 것은 분산 조직 구조이다.

14. 빅데이터의 4V는 빅데이터의 3V에 무엇이 추가된 것인가?
  •  Volume
  •  Value
  •  Variety
  •  Velocity

15. 다음 분석과제의 특징 중 Accuracy와 Pricision에 대한 설명으로 틀린 것은?
  •  분석의 활용적인 측면에서는 Accuracy가 중요하며, 안정적인 측면에서는 Precision이 중요하다.
  •  Accuracy와 Precision의 관계는 트레이드 오프(Trade-off)가 되는 경우가 많다
  •  Accuracy는 True로 예측된 것 중 실제 True인 것의 비율, Precision은 실제 True인 것 중 True로 예측된 것의 비율이다.
  •  Precision은 모델을 반복했을 때의 편차를 의미한다.

16. 다음 중 CRISP-DM의 모델링 단계에서 수행하는 업무(TASK)로 옳지 않은 것은?
  •  모델링 기법 선택
  •  데이터 통합
  •  모델 테스트 계획 설계
  •  모델 평가

17. 분석 준비도 프레임 워크에 대한 내용이 아닌 것은?
  •  분석 인력 및 조직, 분석 인프라
  •  분석 업무 파악, 분석 데이터
  •  분석 성과, 분석 문화
  •  분석 인력 및 조직, 분석 문화

18. 분석 활용 시나리오에 대한 설명으로 틀린 것은?
  •  데이터 확보가 가장 중요하다.
  •  데이터 분석을 특정 목적에 맞게 활용하는 방법 또는 계획을 의미한다.
  •  분석 목표와 분석 방법을 설명하고 예상 결과를 제시하는 문서이다.
  •  프로젝트 진행 중에도 변경될 수 있다.

19. 하향식 접근 방법에 대한 설명으로 옳지 않은 것은?
  •  빠짐없이 문제를 도출하고 식별하는 것이 중요하다.
  •  문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요하다.
  •  비즈니스 모델 캔버스를 문제 탐색 도구로 활용한다.
  •  분석 유스케이스 활용보다는 새로운 문제 탐색이 우선한다.

20. 빅데이터 분석 방법론의 계층적 프로세스 모델에 대한 설명으로 적절하지 않은 것은?
  •  Task 단계를 구성하는 단위 활동으로 input, output으로 구성된 단위 프로세스이다.
  •  Phase(단계)는 최상위 단계로 프로세스 그룹을 통하여 완성된 단계별 산출물을 생성한다.
  •  Step(스텝)은 마지막 계층으로 WBS(Work Breakdown Structure)의 워크 패키지에 해당한다.
  •  Phase, Task, Step 계층이 있다.

데이터분석


21. 다음은 어느 마트의 판매 품목에 대한 결과이다. 커피 -> 우유에 대한 향상도는?
장바구니  /  item
1    커피,빵
2    커피,계란,우유
3    계란,커피,빵,우유
4    계란,우유
5    커피,우유
6    커피,빵,계란
7    우유,빵
  •  0.6
  •  1.25
  •  0.43
  •  0.84

22. 다음 중 두 좌표 A,B간의 유클리드 거리(Euclidean Distance)는?
    A : B
키  : 175  : 180
몸무게:   70   :  65
  •  10
  •  50
  •  √10
  •  √50

23. 어떤 슈퍼마켓 고객 6명의 장바구니 별 구입 품목이 다음과 같다고 한다면, 연관 규칙(콜라→맥주)의 지지도는?
  •  0.6
  •  0.4
  •  0.5
  •  0.3

24. 사회연결망 분석에서 연결망을 표현하는 분석 방법으로 옳지 않은 것은?
  •  K-means
  •  네트워크 그래프
  •  클러스터링
  •  영향력분석

25. 표본 조사에 대한 설명이 부적절한 것은?
  •  표본 오차(Sampling error)는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 의미한다.
  •  표본 편의(Sampling bias)는 표본 추출방법에서 기인하는 오차를 의미한다.
  •  표본 편의는 확률화(Randomization)에 의해 최소화하거나 없앨 수 있다.
  •  비표본 오차(non-sampling error)는 표본크기가 증가함에 따라 감소한다.

26. 다음 수식으로 구할 수 있는 데이터간 거리는?
  •  유클리드 거리
  •  표준화 거리
  •  마할라노비스 거리
  •  민코프스키 거리(민코우스키 거리)

27. 다음 중 K-Fold 교차검증에 대한 내용으로 옳지 않은 것은?
  •  K=2인 경우, LOOCV라고 한다.
  •  주어진 데이터를 가지고 K번 반복적으로 성과를 측정해 그 결과를 평균한다.
  •  K-Fold는 데이터를 K개로 분할하는 것을 의미한다.
  •  데이터가 충분하지 않은 경우 주로 사용한다.

28. 다음 중 연관 분석에 대한 특징으로 적절한 것은 무엇인가?
  •  조건반응(if ~ then)으로 표현되는 연관 분석의 결과를 이해하기 쉽다.
  •  강력한 목적성 분석 기법에 해당한다.
  •  세분화된 품목을 가지고 연관규칙을 찾아야만 의미 있는 분석 결과가 도출된다.
  •  분석 품목 수가 증가하더라도 분석 계산이 많이 증가하지는 않는다.

29. SOM에 대한 설명으로 옳지 않은 것은?
  •  SOM은 비지도 학습이다.
  •  SOM은 차원 축소와 군집화를 동시에 수행하는 기법이다.
  •  입력층과 출력층이 부분연결 되어 있다.
  •  출력 뉴런들은 승자 뉴런이 되기 위해 경쟁하고 오직 승자만이 학습한다.

30. 앙상블 기법에 대한 설명으로 알맞은 것은?
  •  앙상블 기법을 사용하게 되면 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.
  •  대표적인 앙상블 기법은 배깅, 부스팅이 있다.
  •  전체적인 예측값의 분산을 유지하여 정확도를 높일 수 있다.
  •  랜덤 포레스트는 앙상블 기법 중 유일한 비지도 기법이다.

31. 다음 중 나이, 신분, 급여 등을 사용한 신용카드 월간 사용액 예측에 적합한 모형은?
  •  능형 회귀 모형(Ridge Regression)
  •  로지스틱 회귀 모형(Logistic Regression)
  •  DBSCAN
  •  SOM

32. 다음 오분류표를 사용하여 재현율을 구한 결과는 무엇인가?
  •  0.15
  •  0.3
  •  0.4
  •  0.55

33. 우등반에 들어가기 위해서는 어느 시험에서 상위 2% 안에 들어야 한다. 해당 시험 점수의 평균이 85점이고 표준편차가 5일 때, 우등반에 들어가기 위한 최소 시험 점수는? (단, P(Z

34. 다음 중 ARIMA(1, 2, 3)모형에서 ARMA로 정상화할 때 필요한 차분 수는?
  •  0
  •  1
  •  2
  •  3

35. 다음 중 데이터 마이닝 프로세스 순서로 올바르게 나열한 것은 무엇인가?
가) 목적 정의
나) 데이터 준비 
다) 데이터 가공
라) 데이터 마이닝 기법의 적용
마) 검증
  •  가 - 마 - 다 - 나 - 라
  •  가 - 나 - 다 - 라 - 마
  •  가 - 나 - 라 - 마 - 다
  •  나 - 가 - 다 - 라 - 마

36. 다음 회귀 분석 결과에 대한 해석 중 옳지 않은 설명은 무엇인가?
  •  로지스틱 회귀 모형을 사용한 분석 결과이다.
  •  income은 default를 설명하는데 통계적으로 유의미한 변수이다.
  •  studentYes의 값이 Yes 일 때, 채무 불이행(default)될 확률이 낮다.
  •  balance는 default를 설명하는데 통계적으로 유의미한 변수이다.

37. 아래 데이터는 닭의 성장률에 대한 다양한 사료 보충제의 효과를 측정하고 비교하기 위한 사료 유형 별 닭의 무게 데이터이다. summary함수 결과에 대한 해석 옳지 않은 것은?
  •  feed는 범주형 데이터이다.
  •  feed의 사료 중 soybean의 수가 가장 많다.
  •  range(chickwts$weight) 결과는 108 423이다.
  •  weight의 평균값은 258.0이다

38. 아래의 오 분류표에서 특이도 값을 구하는 식을 구하시오.
  •  TP / (TP + FN)
  •  (TP + TN) / (TP + FP + FN + TN)
  •  TN / (TN + FP)
  •  TP / (TP + FP)

39. 다음의 품목/거래량 표를 사용하여 연관 규칙(딸기→사과)의 향상도는 무엇인가?
  •  0.3
  •  0.3 / (0.7*0.45)
  •  0.3 / 0.7
  •  0.3 / (0.7 + 0.45)

40. 학습 데이터에 너무 잘 맞게 학습되어 학습 데이터에 대한 성능은 매우 높지만 평가 데이터에 대한 성능은 낮은 상태를 무엇이라고 하는가?

41. 데이터 분할에 대한 설명 중 틀린 것은?
  •  데이터 마이닝 적용 후 결과의 신빙성 검증을 위해 데이터를 학습, 검증, 테스트 데이터로 나누어 사용한다.
  •  검증용 데이터는 모델 성능 평가에 사용한다.
  •  테스트용 데이터와 학습 데이터는 섞여서는 안된다.
  •  학습 데이터를 사용해 학습을 진행한다.

42. 다음이 설명하는 앙상블 모형의 종류는?
여러 모델이 순차적인 학습을 하며, 이전 모델의 결과에 따라 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치(weight)를 부여하여 표본을 추출한다.

43. 다음의 거리표를 사용해 최단 연결법으로 계층적 군집화를 할 경우, 첫 번째 단계에서 형성되는 군집과 a와의 거리는 얼마인가?
  •  3.6
  •  2.2
  •  3.2
  •  5.0

44. 회귀모형에 대한 가정에 대한 설명이다. 빈 칸에 알맞은 용어는?
-잔차와 독립변수의 값이 관련되어 있지 않아야 한다. - 독립성
-잔차들끼리 상관이 없어야 한다. - 비상관성
- (   )이 정규분포를 이뤄야 한다. - 정상성

45. 시계열 모형에서 ARIMA에 대한 설명으로 옳은 것은?
  •  ARIMA는 Auto- Regressive Improved Moving Average의 약자이다.
  •  ARIMA(p,d,q)에서 p가 0이면 IMA(d,q)모형이다.
  •  AR은 이동평균, MA는 자기회귀 모형이다.
  •  ARIMA는 정상시계열 모형이다.

46. 다음 중 분류 모형 평가에 사용되는 도구가 아닌 것은?
  •  ROC 그래프
  •  덴드로그램
  •  향상도 곡선
  •  이익 도표

47. 의사결정 나무에 대한 설명 중 적절하지 않은 것은?
  •  비지도 학습으로 상향식 접근 방법을 이용한다.
  •  구조가 단순하여 해석이 용이하다
  •  목표 변수가 이산형인 경우 분류나무, 목표변수가 연속형인 경우 회귀나무가 있다.
  •  부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다.

48. 다음 중 동전 3개를 던져서 앞면이 한번 나올 확률은?
  •  1/4
  •  3/8
  •  1/2
  •  5/8

49. 다음 중 과대 적합 방지를 위한 방법이 아닌 것은 무엇인가?
  •  배깅(bagging)
  •  홀드 아웃(Hold-out)
  •  의사결정 나무
  •  Lasso, Ridge 모델

50. 아래 데이터셋 A,B 간의 유사성을 유클리드 거리로 계산하면 얼마인가?
  •  50
  •  25
  •  √50
  •  10

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr