데이터분석 준전문가 랜덤

데이터 이해


1. 빅데이터가 발전한 요인이 아닌 것은?
  • 1
     정형 데이터의 폭증
  • 2
     하둡 등 분산처리 기술의 발전
  • 3
     SNS 등 비정형 데이터의 증가
  • 4
     클라우드 컴퓨팅의 발전

2. 다음 중 기업의 전략 도출을 위한 가치 기반 분석과 관련된 설명으로 옳지 않은 것은?
  • 1
     핵심적인 비즈니스 이슈에 답을 주는 분석은 기업의 경쟁 전략과 밀접하게 연관된다.
  • 2
     다양한 대량의 데이터를 수집, 분석하여 새로운 정보나 인사이트를 도출하고, 이를 기반으로 비즈니스 가치를 창출하는 것이 중요하다.
  • 3
     전략적 분석과 통찰력의 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다.
  • 4
     기존 성과를 유지하고 업계를 따라잡는 것이 전략적 가치 기반 분석의 가장 중요한 목표이다.

3. 다음 중 직원 개개인의 지식, 프로젝트 경험, 과거 사례 등 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 것이 목적인 데이터베이스 시스템은 무엇인가?
  • 1
     KMS
  • 2
     SCM
  • 3
     ERP
  • 4
     CRM

4. 빅데이터와 인문학 열풍과 관련된 내용으로 상관 없는 것은?
  • 1
     단순 세계에서 복잡한 세계로의 변화
  • 2
     비즈니스의 중심이 제품 생산에서 서비스로 이동
  • 3
     빅데이터 분석 기법 및 방법론의 확대
  • 4
     경제와 산업의 논리가 생산에서 시장 창조로 바뀜

5. 데이터베이스의 일반적인 특징으로 옳지 않은 것은?
  • 1
     데이터베이스는 다수가 공동으로 이용하는 공용 데이터이다.
  • 2
     데이터베이스는 응용프로그램의 종속성을 가진다.
  • 3
     데이터베이스는 컴퓨터가 접근 가능한 저장매체에 데이터를 저장한다
  • 4
     데이터베이스는 동일한 내용의 데이터가 중복되지 않는 통합 데이터이다.

6. 이미지, 로그, 영상, 텍스트 등의 데이터 형태로 알맞은 것은?
  • 1
     Structured data
  • 2
     Qualitative data
  • 3
     Unstructured data
  • 4
     Semi-Structured data

7. 다음 설명에 해당하는 빅데이터 활용 테크닉은 무엇인가?
"최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?와 같은 최적화 메커니즘을 찾아가는 방법이다"

8. 빅데이터가 만들어낸 변화의 양상으로 옳지 않은 것은?
  • 1
     표본조사-->대면조사
  • 2
     사후처리-->사전처리
  • 3
     질보다-->양적으로
  • 4
     인과관계-->상관관계

9. 다음 중 기업의 데이터 분석 도입의 수준 진단의 대상으로 가장 적절하지 않은 것?
  • 1
     분석 업무 파악
  • 2
     분석 기법
  • 3
     분석 인력 및 조직
  • 4
     분석 성과 평가

10. 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업으로 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가를 무엇이라 하는가?
  • 1
     데이터 엔지니어
  • 2
     알고리즈미스트
  • 3
     데이터 사이언티스트
  • 4
     데이터 분석가

데이터분석 기획


11. 다음 중 데이터 분석을 위한 조직 구조로 옳지 않은 것은?
  • 1
     사업 구조
  • 2
     집중 구조
  • 3
     분산 구조
  • 4
     기능 구조

12. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가?
데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
  • 1
     데이터 표준화
  • 2
     표준화 활동
  • 3
     데이터 저장 관리
  • 4
     데이터 관리 체계

13. 분석 과제 우선순위 선정 매트릭스에 관한 설명 중 가장 적절하지 않은 것은?
  • 1
     시급성의 판단 기준은 전략도 중요도와 비용 범위에 따라 난이도는 분석 수준과 복잡도 평가로 구분한다.
  • 2
     데이터 분석 과제를 추진할 때 우선 고려해야 하는 요소는 전략도 중요도에 따른 시급성이 가장 중요한 요소이다.
  • 3
     난이도는 해당 기업의 현 상황에 따라 조율할 수 있다.
  • 4
     사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면 영역이다.

14. 데이터 분석 방법론 분석 기획 시 고려사항으로 틀린 내용은?
  • 1
     타당성 단계에서 데이터 및 기술적 타당성은 복잡한 문제이기 때문에 다양한 사람들의 의견을 들어보는 것이 중요하다.
  • 2
     장애요소 사전 계획 수립이 필요하다.
  • 3
     분석을 위한 데이터 확보 및 데이터 유형에 대한 분석이 선행되어야 한다.
  • 4
     유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용해야 한다.

15. CRISP-DM에 대한 내용으로 올바른 것은?
가. 데이터 이해에서 데이터 준비 단계로 갈 수 있다.
나. 모델링 단계에서 학습용/테스트용 데이터를 사용해 과소 적합을 확인한다.
다. 비즈니스 이해, 데이터 이해 간 피드백이 가능하다.
라. 평가에서 적합하면 바로 프로젝트 투입이 가능하다.
  • 1
     가, 라
  • 2
     가, 나, 라
  • 3
     가, 나, 다
  • 4
     나, 라

16. 다음 분석 성숙도 단계 중 괄호에 들어갈 단어는 무엇인가?
도입 단계 - (   ) 단계 - 확산 단계 - 최적화 단계

17. 다음 중 데이터 거버넌스의 구성요소가 아닌 것은?
  • 1
     원칙(Principle)
  • 2
     조직(Organization)
  • 3
     분석 방법(Method)
  • 4
     프로세스(Process)

18. 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계는 무엇인가?

19. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?
  • 1
     분석 기획 → 데이터 준비 → 시스템 구현 → 데이터 분석 → 평가 및 전개
  • 2
     분석 기획 → 데이터 분석 → 시스템 구현 → 데이터 준비 → 평가 및 전개
  • 3
     데이터 준비 → 분석 기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개
  • 4
     분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

20. 빅데이터 분석 방법론의 분석 기획 단계 산출물인 프로젝트 범위 정의서(SOW)에 들어가는 내용으로 옳은 것은?
  • 1
     비즈니스 이해
  • 2
     데이터 정의
  • 3
     데이터 스토어 설계
  • 4
     탐색적 분석

데이터분석


21. 다음이 설명하는 기업 내부 데이터베이스 솔루션은 무엇인가?
전사적으로 구축된 데이터웨어 하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터웨어 하우스로 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고 있다.

22. 모집단을 먼저 서로 겹치지 않는 여러개의 층으로 분할한 후, 각 층에서 단순 임의 추출법에 따라 배정된 표본을 추출하는 방법

23. 우등반에 들어가기 위해서는 어느 시험에서 상위 2% 안에 들어야 한다. 해당 시험 점수의 평균이 85점이고 표준편차가 5일 때, 우등반에 들어가기 위한 최소 시험 점수는? (단, P(Z

24. 다음 닭 사료의 종류(feed)와 닭의 성장에 대한 boxplot 결과이다. 옳지 않은 것은?
  • 1
     이상치가 존재하지 않는 것을 알 수 있다.
  • 2
     casein의 경우horsebean보다 중위수가 크다
  • 3
     soybean의 경우 meatmeal보다 최소값, 최대값이 모두 작다.
  • 4
     horsebean사료를 먹은 닭의 무게가 가장 작은 쪽에 분포해 있다.

25. A->B의 신뢰도는?
장바구니    /   item
      1                  A,B,C
      2                  A,C
      3                  B,C
      4                  A,B
      5                  A,C,D
  • 1
     0.75
  • 2
     0.62
  • 3
     0.5
  • 4
     0.4

26. 인공신경망 관련 알고리즘 중 다음 설명은 어떤 것을 말하는가?
지도 학습에서 신경망을 학습 시키는 방법으로, 출력층에서 제시한 값에 대해, 실제 원하는 값으로 학습하는 방법으로 사용되고, 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용되는 알고리즘이다.

27. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?
  • 1
     F-Statistics
  • 2
     Chi-Statistics
  • 3
     T-Statistics
  • 4
     R-Square

28. 스피어만 상관계수에서 사용하는 척도는?
  • 1
     명목척도
  • 2
     서열척도
  • 3
     등간척도
  • 4
     비율척도

29. 수면 유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?
  • 1
     수면유도제 2가 수면유도제 1보다 효과적이다.
  • 2
     유의수준 0.05하에서 두 집단의 평균이 동일하다는 귀무가설을 채택할 수 있다.
  • 3
     두 개의 표본 집단이 크기가 클경우(N>30) 집단의 정규성 검증없이 이 표본 t검정을 사용할 수 있다.
  • 4
     독립표본 t검정 분석 전에 등분산 검정을 실시한다.

30. 주성분 분석의 내용 중 가장 적절하지 않은 것은?
  • 1
     회귀분석의 다중공선성 문제 해결을 위해 사용한다.
  • 2
     서로 상관성이 높은 변수를 선형 결합하여 변수를 축소, 해석상 구조적 문제해결을 위해 사용한다.
  • 3
     다변량 데이터의 저 차원 그래프 표시 및 이상치 탐색에 사용한다.
  • 4
     원래 변수를 선형결합 할 때 목표변수를 고려할 필요는 없다.

31. 시계열 모형에서 ARIMA에 대한 설명으로 옳은 것은?
  • 1
     ARIMA는 Auto- Regressive Improved Moving Average의 약자이다.
  • 2
     ARIMA(p,d,q)에서 p가 0이면 IMA(d,q)모형이다.
  • 3
     AR은 이동평균, MA는 자기회귀 모형이다.
  • 4
     ARIMA는 정상시계열 모형이다.

32. 여러 개의 앙상블 모형 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

33. 다음 수식으로 구할 수 있는 데이터간 거리는?
  • 1
     유클리드 거리
  • 2
     표준화 거리
  • 3
     마할라노비스 거리
  • 4
     민코프스키 거리(민코우스키 거리)

34. K-fold 교차검증에 대한 설명으로 올바르지 않은 것은?
  • 1
     k=2인 경우, LOOCV라고 한다.
  • 2
     주어진 데이터를 가지고 K번 반복적으로 성과를 측정해 그 결과를 평균한다.
  • 3
     K-fold는 데이터를 k개로 분할 하는 것을 의미한다.
  • 4
     데이터가 충분하지 않은 경우 주로 사용한다.

35. 다음 orange 나무에 대한 나이 및 둘레에 대한 분석 결과로 옳지 않은 것은?
  • 1
     circumference의 Median은 115이다
  • 2
     나무 age와 둘레, 키가 유의한 관계를 가진다
  • 3
     age의 IQR은 888이다
  • 4
     Tree의 종류는 5가지이며 각 종류당 7개의 sample이 존재한다.

36. 사회관계망 분석에서 중심성 분석으로 적절하지 않은 것은?
  • 1
     연결 중심성
  • 2
     근접 중심성
  • 3
     매개 중심성
  • 4
     링크 중심성

37. 비계층적 군집분석인 K-means 군집 분석의 수행 순서는?
가) 초기 군집의 중심으로 k개의 객체를 임의로 선택한다.
나) 각 자료를 가장 가까운 군집 중심에 할당한다.
다) 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신한다.
라) 군집 중심의 변화가 거의 없을 때까지 나)와 다)를 반복한다.
  • 1
     가-나-다-라
  • 2
     나-가-다-라
  • 3
     다-나-가-라
  • 4
     라-가-나-다

38. 아래의 덴드로그램을 사용하여 100일 때의 군집의 수를 구하여라.

39. 이상치 관련한 설명으로 가장 옳지 않은 것은?
  • 1
     DBSCAN 군집을 실행해 군집에 포함되지 않은 것을 이상치로 한다.
  • 2
     ESD 방법에서는 평균 -3*표준편차보다 작거나, 평균 +3*표준편차보다 큰 데이터를 이상치로 규정한다.
  • 3
     기하평균을 이용하는 경우 기하평균 -2.5*표준편차 보다 작거나, 기하평균 +2.5*표준편차보다 큰 데이터를 이상치로 규정한다.
  • 4
     IQR을 사용하는 방식의 경우 Q2(중위수)+1.5*IQR 보다 크거나 Q2(중위수)-1.5*IQR 작은 데이터를 이상치로 규정한다.

40. 다음 중 통계 용어에 대한 설명으로 옳지 않은 것은?
  • 1
     다른 변수의 영향을 받는 변수를 설명 변수라고 한다.
  • 2
     모집단의 평균을 추정하기 위해 표본 평균을 계산한다.
  • 3
     표준 편차는 데이터가 평균으로부터 떨어진 정도를 나타내는 척도이다.
  • 4
     사분위수범위는 데이터의 25%, 50%, 75%에서 25%의 값을 빼준 값이다.

41. 거리를 활용한 측도에 대한 설명으로 틀린 것은?
  • 1
     유클리드는 두 점 사이의 거리로, 가장 직관적이고 일반적인 거리의 개념이다.
  • 2
     맨해튼 거리는 두 점의 좌표 간의 절대값 차이를 구하는 것이다
  • 3
     마할라노비스는 변수의 표준화를 고려하고, 변수 간의 상관성을 고려하지 않는다.
  • 4
     표준화, 마할라노비스 거리는 통계적 거리의 개념이다

42. 다음 Wage 데이터의 wage변수에 대한 t검정 결과에 대한 해석으로 옳지 않은 것은?
  • 1
     자유도(degree of freedom)은 2999이다.
  • 2
     유의수준 0.05일 때 귀무가설은 기각되지 않는다.
  • 3
     대립 가설은 'wage의 평균은 100과 같지 않다'이다.
  • 4
     95% 신뢰구간에 점추정 값이 포함되어 있다.

43. 모집단의 크기가 비교적 작을 때 주로 사용되며 한번 추출된 표본이 재 추출될 수 있는 표본 추출 방법은 무엇인가?
  • 1
     복원 추출법
  • 2
     층화 추출법
  • 3
     군집 추출법
  • 4
     계층 추출법

44. 다음 중 K-means 군집의 단점으로 가장 부적절한 것은?
  • 1
     볼록한 형태가 아닌 군집이 존재하면 성능이 떨어진다.
  • 2
     사전에 주어진 목적이 없으므로 결과 해석이 어렵다.
  • 3
     잡음이나 이상값에 영향을 많이 받는다.
  • 4
     한 번 군집이 형성되면 군집 내 객체들은 다른 군집으로 이동 할 수 없다.

45. 다음 빈칸에 들어갈 알맞은 용어는?
(         ) 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최솟값을 측정하는 계측정 군집의 거리 기반 측정 방법이다. 사슬 모양으로 생길 수 있으며 고립된 군집을 찾는데 중점을 두는 방식이다.

46. 아래의 오 분류표에서 특이도 값을 구하는 식을 구하시오.
  • 1
     TP / (TP + FN)
  • 2
     (TP + TN) / (TP + FP + FN + TN)
  • 3
     TN / (TN + FP)
  • 4
     TP / (TP + FP)

47. 777개 대학을 대상으로 졸업률이 비용과 관련 있는가를 회귀 분석한 결과이다. 잘못 해석한 것은 무엇인가? 등록금(Outstate), 기숙사 비용(Room.board), 개인비용지출(Personal)
  • 1
     등록금이 높아지면 졸업률이 높아진다
  • 2
     개인비용지출이 노파지면 졸업률이 낮아진다.
  • 3
     비용과 졸업률 사이의 인과관계를 확인 할 수 있다.
  • 4
     모든 변수의 회귀 계수는 유의미하다.

48. 다음 설명에 해당되는 앙상블 기법은?
여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법이다.
  • 1
     배깅(bagging)
  • 2
     부스팅(boosting)
  • 3
     Voting
  • 4
     Stacking

49. 상관분석에 대한 설명으로 옳은 것은?
  • 1
     스피어만 상관계수는 선형관계 파악만 가능하다.
  • 2
     피어슨 상관계수는 서열척도에서 사용한다.
  • 3
     피어슨 상관계수가 0이면 상관관계가 없다.
  • 4
     공분산은 측정 단위에 영향을 받지 않는다.

50. 회귀방정식의 변수 선택 방법에 대한 설명으로 적절하지 않는 것은
  • 1
     전진선택법은 변수를 추가해도 영향을 받지 않는다.
  • 2
     후진제거법은 독립변수 후보 모두를 포함한 모형에서 시작한다.
  • 3
     단계별 선택법은 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선 시키는 변수를 추가한다.
  • 4
     회귀모델에서 변수 선택을 위한 판단 기준에는 Cp, AIC, BIC등이 있으며 값이 작을수록 좋다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr