데이터분석 준전문가 랜덤

데이터 이해


1. 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업으로 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가를 무엇이라 하는가?
  • 1
     데이터 엔지니어
  • 2
     알고리즈미스트
  • 3
     데이터 사이언티스트
  • 4
     데이터 분석가

2. 다음 데이터 사이언스에 대한 설명으로 가장 부적절한 것은?
  • 1
     데이터 사이언스란 데이터로부터 의미있는 정보를 추출해내는 학문이다.
  • 2
     분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념이다.
  • 3
     정형 데이터를 대상으로 총체적 접근법을 사용한다.
  • 4
     과학과 인문학의 교차로에 서 있다고 할 수 있다.

3. DIKW 피라미드 예시 중 맞는 것은?
  • 1
     D(Data): A마트는 100원, B마트는 200원에 연필을 판매한다.
  • 2
     I(Information): B마트가 A마트보다 연필이 100원 더 비싸다.
  • 3
     K(Knowledge): B가 A보다 연필이 더 싸니깐 B에서 사야겠다.
  • 4
     W(Wisdom): 문구류는 전반적으로 A마트가 더 저렴할 것이다.

4. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?
  • 1
     운송 비용의 절감
  • 2
     상품 개발과 조립 비용의 절감
  • 3
     서비스 산업의 확대와 제조업의 축소
  • 4
     새로운 수익원의 발굴 및 활용

5. 다음 중 빅데이터 출현 배경과 거리가 먼 것은 무엇인가?
  • 1
     기술 발전에 따른 저장 및 분석 비용의 감소
  • 2
     스마트폰 및 인터넷 보급을 통한 기하급수적인 데이터의 양의 증가
  • 3
     오디오, 비디오와 같이 정형화되지 않은 데이터의 증가
  • 4
     누구나 접근할 수 있는 공공정보의 개방

6. 별도로 분석 조직이 없으며, 해당 업무부서에서 직접 분석을 수행하는 구조는 무엇인가?
  • 1
     집중 구조
  • 2
     기능 중심 구조
  • 3
     분산 구조
  • 4
     DSCoE

7. 다음 데이터에 대한 설명으로 가장 적절하지 않은 것은?
  • 1
     추론, 예측, 전망, 추정을 위한 근거(basis)로 기능하는 특성을 갖는다.
  • 2
     데이터는 축적된 지식과 아이디어가 결합된 창의적인 산물이다.
  • 3
     데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실이다.
  • 4
     다른 객체와의 상호 관계 속에서 가치를 갖는다.

8. 다음 중 빅데이터 활용 기법에 관한 설명으로 옳지 않은 것은?
  • 1
     군집분석을 통해 고객의 개인 신용 평가에 활용한다.(신용 예측에 활용한다.)
  • 2
     최적화 문제에 대한 해결 방안으로 사용되는 빅데이터 분석은 유전 알고리즘이다.
  • 3
     특정 주제에 대해 사용되는 텍스트를 분석하는 것을 감정(성)분석이라 한다.
  • 4
     최근 핀테크 기업들은 사회연결망 분석을 활용하고 있다.

9. 빅데이터 특징 중 올바르지 않는 것은?
  • 1
     비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많다.
  • 2
     사전처리에서 사후처리 시대로 변화하였고, 사전처리의 대표적인 예로는 표준화 된 문서 포맷을 들 수 있다.
  • 3
     표본조사의 중요성이 높아졌다.
  • 4
     데이터 수가 증가함에 따라 몇 개의 오류데이터가 대세에 영향을 주지 못하는 경향이 증가하고 있다.

10. 인공지능의 한 종류로 방대한 양의 데이터로부터 컴퓨터가 패턴과 규칙을 찾고 이를 학습하여 분류 또는 예측에 활용하는 빅데이터 분석 기법은 무엇인가?
  • 1
     머신러닝
  • 2
     강화학습
  • 3
     감정분석
  • 4
     유전 알고리즘

데이터분석 기획


11. 하향식 접근 방식에 대한 설명으로 틀린 것은?
  • 1
     하향식 접근 방식의 데이터 분석 기획의 단계는 문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토 순서이다.
  • 2
     분석 유즈 케이스는 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 한다.
  • 3
     하향식 접근 방식은 유사/ 동종 사례 벤치마킹을 통한 분석 기회 발굴을 하는 내부 참조 모델 기반 문제 탐색을 한다.
  • 4
     분석 유즈 케이스는 풀어야 할 문제에 대한 상세 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시한다.

12. 분석 과제 우선순위 선정 매트릭스에 관한 설명 중 가장 적절하지 않은 것은?
  • 1
     시급성의 판단 기준은 전략도 중요도와 비용 범위에 따라 난이도는 분석 수준과 복잡도 평가로 구분한다.
  • 2
     데이터 분석 과제를 추진할 때 우선 고려해야 하는 요소는 전략도 중요도에 따른 시급성이 가장 중요한 요소이다.
  • 3
     난이도는 해당 기업의 현 상황에 따라 조율할 수 있다.
  • 4
     사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면 영역이다.

13. 다음은 어떤 분석 모델 프로세스에 관한 설명인가?
사용자 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 사용, 일단 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법을 취한다.

14. 데이터 분석 과제에서 분석 프로젝트 관리에 대한 설명 중 틀린 것은?
  • 1
     분석 과제는 분석 전문가의 상상력을 요구하므로 일정을 제한하는 일정 계획은 적절하지 못하다.
  • 2
     분석 과제는 적용되는 알고리즘에 따라 범위가 변할 수 있어 범위 관리가 중요하다.
  • 3
     분석 과제에서 다양한 데이터를 확보하는 경우가 있어 조달관리 또한 중요하다.
  • 4
     분석 과제에는 많은 위험이 있어 사전에 위험을 식별하고 대응 방안을 수립해야 한다.

15. 다음 중 분석 마스터 플랜 수립 과정에서 데이터 분석 우선순위를 평가할 때 고려해야 할 사항으로 옳지 않은 것은?
  • 1
     분석 기술 능력
  • 2
     전략적 중요도
  • 3
     실행 용이성
  • 4
     ROI

16. 분석 마스터 플랜의 과제 우선순위 결정과 관련된 내용으로 적절하지 않은 것은?
  • 1
     난이도 판단 기준은 데이터 획득/저장/가공 비용 및 분석 적용 비용, 분석 수준 등이 있다.
  • 2
     시급성의 판단 기준은 전략적 중요도가 핵심이다.
  • 3
     Value(가치)는 투자비용 요소이다
  • 4
     ROI관점에서의 분석 과제 우선순위 평가 기준은 시급성과 난이도가 있다.

17. 다음 분석과제 발굴의 접근방식에 대한 설명 중 옳지 않은 것은?
  • 1
     디자인 싱킹은 중요한 의사결정 시 상향식과 하향식을 반복적으로 사용하는 방법이다.
  • 2
     분석해야 하는 대상이 확실할 경우 상향식 접근 방식을 사용한다.
  • 3
     데이터를 활용하여 생각하지 못했던 인사이트를 도출하고 시행착오를 통해 개선해가는 상향식 접근법의 유용성이 점차 증가하고 있는 추세이다.
  • 4
     분석과제 발굴의 상향식과 하향식 접근법은 실제 분석 과정에서 혼용되어 활용되는 경우가 많다.

18. 분석 마스터플랜 수립 시 적용 범위/ 방식의 고려 요소가 아닌 것은?
  • 1
     업무 내재화 적용 수준
  • 2
     분석 데이터 적용 수준
  • 3
     기술 적용 수준
  • 4
     실행 용이성

19. ROI의 4V중 RETURN에 해당하는 것은?
  • 1
     Volume
  • 2
     Variety
  • 3
     Velocity
  • 4
     Value

20. 다음 중 기업의 분석 도입의 수준을 파악하기 위한 분석 준비도와 관계가 적은 항목은 무엇인가?
  • 1
     분석 인력 및 조직
  • 2
     분석 기법
  • 3
     목표와 정책
  • 4
     분석 데이터

데이터분석


21. 다음 중 모수에 대한 설명으로 옳지 않은 것은?
  • 1
     표본 평균은 모든 데이터를 더한 값을 데이터의 개수로 나눈 값이다.
  • 2
     중앙값은 데이터의 중간에 있는 값을 의미 한다.
  • 3
     표본 분산은 모든 데이터의 편차의 제곱 값을 더에 데이터 개수를 n이라고 했을 때, n-1로 나눈 값이다.
  • 4
     p-백분위수는 전체 데이터 중 p번째 순위에 해당하는 값을 의미한다.

22. 다음은 단순회귀분석 결과이다. 이에 대한 설명으로 옳지 않은 것은?
  • 1
     speed가 한 단위 증가할 때 dist는 3.932만큼 증가한다.
  • 2
     유의수준 5%하에서 위의 모델은 통계적 유의미성을 갖는다.
  • 3
     speed 변수의 변동성 중 설명력은 0.6511이다.
  • 4
     speed와 dist의 상관계수는 0보다 클 것이다.

23. 군집분석 시 데이터의 단위가 다를 경우 사용하는 기법으로 알맞은 것은?
  • 1
     Elimination
  • 2
     Sampling
  • 3
     Averaging
  • 4
     Scaling

24. 회귀모형에 대한 가정에 대한 설명이다. 빈 칸에 알맞은 용어는?
-잔차와 독립변수의 값이 관련되어 있지 않아야 한다. - 독립성
-잔차들끼리 상관이 없어야 한다. - 비상관성
- (   )이 정규분포를 이뤄야 한다. - 정상성

25. 다음 오분류표를 사용하여 F1-score를 구하시오.

26. 앙상블 모형의 특징으로 올바르지 않은 것은?
  • 1
     성능을 분산시키기 때문에 과대적합(overfitting) 감소 효과가 있다.
  • 2
     각 모형의 상호연관성이 높을수록 정확도 또한 높아진다.
  • 3
     여러 개의 모형의 결과를 종합하여 정확도를 높이는 방법이다.
  • 4
     Bagging, Boosting 등 다양한 방법의 앙상블 기법이 존재한다.

27. 시계열 모형에서 ARIMA에 대한 설명으로 옳은 것은?
  • 1
     ARIMA는 Auto- Regressive Improved Moving Average의 약자이다.
  • 2
     ARIMA(p,d,q)에서 p가 0이면 IMA(d,q)모형이다.
  • 3
     AR은 이동평균, MA는 자기회귀 모형이다.
  • 4
     ARIMA는 정상시계열 모형이다.

28. 자료의 척도에 대한 설명으로 적절하지 않은 것은?
  • 1
     비율척도 - 사칙연산이 모두 가능하고, 혈액형, 학력 등이 해당된다.
  • 2
     구간척도 - 덧셈, 뺄셈이 가능하고 절대 0점을 포함하지 않는 온도가 이에 해당된다.
  • 3
     서열척도 - 연산이 불가능하고 메달과 같이 범주간 순서가 있는 것이 이에 해당된다.
  • 4
     명목척도 - 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 사용된다.

29. SOM에 대한 설명으로 옳지 않은 것은?
  • 1
     SOM은 비지도 학습이다.
  • 2
     SOM은 차원 축소와 군집화를 동시에 수행하는 기법이다.
  • 3
     입력층과 출력층이 부분연결 되어 있다.
  • 4
     출력 뉴런들은 승자 뉴런이 되기 위해 경쟁하고 오직 승자만이 학습한다.

30. 다음 중 아래의 회귀 분석 결과에 대한 설명으로 옳지 않은 것은?
  • 1
     5개의 독립변수를 갖는 47개의 표본(Sample)이 사용되었다.
  • 2
     독립변수의 수가 많아 수정된 결정 계수 값이 더 작다.
  • 3
     Examination변수는 유의하지 않으므로 회귀식은 Fertility = 66.915 -0.172*Agriculture -0.871* education+0.104*catholic + 1.077*Infant.Mortality이다.
  • 4
     이 모델은 데이터를 70.67% 설명한다.

31. R에서 숫자형, 문자형, 논리형 벡터를 하나로 합친 벡터를 구성하는 경우 합쳐진 벡터의 형식은 무엇인가?
  • 1
     숫자형 벡터
  • 2
     문자형 벡터
  • 3
     논리형 벡터
  • 4
     데이터프레임

32. 다음 중 K-means 군집의 단점으로 가장 부적절한 것은?
  • 1
     볼록한 형태가 아닌 군집이 존재하면 성능이 떨어진다.
  • 2
     사전에 주어진 목적이 없으므로 결과 해석이 어렵다.
  • 3
     잡음이나 이상값에 영향을 많이 받는다.
  • 4
     한 번 군집이 형성되면 군집 내 객체들은 다른 군집으로 이동 할 수 없다.

33. 사회관계망 분석에서 중심성 분석으로 적절하지 않은 것은?
  • 1
     연결 중심성
  • 2
     근접 중심성
  • 3
     매개 중심성
  • 4
     링크 중심성

34. 다음 중 분류 모형에 대한 설명으로 적절한 것은 무엇인가?
  • 1
     레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화되고 이질성에 의해 세분화 된다.
  • 2
     카탈로그 배열, 교차 판매 등의 마케팅 계획에 사용되는 데이터 마이닝 기법이다.
  • 3
     새롭게 나타나는 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것으로 현상 이해를 위해 데이터를 범주, 등급 등으로 나눈다
  • 4
     데이터가 가진 특징 및 의미를 단순하게 설명하는 것이다.

35. 주성분 분석에서 주성분 수를 선택할 때 고려하지 않아도 되는 것은?
  • 1
     Scree Plot
  • 2
     개별 고유값의 분해 가능 여부
  • 3
     성분들이 설명하는 분산의 비율
  • 4
     고유값(Eigenvalue)

36. 다음 중 배깅(Bagging)에 대한 설명으로 옳은 것은?
  • 1
     서로 다른 여러 개 모형에 대한 결과를 집계하여 최종 결과를 결정한다.
  • 2
     두 단계의 학습이 있으며 첫 번째 단계는 다양한 기본 모델들을 사용한 학습이고, 두 번째 단계는 첫 번째 단계에서 얻은 결과를 입력으로 하는 메타 모델의 학습이다.
  • 3
     약한 학습기의 오류 데이터에 가중치를 부여하면서 최종 모형을 만들어가는 방법이다.
  • 4
     붓스트랩(bootstrap) 방법을 사용하여 동일한 데이터가 여러 번 선택될 수 있고, 어떤 데이터는 추출되지 않을 수 있다.

37. 스피어만 상관계수에서 사용하는 척도는?
  • 1
     명목척도
  • 2
     서열척도
  • 3
     등간척도
  • 4
     비율척도

38. 시그모이드 함수의 범위로 알맞은 것은?
  • 1
     0~1
  • 2
     -1~1
  • 3
     -1~0
  • 4
     0.5~1

39. 여러 분포가 확률적으로 선형 결합된 형태로, 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류를 수행하는 것은 무엇인가?
  • 1
     평균연결법
  • 2
     혼합분포군집
  • 3
     SOM
  • 4
     DBSCAN

40. 분해시계열의 요인으로 알맞지 않은 것은?
  • 1
     추세 요인
  • 2
     계절 요인
  • 3
     환경 요인
  • 4
     순환 요인

41. 아래의 불순도 측정 결과를 사용해서 구한 지니 지수는 얼마인가?
●●◆●●
  • 1
     0.5
  • 2
     0.32
  • 3
     0.48
  • 4
     0.38

42. 아래 보기의 회귀모델에 대한 설명 중 옳지 않은 것은?
  • 1
     추정된 회귀식은 weight = 24.4654 + 79879*time와 같다.
  • 2
     F=통계량 : 232.7, p-값: 2.974e-08으로 보아 유의수준 5%하에서 추정된 회귀 모형이 통계적으로 매우 유의하다.
  • 3
     time이 1 증가할 때, weight가 5.99만큼 증가한다.
  • 4
     결정계수 또한 0.9588로 매우 높은 값을 보이므로 이 회귀식이 데이터를 약 96% 정도로 설명하고 있다.

43. 다음 설명에 해당되는 앙상블 기법은?
여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법.
  • 1
     배깅(Bagging)
  • 2
     Voting
  • 3
     부스팅(Boosting)
  • 4
     Stacking

44. 다음은 4개의 변수를 가진 USArrests 데이터에 주성분분석을 적용해서 얻은 결과이다. 제 1주성분을 구하는 식으로 옳은 것은?
  • 1
     -0.536*Murder -0.583*Assault* -0.278*UrbanPop* -0.543*Rape
  • 2
     -0.418*Murder +0.187*Assault* -0.873*UrbanPop* -0.167*Rape
  • 3
     -0.341*Murder -0.268*Assault* -0.378*UrbanPop* +0.818*Rape
  • 4
     0.649*Murder -0.743*Assault* +0.134*UrbanPop* +0.089*Rape

45. 신경망 모형에서 출력값이 여러 개이고 목표치가 다범주인 경우에 사용하는 것으로 각 범주에 속할 사후 확률을(posterior probability) 제공하는 활성화 함수는 무엇인가?
  • 1
     항등 함수
  • 2
     ReLU
  • 3
     sigmoid
  • 4
     softmax

46. 다음 중 통계적 가설검정에 대한 설명으로 옳지 않은 것은?
  • 1
     귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생하는 오류를 유의수준이라 한다.
  • 2
     귀무가설이 거짓일 경우, 이를 옳지 않다고 판단하는 확률을 검정력이라 한다.
  • 3
     사실인 귀무가설을 기각했을 때 발생하는 오류를 제 2종 오류라 한다.
  • 4
     p-value(유의확률)이 클수록 귀무가설을 채택하는 것으로 해석한다.

47. 모집단에서 표본을 추출하여 모집단의 모수를 추측하는 과정에서 범위가 아니라 가장 참값이라고 여겨지는 하나의 모수를 택하는 것을 무엇이라고 하는가?

48. 어떤 슈퍼마켓 고객 6명의 장바구니 별 구입 품목이 다음과 같다고 한다면, 연관 규칙(콜라→맥주)의 지지도는?
  • 1
     0.6
  • 2
     0.4
  • 3
     0.5
  • 4
     0.3

49. 다음의 수식에 해당하는 데이터 간의 거리 계산 방식은 무엇인가?
  • 1
     유클리드 거리
  • 2
     맨해튼 거리
  • 3
     민코프스키 거리
  • 4
     마할라노비스 거리

50. 다음 중 분류 모형 평가에 활용하지 않는 것은 무엇인가?
  • 1
     덴드로그램
  • 2
     오분류표
  • 3
     ROC 그래프
  • 4
     Kappa 지수

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2026 뉴비티::새로운 CBT 시스템 - newbt.kr