데이터분석 준전문가 랜덤

데이터 이해


1. 미래의 빅데이터 관점에서 볼 때 사물인터넷(IoT)과 가장 관련이 큰 것은?
  • 1
     모든 사물의 데이터화
  • 2
     모든 사물의 그래픽화
  • 3
     모든 사물의 독립화
  • 4
     모든 사물의 정형화

2. 다음 중 빅데이터의 위기 요인과 통제방안으로 올바르게 연결한 것은 무엇인가?
  • 1
     책임 원칙 훼손 → 결과 기반 책임 원칙 고수
  • 2
     데이터 오용 → 알고리즘 접근 차단
  • 3
     사생활 침해 → 알고리즈미스트 고용
  • 4
     데이터 오용 → 동의에서 책임으로

3. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?
가. 사전처리 → 사후처리
나. 대면조사 → 표본조사
다. 질보다 → 양적으로
라. 상관관계 → 인과관계
  • 1
     가, 나
  • 2
     나, 라
  • 3
     다, 라
  • 4
     가, 라

4. 다음 중 빅데이터 출현 배경으로 옳지 않은 것은?
  • 1
     비정형 데이터의 확산
  • 2
     학계의 거대 데이터 활용 과학 확산
  • 3
     중앙 집중 처리 방식의 특성
  • 4
     데이터 처리 기술 발전

5. 데이터 특징에 대한 설명 중 옳지 않은 것은?
  • 1
     데이터는 객관적 사실이다.
  • 2
     데이터는 추론과 추정의 근거를 이루는 사실이다.
  • 3
     데이터의 최소단위는 바이트로 0과1의 이진수 하나로 이루어져 있다.
  • 4
     단순한 객체로서의 가치와 다른 객체와의 상호 관계 속에서 가치를 갖는다.

6. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?
  • 1
     운송 비용의 절감
  • 2
     상품 개발과 조립 비용의 절감
  • 3
     서비스 산업의 확대와 제조업의 축소
  • 4
     새로운 수익원의 발굴 및 활용

7. 다음 내용 중 빅데이터 위기 요인과 해결 방안이 잘 못 연결된 것을 모두 고르면?
가. 사생활 침해 → 정보사용자의 동의제에서 책임제로 변환
나. 책임 원칙의 훼손 → 알고리즘에 대한 접근권 제공
다. 데이터의 오용 → 데이터의 선택적 공개
  • 1
     가,나
  • 2
     가,다
  • 3
     나,다
  • 4
     가,나,다

8. 빅데이터가 만들어낸 변화의 양상으로 옳지 않은 것은?
  • 1
     표본조사-->대면조사
  • 2
     사후처리-->사전처리
  • 3
     질보다-->양적으로
  • 4
     인과관계-->상관관계

9. 다음 데이터에 대한 설명으로 가장 적절하지 않은 것은?
  • 1
     추론, 예측, 전망, 추정을 위한 근거(basis)로 기능하는 특성을 갖는다.
  • 2
     데이터는 축적된 지식과 아이디어가 결합된 창의적인 산물이다.
  • 3
     데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실이다.
  • 4
     다른 객체와의 상호 관계 속에서 가치를 갖는다.

10. 빅데이터가 미치는 영향이 아닌 것은?
  • 1
     고객에게 획일화된 서비스 제공
  • 2
     맞춤형 서비스 확대
  • 3
     업무 프로세스 최적화
  • 4
     새로운 가치 창출

데이터분석 기획


11. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?
  • 1
     분석 기획 → 데이터 준비 → 시스템 구현 → 데이터 분석 → 평가 및 전개
  • 2
     분석 기획 → 데이터 분석 → 시스템 구현 → 데이터 준비 → 평가 및 전개
  • 3
     데이터 준비 → 분석 기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개
  • 4
     분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

12. 데이터 분석을 위한 분석 업무 조직 구조에 대한 설명으로 옳지 않은 것은?
  • 1
     집중형 조직 구조는 일부 협업 부서와 분석 업무가 중복 또는 이원화 될 가능성이 있다.
  • 2
     기능 중심 조직 구조는 전사적 관점에서 핵심 분석이 어렵다.
  • 3
     분산 조직 구조는 분석 결과 실무 적용에 대한 대응이 느리다.
  • 4
     분석 조직의 인력들이 협업 부서에 배치되어 업무를 수행하는 것은 분산 조직 구조이다.

13. 다음 빈칸에 들어갈 말은?
전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소(Repository)를 구축하는 것을 말한다. 마스터 데이터, 메타 데이터, 데이터 사전은 (   )의 중요한 관리 대상이다.

14. 분석 마스터 플랜의 과제 우선순위 결정과 관련된 내용으로 적절하지 않은 것은?
  • 1
     난이도 판단 기준은 데이터 획득/저장/가공 비용 및 분석 적용 비용, 분석 수준 등이 있다.
  • 2
     시급성의 판단 기준은 전략적 중요도가 핵심이다.
  • 3
     Value(가치)는 투자비용 요소이다
  • 4
     ROI관점에서의 분석 과제 우선순위 평가 기준은 시급성과 난이도가 있다.

15. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험 계획 수립 시 위험에 대한 대응 방법의 종류에 포함되지 않는 것은?
  • 1
     회피(Avoid)
  • 2
     수용(Accept)
  • 3
     완화(Mitigate)
  • 4
     관리(Management)

16. 분석 마스터 플랜을 수립할 때 적용 범위 및 방식에 대한 고려요소가 아닌 것은 무엇인가?
  • 1
     투입 비용 수준
  • 2
     분석 데이터 적용 수준
  • 3
     업무 내재화 적용 수준
  • 4
     기술 적용 수준

17. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가?
데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
  • 1
     데이터 표준화
  • 2
     표준화 활동
  • 3
     데이터 저장 관리
  • 4
     데이터 관리 체계

18. 합리적인 의사 결정을 방해하는 요소로써 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는 현상을 무엇이라고 하는가?

19. 다음 중 분석 과제의 우선 순위 선정 시 난이도와 시급성을 모두 고려 하였을 때, 우선적으로 추진해야 하는 분석 과제는 무엇인가
  • 1
     난이도 - 어려움 , 시급성 - 미래
  • 2
     난이도 - 쉬움 , 시급성 - 미래
  • 3
     난이도 - 어려움 , 시급성 - 현재
  • 4
     난이도 - 쉬움 , 시급성 - 현재

20. 빈칸에 들어갈 내용으로 알맞은 것은?
상향식 접근법은 기업에서 보유하고 있는 다양한 원천 데이터로부터의 (A)를 통하여 (B)를 얻을 수 있다. 상향식은 디자인 사고 중 (C)에 해당한다.
  • 1
     A:발견, B:통찰, C:발산
  • 2
     A:인지, B:통찰, C:발산
  • 3
     A:통찰, B:발산, C:수렴
  • 4
     A:발산, B:통찰, C:수렴

데이터분석


21. 다음 중 카달로그 배열, 교차 판매 등의 마케팅을 계획할 때 적절한 데이터 마이닝 기법은?
  • 1
     분류
  • 2
     추정
  • 3
     군집
  • 4
     연관분석

22. 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법으로 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 설명변수의 일부분만을 고려함으로 성능을 높이는 방법을 사용하는 것을 무엇이라 하는가?

23. 앙상블 모형의 특징으로 올바르지 않은 것은?
  • 1
     성능을 분산시키기 때문에 과대적합(overfitting) 감소 효과가 있다.
  • 2
     각 모형의 상호연관성이 높을수록 정확도 또한 높아진다.
  • 3
     여러 개의 모형의 결과를 종합하여 정확도를 높이는 방법이다.
  • 4
     Bagging, Boosting 등 다양한 방법의 앙상블 기법이 존재한다.

24. 시그모이드 함수의 범위로 알맞은 것은?
  • 1
     0~1
  • 2
     -1~1
  • 3
     -1~0
  • 4
     0.5~1

25. 카이제곱 통계량의 에측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?
  • 1
     카이제곱 통계량을 이용한 적합도 검정은 여러 범주형 변수에 대해 관측 값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 방법이다.
  • 2
     데이터의 정규성을 검정하기 위해 오차항이 정규분포를 추종하는지 알아보는 검정방법이다.
  • 3
     예측 표본과 실제 표본의 차이가 많을 때, 도수가 낮아지고 검정 통계량이 높아져 유의 확률이 낮아진다.
  • 4
     각 데이터 포인트와 이론적인 분포 간의 차이를 측정하여 이 차이를 기반으로 검정 통계량을 계산한다.

26. SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 하는 방법이다. 다음 중 SOM 방법에 대한 설명으로 부적절한 것은?
  • 1
     SOM은 입력변수의 위치 관계를 그대로 보존한다는 특징이 있다. 이러한 SOM의 특징으로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다.
  • 2
     SOM을 이용한 군집 분석은 인공신경망의 역전파 알고리즘을 사용함으로써 수행속도가 빠르고 군집의 성능이 매우 우수하다.
  • 3
     SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화 하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다.
  • 4
     입력층과 2차원의 격자 형태의 경쟁층으로 이루어져 있다.

27. kNN에 대한 설명으로 틀린 것은?
  • 1
     인스턴스 러닝기법이다.
  • 2
     K값이 클수록 과대적합(Overfitting)문제가 발생한다.
  • 3
     가까운 것으로 군집하는 것이다.
  • 4
     K는 가까운 이웃의 개수를 의미한다.

28. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?
  • 1
     F-Statistics
  • 2
     Chi-Statistics
  • 3
     T-Statistics
  • 4
     R-Square

29. 다음은 TV광고수에 따른 Sales에 대한 산점도이다. 이에 대한 설명으로 맞지 않은 것은?
  • 1
     TV 광고가 증가할 수록 Sales도 증가하는 경향이 있다.
  • 2
     TV광고와 Sales는 양의 상관관계를 가진다.
  • 3
     tv광고가 증가할수록 Sales의 분산은 동일하다
  • 4
     Sales를 설명하기 위해 TV광고를 독립변수로 하는 단순선형회귀모델은 적절하다

30. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 알고리즘을 무엇이라고 하는가?
  • 1
     SOM
  • 2
     DBSCAN
  • 3
     PCA
  • 4
     EM 알고리즘

31. 다음 중 동전 3개를 던져서 앞면이 한번 나올 확률은?
  • 1
     1/4
  • 2
     3/8
  • 3
     1/2
  • 4
     5/8

32. 주성분 분석에 대한 설명 중 적절하지 않은 것은?
  • 1
     제 3변수까지 사용하면 97.69%의 누적 비율을 갖게 된다.
  • 2
     제 2변수는 42.81의 분산 비율을 갖는다
  • 3
     변수들의 scale이 많이 다른 경우 특정 변수가 전체적인 경향을 좌우하기 때문에 상관계수 행렬을 사용하여 분석하는 것이 좋다.
  • 4
     PC2의 로딩 벡터는 모두 양의 방향을 가지고 있다.

33. 시계열 분석에서 시계열 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 용어는?

34. 다음 중 분류 모형에 대한 설명으로 적절한 것은 무엇인가?
  • 1
     레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화되고 이질성에 의해 세분화 된다.
  • 2
     카탈로그 배열, 교차 판매 등의 마케팅 계획에 사용되는 데이터 마이닝 기법이다.
  • 3
     새롭게 나타나는 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것으로 현상 이해를 위해 데이터를 범주, 등급 등으로 나눈다
  • 4
     데이터가 가진 특징 및 의미를 단순하게 설명하는 것이다.

35. 모수의 새로운 가설을 옳다고 판단할 수 있는지 표본 통계량 평가 판단과정을 설명하는 용어 중 적절한 것은?
  • 1
     점추정
  • 2
     구간추정
  • 3
     가설검정
  • 4
     연구가설

36. 다음 시계열 데이터에 대한 설명 중 가장 옳지 않은 것은?
  • 1
     시계열 데이터의 모델링은 다른 분석 모형과 같이 탐색 목적과 예측 목적으로 나눌 수 있다.
  • 2
     짧은 기간 동안의 주기적인 패턴을 계절변동이라 한다.
  • 3
     잡음은 무작위적인 변동이지만 일반적으로 원인은 알려져 있다.
  • 4
     시계열 분석의 주 목적은 외부 인자와 관련해 계절적인 패턴 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다.

37. 다음 중 회귀분석의 결정 계수에 관한 설명으로 적절하지 않은 것은 무엇인가?
  • 1
     결정 계수는 회귀제곱합(SSR) / 총제곱합(SST) 로 구할 수 있다.
  • 2
     종속변수와 독립변수 사이의 표본 상관계수와 값이 같다.
  • 3
     결정계수가 커질수록 회귀방정식의 설명력이 높다고 할 수 있다.
  • 4
     일반적으로 결정 계수는 0~1의 값을 갖는다.

38. 다음 64개 변수에 대한 주성분 분석의 Scree plot결과에 대한 해석으로 틀린 것은?
점 64개 1번째 점이 0.12에 근접, 2번째 점이 0.07에 근접, 7,8번째에서 기울기 감소, 나머지 60까지 점은 밀집되게 나열
  • 1
     첫번째 주성분으로 10%이상 설명이 가능하다.
  • 2
     주성분 64개로 100% 분산을 설명 할 수 있다
  • 3
     두 개의 주성분으로 7% 분산을 설명한다
  • 4
     7, 8번째 성분에서부터 완만한 기울기를 가진다.

39. 선형회귀모형이 오차항에 가정조건으로 옳은 것은?
  • 1
     독립성, 선형성, 등분산성
  • 2
     독립성, 등분산성, 정규성
  • 3
     정규성, 효율성, 등분산성
  • 4
     정규성, 편의성, 독립성

40. 데이터의 양이 가장 많이 발생하는 유형의 척도로 알맞은 것은?
  • 1
     명목 척도
  • 2
     순서 척도
  • 3
     등간 척도
  • 4
     비율 척도

41. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 무엇이라 하는가?

42. 여러 개의 앙상블 모형 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

43. 여러 분포가 확률적으로 선형 결합된 형태로, 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류를 수행하는 것은 무엇인가?
  • 1
     평균연결법
  • 2
     혼합분포군집
  • 3
     SOM
  • 4
     DBSCAN

44. 선형 회귀 모델의 통계적 유의성 검증을 위해 사용하는 것은?
  • 1
     회귀계수의 t 통계량
  • 2
     결정 계수
  • 3
     잔차 통계량
  • 4
     F 통계량

45. 다음은 어느 마트의 판매 품목에 대한 결과이다. 커피 -> 우유에 대한 향상도는?
장바구니  /  item
1    커피,빵
2    커피,계란,우유
3    계란,커피,빵,우유
4    계란,우유
5    커피,우유
6    커피,빵,계란
7    우유,빵
  • 1
     0.6
  • 2
     1.25
  • 3
     0.43
  • 4
     0.84

46. 시계열 데이터의 정상성 관련 내용으로 틀린 것은?
  • 1
     모든 시점에 대해 일정한 평균을 가진다.
  • 2
     공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
  • 3
     모든 시점에 대해 일정한 분산을 가진다.
  • 4
     지수평활법은 최근 데이터를 이용하여 미래를 예측하는 방법이다.

47. 시계열 모형의 여러 종류 중 아래에서 설명하는 것은 무엇인가?
가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
나) 백색 잡음의 현재 값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형
다) 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ----, p차 등을 사용하나 정상 시계열 모형에서는 주로 1,2차를 사용함.

48. 다음 중 ARIMA(1, 2, 3)모형에서 ARMA로 정상화할 때 필요한 차분 수는?
  • 1
     0
  • 2
     1
  • 3
     2
  • 4
     3

49. 로지스틱 회귀에 대한 특징으로 적절한 것은?
  • 1
     모형 검정에는 F검정이 사용된다.
  • 2
     종속변수(=반응변수)가 범주형인 경우 적용되는 회귀분석 모형이다.
  • 3
     softmax 함수를 사용하여 종속 변수를 전체 실수 범위로 확장하여 분석한다.
  • 4
     모형 탐색 방법에는 최소 자승법(최소 제곱법)이 있다.

50. 6개의 feed(사료)를 chicken에게 먹인 후 측정한 weight를 summary 한 결과에 대한 설명으로 틀린 것은?
  • 1
     weight 중앙값은 261.3이다.
  • 2
     총 데이터 개수는 71개 이다.
  • 3
     casein사료를 먹은 chicken은 12마리이다.
  • 4
     feed는 평균 계산을 할 수 없다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2026 뉴비티::새로운 CBT 시스템 - newbt.kr (Listed on LeanVibe)