데이터분석 준전문가 기출문제 문제은행 - 뉴비티::새로운 CBT 문제풀이 시스템

데이터 이해

1. 미래의 빅데이터 관점에서 볼 때 사물인터넷(IoT)과 가장 관련이 큰 것은?

1
모든 사물의 데이터화
2
모든 사물의 그래픽화
3
모든 사물의 독립화
4
모든 사물의 정형화

2. 다음 중 빅데이터의 위기 요인과 통제방안으로 올바르게 연결한 것은 무엇인가?

1
책임 원칙 훼손 → 결과 기반 책임 원칙 고수
2
데이터 오용 → 알고리즘 접근 차단
3
사생활 침해 → 알고리즈미스트 고용
4
데이터 오용 → 동의에서 책임으로

3. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?

가. 사전처리 → 사후처리
나. 대면조사 → 표본조사
다. 질보다 → 양적으로
라. 상관관계 → 인과관계

1
가, 나
2
나, 라
3
다, 라
4
가, 라

4. 다음 중 빅데이터 출현 배경으로 옳지 않은 것은?

1
비정형 데이터의 확산
2
학계의 거대 데이터 활용 과학 확산
3
중앙 집중 처리 방식의 특성
4
데이터 처리 기술 발전

5. 데이터 특징에 대한 설명 중 옳지 않은 것은?

1
데이터는 객관적 사실이다.
2
데이터는 추론과 추정의 근거를 이루는 사실이다.
3
데이터의 최소단위는 바이트로 0과1의 이진수 하나로 이루어져 있다.
4
단순한 객체로서의 가치와 다른 객체와의 상호 관계 속에서 가치를 갖는다.

6. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?

1
운송 비용의 절감
2
상품 개발과 조립 비용의 절감
3
서비스 산업의 확대와 제조업의 축소
4
새로운 수익원의 발굴 및 활용

7. 다음 내용 중 빅데이터 위기 요인과 해결 방안이 잘 못 연결된 것을 모두 고르면?

가. 사생활 침해 → 정보사용자의 동의제에서 책임제로 변환
나. 책임 원칙의 훼손 → 알고리즘에 대한 접근권 제공
다. 데이터의 오용 → 데이터의 선택적 공개

1
가,나
2
가,다
3
나,다
4
가,나,다

8. 빅데이터가 만들어낸 변화의 양상으로 옳지 않은 것은?

1
표본조사-->대면조사
2
사후처리-->사전처리
3
질보다-->양적으로
4
인과관계-->상관관계

9. 다음 데이터에 대한 설명으로 가장 적절하지 않은 것은?

1
추론, 예측, 전망, 추정을 위한 근거(basis)로 기능하는 특성을 갖는다.
2
데이터는 축적된 지식과 아이디어가 결합된 창의적인 산물이다.
3
데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실이다.
4
다른 객체와의 상호 관계 속에서 가치를 갖는다.

10. 빅데이터가 미치는 영향이 아닌 것은?

1
고객에게 획일화된 서비스 제공
2
맞춤형 서비스 확대
3
업무 프로세스 최적화
4
새로운 가치 창출

데이터분석 기획

11. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?

1
분석 기획 → 데이터 준비 → 시스템 구현 → 데이터 분석 → 평가 및 전개
2
분석 기획 → 데이터 분석 → 시스템 구현 → 데이터 준비 → 평가 및 전개
3
데이터 준비 → 분석 기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개
4
분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

12. 데이터 분석을 위한 분석 업무 조직 구조에 대한 설명으로 옳지 않은 것은?

1
집중형 조직 구조는 일부 협업 부서와 분석 업무가 중복 또는 이원화 될 가능성이 있다.
2
기능 중심 조직 구조는 전사적 관점에서 핵심 분석이 어렵다.
3
분산 조직 구조는 분석 결과 실무 적용에 대한 대응이 느리다.
4
분석 조직의 인력들이 협업 부서에 배치되어 업무를 수행하는 것은 분산 조직 구조이다.

13. 다음 빈칸에 들어갈 말은?

전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소(Repository)를 구축하는 것을 말한다. 마스터 데이터, 메타 데이터, 데이터 사전은 (   )의 중요한 관리 대상이다.

14. 분석 마스터 플랜의 과제 우선순위 결정과 관련된 내용으로 적절하지 않은 것은?

1
난이도 판단 기준은 데이터 획득/저장/가공 비용 및 분석 적용 비용, 분석 수준 등이 있다.
2
시급성의 판단 기준은 전략적 중요도가 핵심이다.
3
Value(가치)는 투자비용 요소이다
4
ROI관점에서의 분석 과제 우선순위 평가 기준은 시급성과 난이도가 있다.

15. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험 계획 수립 시 위험에 대한 대응 방법의 종류에 포함되지 않는 것은?

1
회피(Avoid)
2
수용(Accept)
3
완화(Mitigate)
4
관리(Management)

16. 분석 마스터 플랜을 수립할 때 적용 범위 및 방식에 대한 고려요소가 아닌 것은 무엇인가?

1
투입 비용 수준
2
분석 데이터 적용 수준
3
업무 내재화 적용 수준
4
기술 적용 수준

17. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가?

데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축

1
데이터 표준화
2
표준화 활동
3
데이터 저장 관리
4
데이터 관리 체계

18. 합리적인 의사 결정을 방해하는 요소로써 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는 현상을 무엇이라고 하는가?

19. 다음 중 분석 과제의 우선 순위 선정 시 난이도와 시급성을 모두 고려 하였을 때, 우선적으로 추진해야 하는 분석 과제는 무엇인가

1
난이도 - 어려움 , 시급성 - 미래
2
난이도 - 쉬움 , 시급성 - 미래
3
난이도 - 어려움 , 시급성 - 현재
4
난이도 - 쉬움 , 시급성 - 현재

20. 빈칸에 들어갈 내용으로 알맞은 것은?

상향식 접근법은 기업에서 보유하고 있는 다양한 원천 데이터로부터의 (A)를 통하여 (B)를 얻을 수 있다. 상향식은 디자인 사고 중 (C)에 해당한다.

1
A:발견, B:통찰, C:발산
2
A:인지, B:통찰, C:발산
3
A:통찰, B:발산, C:수렴
4
A:발산, B:통찰, C:수렴

데이터분석

21. 다음 중 카달로그 배열, 교차 판매 등의 마케팅을 계획할 때 적절한 데이터 마이닝 기법은?

1
분류
2
추정
3
군집
4
연관분석

22. 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법으로 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 설명변수의 일부분만을 고려함으로 성능을 높이는 방법을 사용하는 것을 무엇이라 하는가?

23. 앙상블 모형의 특징으로 올바르지 않은 것은?

1
성능을 분산시키기 때문에 과대적합(overfitting) 감소 효과가 있다.
2
각 모형의 상호연관성이 높을수록 정확도 또한 높아진다.
3
여러 개의 모형의 결과를 종합하여 정확도를 높이는 방법이다.
4
Bagging, Boosting 등 다양한 방법의 앙상블 기법이 존재한다.

24. 시그모이드 함수의 범위로 알맞은 것은?

1
0~1
2
-1~1
3
-1~0
4
0.5~1

25. 카이제곱 통계량의 에측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?

1
카이제곱 통계량을 이용한 적합도 검정은 여러 범주형 변수에 대해 관측 값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 방법이다.
2
데이터의 정규성을 검정하기 위해 오차항이 정규분포를 추종하는지 알아보는 검정방법이다.
3
예측 표본과 실제 표본의 차이가 많을 때, 도수가 낮아지고 검정 통계량이 높아져 유의 확률이 낮아진다.
4
각 데이터 포인트와 이론적인 분포 간의 차이를 측정하여 이 차이를 기반으로 검정 통계량을 계산한다.

26. SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 하는 방법이다. 다음 중 SOM 방법에 대한 설명으로 부적절한 것은?

1
SOM은 입력변수의 위치 관계를 그대로 보존한다는 특징이 있다. 이러한 SOM의 특징으로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다.
2
SOM을 이용한 군집 분석은 인공신경망의 역전파 알고리즘을 사용함으로써 수행속도가 빠르고 군집의 성능이 매우 우수하다.
3
SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화 하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다.
4
입력층과 2차원의 격자 형태의 경쟁층으로 이루어져 있다.

27. kNN에 대한 설명으로 틀린 것은?

1
인스턴스 러닝기법이다.
2
K값이 클수록 과대적합(Overfitting)문제가 발생한다.
3
가까운 것으로 군집하는 것이다.
4
K는 가까운 이웃의 개수를 의미한다.

28. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?

1
F-Statistics
2
Chi-Statistics
3
T-Statistics
4
R-Square

29. 다음은 TV광고수에 따른 Sales에 대한 산점도이다. 이에 대한 설명으로 맞지 않은 것은?

1
TV 광고가 증가할 수록 Sales도 증가하는 경향이 있다.
2
TV광고와 Sales는 양의 상관관계를 가진다.
3
tv광고가 증가할수록 Sales의 분산은 동일하다
4
Sales를 설명하기 위해 TV광고를 독립변수로 하는 단순선형회귀모델은 적절하다

30. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 알고리즘을 무엇이라고 하는가?

1
SOM
2
DBSCAN
3
PCA
4
EM 알고리즘

31. 다음 중 동전 3개를 던져서 앞면이 한번 나올 확률은?

1
1/4
2
3/8
3
1/2
4
5/8

32. 주성분 분석에 대한 설명 중 적절하지 않은 것은?

1
제 3변수까지 사용하면 97.69%의 누적 비율을 갖게 된다.
2
제 2변수는 42.81의 분산 비율을 갖는다
3
변수들의 scale이 많이 다른 경우 특정 변수가 전체적인 경향을 좌우하기 때문에 상관계수 행렬을 사용하여 분석하는 것이 좋다.
4
PC2의 로딩 벡터는 모두 양의 방향을 가지고 있다.

33. 시계열 분석에서 시계열 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 용어는?

34. 다음 중 분류 모형에 대한 설명으로 적절한 것은 무엇인가?

1
레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화되고 이질성에 의해 세분화 된다.
2
카탈로그 배열, 교차 판매 등의 마케팅 계획에 사용되는 데이터 마이닝 기법이다.
3
새롭게 나타나는 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것으로 현상 이해를 위해 데이터를 범주, 등급 등으로 나눈다
4
데이터가 가진 특징 및 의미를 단순하게 설명하는 것이다.

35. 모수의 새로운 가설을 옳다고 판단할 수 있는지 표본 통계량 평가 판단과정을 설명하는 용어 중 적절한 것은?

1
점추정
2
구간추정
3
가설검정
4
연구가설

36. 다음 시계열 데이터에 대한 설명 중 가장 옳지 않은 것은?

1
시계열 데이터의 모델링은 다른 분석 모형과 같이 탐색 목적과 예측 목적으로 나눌 수 있다.
2
짧은 기간 동안의 주기적인 패턴을 계절변동이라 한다.
3
잡음은 무작위적인 변동이지만 일반적으로 원인은 알려져 있다.
4
시계열 분석의 주 목적은 외부 인자와 관련해 계절적인 패턴 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다.

37. 다음 중 회귀분석의 결정 계수에 관한 설명으로 적절하지 않은 것은 무엇인가?

1
결정 계수는 회귀제곱합(SSR) / 총제곱합(SST) 로 구할 수 있다.
2
종속변수와 독립변수 사이의 표본 상관계수와 값이 같다.
3
결정계수가 커질수록 회귀방정식의 설명력이 높다고 할 수 있다.
4
일반적으로 결정 계수는 0~1의 값을 갖는다.

38. 다음 64개 변수에 대한 주성분 분석의 Scree plot결과에 대한 해석으로 틀린 것은?

점 64개 1번째 점이 0.12에 근접, 2번째 점이 0.07에 근접, 7,8번째에서 기울기 감소, 나머지 60까지 점은 밀집되게 나열

1
첫번째 주성분으로 10%이상 설명이 가능하다.
2
주성분 64개로 100% 분산을 설명 할 수 있다
3
두 개의 주성분으로 7% 분산을 설명한다
4
7, 8번째 성분에서부터 완만한 기울기를 가진다.

39. 선형회귀모형이 오차항에 가정조건으로 옳은 것은?

1
독립성, 선형성, 등분산성
2
독립성, 등분산성, 정규성
3
정규성, 효율성, 등분산성
4
정규성, 편의성, 독립성

40. 데이터의 양이 가장 많이 발생하는 유형의 척도로 알맞은 것은?

1
명목 척도
2
순서 척도
3
등간 척도
4
비율 척도

41. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 무엇이라 하는가?

42. 여러 개의 앙상블 모형 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

43. 여러 분포가 확률적으로 선형 결합된 형태로, 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류를 수행하는 것은 무엇인가?

1
평균연결법
2
혼합분포군집
3
SOM
4
DBSCAN

44. 선형 회귀 모델의 통계적 유의성 검증을 위해 사용하는 것은?

1
회귀계수의 t 통계량
2
결정 계수
3
잔차 통계량
4
F 통계량

45. 다음은 어느 마트의 판매 품목에 대한 결과이다. 커피 -> 우유에 대한 향상도는?

장바구니  /  item
1　　　　커피,빵
2　　　　커피,계란,우유
3　　　　계란,커피,빵,우유
4　　　　계란,우유
5　　　　커피,우유
6　　　　커피,빵,계란
7　　　　우유,빵

1
0.6
2
1.25
3
0.43
4
0.84

46. 시계열 데이터의 정상성 관련 내용으로 틀린 것은?

1
모든 시점에 대해 일정한 평균을 가진다.
2
공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
3
모든 시점에 대해 일정한 분산을 가진다.
4
지수평활법은 최근 데이터를 이용하여 미래를 예측하는 방법이다.

47. 시계열 모형의 여러 종류 중 아래에서 설명하는 것은 무엇인가?

가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
나) 백색 잡음의 현재 값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형
다) 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ----, p차 등을 사용하나 정상 시계열 모형에서는 주로 1,2차를 사용함.

48. 다음 중 ARIMA(1, 2, 3)모형에서 ARMA로 정상화할 때 필요한 차분 수는?

49. 로지스틱 회귀에 대한 특징으로 적절한 것은?

1
모형 검정에는 F검정이 사용된다.
2
종속변수(=반응변수)가 범주형인 경우 적용되는 회귀분석 모형이다.
3
softmax 함수를 사용하여 종속 변수를 전체 실수 범위로 확장하여 분석한다.
4
모형 탐색 방법에는 최소 자승법(최소 제곱법)이 있다.

50. 6개의 feed(사료)를 chicken에게 먹인 후 측정한 weight를 summary 한 결과에 대한 설명으로 틀린 것은?

1
weight 중앙값은 261.3이다.
2
총 데이터 개수는 71개 이다.
3
casein사료를 먹은 chicken은 12마리이다.
4
feed는 평균 계산을 할 수 없다.

데이터분석 준전문가 랜덤

데이터 이해

1. 미래의 빅데이터 관점에서 볼 때 사물인터넷(IoT)과 가장 관련이 큰 것은?

2. 다음 중 빅데이터의 위기 요인과 통제방안으로 올바르게 연결한 것은 무엇인가?

3. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?

4. 다음 중 빅데이터 출현 배경으로 옳지 않은 것은?

5. 데이터 특징에 대한 설명 중 옳지 않은 것은?

6. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?

7. 다음 내용 중 빅데이터 위기 요인과 해결 방안이 잘 못 연결된 것을 모두 고르면?

8. 빅데이터가 만들어낸 변화의 양상으로 옳지 않은 것은?

9. 다음 데이터에 대한 설명으로 가장 적절하지 않은 것은?

10. 빅데이터가 미치는 영향이 아닌 것은?

데이터분석 기획

11. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?

12. 데이터 분석을 위한 분석 업무 조직 구조에 대한 설명으로 옳지 않은 것은?

13. 다음 빈칸에 들어갈 말은?

14. 분석 마스터 플랜의 과제 우선순위 결정과 관련된 내용으로 적절하지 않은 것은?

15. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험 계획 수립 시 위험에 대한 대응 방법의 종류에 포함되지 않는 것은?

16. 분석 마스터 플랜을 수립할 때 적용 범위 및 방식에 대한 고려요소가 아닌 것은 무엇인가?

17. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가?

18. 합리적인 의사 결정을 방해하는 요소로써 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는 현상을 무엇이라고 하는가?

19. 다음 중 분석 과제의 우선 순위 선정 시 난이도와 시급성을 모두 고려 하였을 때, 우선적으로 추진해야 하는 분석 과제는 무엇인가

20. 빈칸에 들어갈 내용으로 알맞은 것은?

데이터분석

21. 다음 중 카달로그 배열, 교차 판매 등의 마케팅을 계획할 때 적절한 데이터 마이닝 기법은?

23. 앙상블 모형의 특징으로 올바르지 않은 것은?

24. 시그모이드 함수의 범위로 알맞은 것은?

25. 카이제곱 통계량의 에측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?

26. SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 하는 방법이다. 다음 중 SOM 방법에 대한 설명으로 부적절한 것은?

27. kNN에 대한 설명으로 틀린 것은?

28. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?

29. 다음은 TV광고수에 따른 Sales에 대한 산점도이다. 이에 대한 설명으로 맞지 않은 것은?

30. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 알고리즘을 무엇이라고 하는가?

31. 다음 중 동전 3개를 던져서 앞면이 한번 나올 확률은?

32. 주성분 분석에 대한 설명 중 적절하지 않은 것은?

33. 시계열 분석에서 시계열 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 용어는?

34. 다음 중 분류 모형에 대한 설명으로 적절한 것은 무엇인가?

35. 모수의 새로운 가설을 옳다고 판단할 수 있는지 표본 통계량 평가 판단과정을 설명하는 용어 중 적절한 것은?

36. 다음 시계열 데이터에 대한 설명 중 가장 옳지 않은 것은?

37. 다음 중 회귀분석의 결정 계수에 관한 설명으로 적절하지 않은 것은 무엇인가?

38. 다음 64개 변수에 대한 주성분 분석의 Scree plot결과에 대한 해석으로 틀린 것은?

39. 선형회귀모형이 오차항에 가정조건으로 옳은 것은?

40. 데이터의 양이 가장 많이 발생하는 유형의 척도로 알맞은 것은?

41. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 무엇이라 하는가?

42. 여러 개의 앙상블 모형 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

44. 선형 회귀 모델의 통계적 유의성 검증을 위해 사용하는 것은?

45. 다음은 어느 마트의 판매 품목에 대한 결과이다. 커피 -> 우유에 대한 향상도는?

46. 시계열 데이터의 정상성 관련 내용으로 틀린 것은?

47. 시계열 모형의 여러 종류 중 아래에서 설명하는 것은 무엇인가?

48. 다음 중 ARIMA(1, 2, 3)모형에서 ARMA로 정상화할 때 필요한 차분 수는?

49. 로지스틱 회귀에 대한 특징으로 적절한 것은?

50. 6개의 feed(사료)를 chicken에게 먹인 후 측정한 weight를 summary 한 결과에 대한 설명으로 틀린 것은?