빅데이터분석기사 기출문제 문제은행 - 뉴비티::새로운 CBT 문제풀이 시스템

필기

1. 점 추정 조건에 대한 설명 중 틀린 것은?

1
불편성(Unbiasedness): 추정량의 기댓값이 모집단의 모수와 차이가 없는 특성
2
효율성(Eifficiency): 추정량의 분산이 작은 특성
3
일치성(Consistency): 표본의 크기가 커지면 추정량이 모수와 거의 같아지는 특성
4
편의성(Convenience): 모수를 추정할 때 복잡한 정도를 나타내는 특성

2. 다음 중 전수 조사에 해당하는 것은?

1
전구의 수명
2
우주 왕복선의 부품 검사
3
암 환자 치료제의 효과
4
동해안 고래의 개체 수

3. 이상값에 대한 설명으로 옳은 것은?

1
이상값은 필수적인 데이터가 입력되지 않고 누락된 값이다.
2
이상값은 평균에 영향을 미친다.
3
통계에 활용하기 위해서는 이상값을 반드시 제거해야 한다.
4
이상값으로만 구성되어 있을 수 있다.

4. 표본 추출 방법 중 하나로 집단 내 이질적이고, 집단 간 동질적인 특성을 갖는 방법은?

1
군집 추출
2
계통 추출
3
무작위 추출
4
층화 추출

5. PCA에 대한 설명으로 틀린 것은?

1
차원 축소 시 변수 추출 방법을 사용한다.
2
상관관계가 있는 고차원 자료를 자료의 변동을 최대한 제거하는 기법
3
누적 기여율과 스크리 산점도를 통해 주성분을 선택 할 수 있다.
4
PCA는 수학적으로 직교 선형 변환으로 정의

6. 차원 축소에 대한 설명으로 틀린 것은?

1
차원 축소의 방법에는 변수 선택과 변수 추출이 있다.
2
여러 변수의 정보를 최대한 유지하기 위해 데이터 세트의 변수 개수를 유지한다.
3
차원 축소 후 학습할 경우, 회귀나 분류, 군집 등의 머신러닝 알고리즘이 더 잘 작동된다.
4
새로운 저차원 변수 공간에서 시각화하기 쉽다.

7. PCA에 대한 설명으로 틀린 것은?

1
축들은 서로 직교되어 있다.
2
주성분은 상관성이 높은 변수들을 요약, 축소하는 기법이다.
3
변동폭이 작은 축을 선택한다.
4
스크리 산점도를 통해 그래프가 급격히 완만해지는 지점의 바로 전 단계까지 주성분의 수를 선택한다.

8. 상관관계에 대한 설명으로 옳은 것은?

1
범주형 값이어야 하고 -1 ~ 1의 값을 가진다.
2
명목적 데이터 상관관계를 분석할 때 피어슨 상관계수를 이용한다.
3
상관계수의 절댓값이 작을수록 강한 상관관계를 가진다.
4
상관계수가 -1에 가까울수록 강한 음의 상관관계를 가진다.

9. 포아송분포를 가지는 X변수는 평균이 4이고, Y는 평균이 9일 때 E(3X+2Y/6), V(3X+2Y/6)을 계산한 결과는 무엇인가?

1
3, 2
2
3, 4
3
5, 2
4
5, 4

10. x²분포에 대한 설명으로 틀린 것은?

1
n개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다.
2
자유도 n이 작을수록 왼쪽으로 치우치는 비대칭 모양
3
자유도 n이 2보다 크거나 같으면 단봉 형태
4
기댓값은 n이다.

11. 평균에 대한 설명으로 옳은 것은?

1
제2 사분위수와 같다.
2
왜도가 0보다 클 때 평균은 중위수보다 작다.
3
평균과 관측치의 단위는 같다.
4
데이터 값 중에서 빈도수가 가장 높은 데이터 값이다.

12. 불균형 데이터에 대한 설명으로 틀린 것은?

1
데이터가 적으면 민감도는 낮아진다.
2
불균형 데이터는 정확도가 낮아지는 경향이 있다.
3
과소표집은 무작위로 정상 데이터의 일부만 선택하는 방법으로 데이터의 유실이 매우 크고, 때로는 중요한 정상 데이터를 잃게 될 수 있다.
4
과대표집으로 데이터를 복제하면 일반화오류가 발생한다.

13. Box-Cox 변환에 대한 설명으로 틀린 것은?

1
변수 변환이 가능하다.
2
로그 변환을 포함한다.
3
파생 변수를 생성한다.
4
데이터를 정규분포에 가깝게 만들기 위한 목적으로 사용한다.

14. 다음 중 성격이 다른 지표는 무엇인가?

1
범위
2
평균
3
중위수
4
최빈수

15. 유의 확률에 대한 설명으로 옳은 것은?

1
1종 오류를 범할 최대 허용 확률이다.
2
2종 오류를 범할 최대 허용 확률이다.
3
가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량이다.
4
유의 확률이 유의 수준보다 크면 H0를 채택한다.

16. 다음 중 대푯값에 대한 설명으로 틀린 것은?

1
산술평균은 자료를 모두 더한 후 자료 개수로 나눈 값이다.
2
기하평균은 숫자들을 모두 곱한 후 거듭제곱근을 취해서 얻는 평균이다.
3
조화평균은 속도를 평균낼 때 사용하기에 적합하다.
4
중위수는 이상값에 영향을 많이 받는다.

17. 중심극한정리에 대한 설명으로 틀린 것은?

1
표본 크기 n이 충분히 클 때 만족한다.
2
모집단의 분포는 연속형, 이산형 모두 가능하다.
3
모집단의 분포 형태에 관계없이 성립한다.
4
표본평균의 기댓값과 분산은 모집단의 기댓값과 분산과 동일

18. 다음 중 정제 과정에서 수행하는 내용은 무엇인가?

1
데이터의 결측값을 처리하고 데이터를 탐색한다.
2
수집된 데이터를 통합한다.
3
데이터를 분석 목적에 맞게 데이터 검증을 한다.
4
ETL 프로그램을 개발한다.

19. 스케일링에 대한 설명으로 옳지 않은 것은?

1
범주형에 대해 정규화를 수행할 수 있다.
2
최소-최대 정규화는 -1과 1 사이의 값을 가진다.
3
평균이0, 분산이 1인 Z-score 정규화를 수행한다.
4
편향된 데이터에 대해 스케일링을 할 수 있다.

20. 동일집단에 대해 처치 전과 후를 비교할 때 평균 추정에 대한 설명으로 옳은 것은?

1
표본표준편차는 처치 전의 표준편차와 처치 후의 표준편차를 합해서 계산한다.
2
처치 전과 후를 추정할 때 표본표준편차는 표본의 개수와 비례한다.
3
표본의 크기가 30 이상이면 T-분포를 사용하고 30 미만이면 Z-분포를 사용한다.
4
처치 전과 후의 평균에 대한 차이를 추정한다.

21. 다음 중 훈련데이터에서 다수의 부트스트랩 자료를 생성하고 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 앙상블 기법은?

1
배깅
2
부스팅
3
보팅
4
의사결정나무

22. 소프트맥스 함수에 대한 설명으로 틀린 것은?

1
출력값은 0에서 1사이의 실수다.
2
분산이 1
3
출력값을 확률로 해석할 수 있다.
4
출력값의 총합이 1

23. 다음 중 활성화 함수에 대한 설명으로 틀린 것은?

1
하이퍼볼릭탄젠트는 -1에서 1사이의 값
2
부호함수는 임곗값을 기준으로 활성화 또는 비활성화
3
ReLU함수는 시그모이드의 기울기 소실문제 해결함
4
시그모이드 함수 입력값이 0일 때, 미분값은 0

24. 다음 중 다중공성선을 제거하는 방법으로 틀린 것은?

1
PCA
2
Box-Cox
3
Ridge
4
변수 제거

25. 다음 중 의사결정나무의 분류나무에서 사용되는 분리 기준이 아닌 것은?

1
엔트로피 지수
2
카이제곱 분포
3
지니지수
4
F-값

26. 다음 중 시계열 분해 구성요소로 틀린 것은?

1
추세 요인
2
계절 요인
3
순환 요인
4
예측 요인

27. 다음 중 SVM RBF에 대한 설명으로 틀린 것은?

1
비선형 데이터가 있는 경우 일반적으로 활용
2
2차원의 점을 3차원의 점으로 변환
3
가장 많이 사용되는 커널이다.
4
데이터에 대한 사전 지식이 없는 경우 적적하게 분리할 때 활용

28. 다음 중 ARIMA에 대한 설명으로 틀린 것은?

1
자기회귀 누적 이동평균 모형이다.
2
차분이나 변환을 통해 AR 모형이나 MA 모형, ARMA 모형으로 정상화 할 수 있다.
3
현시점의 자료를 유한개의 백색잡음의 선형결합으로 표현되어 항상 정상성을 만족한다.
4
ARIMA(p, d, q)모형은 차수 p, d, q가 있다.

29. 10명의 혈당을 측정하여 측정 전과 측정 후의 짝을 이룬 표본에 대한 비모수 검정으로 가장 맞는 것은?

1
윌콕슨 부호 순위 검정
2
윌콕슨 순위 합 검정
3
T-검정
4
크루스칼 왈리스 검정

30. 다음 중 인공지능 적용 분야와 기법이 올바르게 짝지어진 것으로 가장 알맞는 것은?

(가) 음성 인식
(나) 필기체 인식
(다) 사진 이미지, 영상
(라) 로봇 최적화

1
(가) 순환 신경망, (나) 순환 신경망, (다) 순환 신경망, (라) 강화학습
2
(가) 합성곱 신경망, (나) 강화학습, (다) 순환 신경망, (라) 순환 신경망
3
(가) 순환 신경망, (나) 순환 신경망, (다) 합성곱 신경망, (라) 강화 학습
4
(가) 합성곱 신경망, (나) 강화학습, (다)순환 신경망, (라) 순환 신경망

31. 다음 중 비모수 통계에 대한 설명으로 틀린 것은?

1
모집단의 분포에 대한 가정의 불만족으로 인한 오류의 가능성이 크다.
2
모수적 방법에 비해 통계량의 계산이 간편하여 직관적으로 이해하기 쉽다.
3
이상값으로 인한 영향이 작다.
4
검정 통계량의 신뢰성이 부족하다.

32. 아래와 같은 거래 데이터 세트가 주어졌을 때 연관규칙 '오렌지, 사과 >>> 자몽'의 지지도와 신뢰도는 각각 얼마인가?

[오렌지,사과,자몽]  [딸기,수박,사과,레몬]  [수박, 레몬]  [오렌지,사과,레몬,자몽]   [딸기,수박,레몬,자몽]   [오렌지,사과]

1
50%, 66%
2
50%, 50%
3
33%, 66%
4
33%, 50%

33. 다음 중 로지스틱 회귀분석에 대한 설명으로 틀린 것은?

1
독립변수가 범주형이다.
2
종속변수는 0과 1이다.
3
로짓 변환을 사용한다.
4
시그모이드 함수를 사용한다.

34. 다음 중 심층신경망에 대한 설명으로 틀린 것은?

1
은닉층이 1개 존재
2
오차 역전파를 사용
3
시그모이드는 오차 역전파로 결과 해석이 어렵다.
4
은닉층을 심층으로 구성한다.

35. 다음중 SNA 중심성으로 틀린 것은?

1
연결 정도 중심성
2
근접 중심성
3
매개 중심성
4
조화 중심성

36. 다음 중 기계학습 기반 분석 절차로 맞는 것은?

ㄱ. 비지니스 이해 및 문제 정의
ㄴ. 데이터 수집
ㄷ. 데이터 전처리와 탐색
ㄹ. 모델 훈련
ㅂ. 모델 성능 평가
ㅅ. 모델 성능 향상 및 현업 적용

1
ㄱ>ㄴ>ㄷ>ㄹ>ㅂ>ㅅ
2
ㄱ>ㄷ>ㄴ>ㄹ>ㅂ>ㅅ
3
ㄷ>ㄱ>ㄴ>ㄹ>ㅂ>ㅅ
4
ㄷ>ㄴ>ㄱ>ㄹ>ㅂ>ㅅ

37. 다음 중 선형회귀와 로지스틱 회귀에 대한 설명으로 틀린 것은?

1
선형회귀에서 잔차는 정규분포를 따름
2
선형회귀는 독립변수를 사용해 종속변수의 움직임을 예측
3
로지스틱 회귀는 종속변수가 이진이며 분류에 사용
4
선형회귀에서 로짓변환을 사용

38. 다음 중 시계열 모형으로 틀린 것은?

1
AR 모형
2
MA 모형
3
ARIMA 모형
4
로지스틱 회귀 모형

39. 다음 중 은닉층이 순환적으로 연결된 것은 무엇인가?

1
RNN
2
CNN
3
DNN
4
ANN

40. 다음 중 데이터 분할에 대한 설명으로 틀린 것은?

1
평가 데이터는 학습에 사용할 수 있다.
2
훈련 데이터를 한 번 더 분할하여 훈련 데이터와 검증 데이터로 나누어서 사용
3
데이터는 학습, 검증, 평가 데이터로 구분
4
Early Stopping을 사용할 수 있다.

41. 다음 중 매개변수와 초매개변수에 대한 설명을 틀린 것은?

1
초매개변수는 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수
2
매개변수는 사람에 의해 수작업으로 측정되지 않음
3
초매개변수는 모델의 알고리즘 구현 과정에서 사용
4
매개변수는 종종 학습된 모델의 일부로 저장

42. 다음 중 경사 하강법과 관련된 알고리즘으로 틀린 것은?

1
Adaboost
2
RMSProp
3
AdaGrad
4
Nesterov Momentum

43. 관계 시각화에 대한 설명으로 옳은 것은?

1
버블 차트는 대표적인 관계 시각화 기법
2
복잡하고 어려운 데이터를 더 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 조합
3
관계 시각화는 다변량 변수를 갖는 자료를 제한된 2차원에서 효과적으로 표현하는 방법
4
관계 시각화는 지도 위에 위치를 표시하기 위해 위도와 경도를 사용

44. 다음이 설명하는 데이터 시각화 기법은?

다변량 데이터 사이에 존재하는 변수 사이의 연관성, 분포와 패턴을 찾는 시각화 기법
버블 차트, 산점도 등이 대표적으로 해당된다.

1
시간 시각화
2
분포 시각화
3
관계 시각화
4
비교 시각화

45. 선거인단수, 인구 등의 특정한 데이터 값의 변화에 따라 지도의 면적이 왜곡되어 표현되는 공간 시각화 기법은?

1
카토그램
2
히스토그램
3
버블차트
4
히트맵

46. 주어진 원천 데이터를 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하는 학습 데이터로, 하나는 평가 데이터로 사용하는 기법은?

1
Bagging
2
Ensemble
3
Boosting
4
Holdout Cross Validation

47. 다음 중 ROC 곡선에 대한 설명으로 틀린 것은?

1
AUC 의 값은 항상 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형
2
AUC는 곡선 아래 영역을 의미한다.
3
AUC는 진단의 정확도를 측정할 때 사용
4
참조선(Reference Line)에 가까울 수록 성능이 좋다.

48. 다음 중 회귀 모형의 가정으로 틀린 것은?

1
등분산성
2
독립성
3
선형성
4
일관성

49. 시각화 기법이 아닌 것은?

1
원-핫 인코딩
2
박스플롯
3
산점도
4
파이 차트

50. 인공신경망의 과대적합을 방지하는 방법으로 틀린 것은?

1
가중치의 합을 조절한다.
2
설명 노드의 수를 줄여서 가중치의 비중을 조절한다.
3
학습률을 감소하는 방향으로 변경한다.
4
에포크를 제한한다.

51. 이진분류기의 평가측정 요소로 틀린 것은?

1
Precision
2
Recall
3
Accuracy
4
MAE

52. 회귀 모형 진단을 위해 사용되는 적합도 검정기법과 가장 거리가 먼 것은?

1
종속변수 y 절편
2
Q-Q Plot
3
잔차의 히스토그램
4
샤피로-윌크 검정

53. 다음 중 빅데이터 분석 결과를 통해 수립된 전략으로 틀린 것은?

1
작업공간의 효율화
2
병목현상의 제거
3
성능의 최적화
4
초과 근무의 의무화

54. 다음 중 데이터 시각화에 대한 설명으로 틀린 것은?

1
데이터 시각화는 분석모형 해석의 기본이 된다.
2
정보 전달과 설득을 위한 목적으로 사용된다.
3
시간 시각화 기법으로 막대 그래프, 추세선 등을 사용한다.
4
비교 시각화의 유형으로 파이 차트, 도넛 차트 등이 있다.

55. 혼동행렬의 평가 지표에서 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비유은?

1
민감도 (Sensitivity)
2
특이도 (Specificity)
3
지지도 (Support)
4
유사도 (Similarity)

56. 다음 중 빅데이터의 특징 3V에 해당하지 않는 것은?

1
신뢰성 (Veracity)
2
다양성 (Variety)
3
규모 (Volume)
4
속도 (Velocity)

57. 다음 중 개인정보 비식별화 기법으로 틀린 것은?

1
데이터 마스킹
2
가명 처리
3
총계 처리
4
데이터 대체

58. 2018년 5월 25일 부터 시행된 유럽연합의 개인정보보호 법령은?

1
ISO27001
2
ISMS
3
PIMS
4
GDPR

59. 관계형 데이터베이스와 비교했을 때 DW에 저장되어 있는 데이터베이스의 특징으로 틀린 것은?

1
통합적
2
주제 지향적
3
시간에 따라 변화
4
소멸적

60. 다음 중 빅데이터 분석 방법론의 분석 절차로 올바른 것은?

ㄱ. 분석기획
ㄴ. 데이터 준비
ㄷ. 시스템 구현
ㄹ. 데이터 분석
- 평가 및 전개

1
ㄱ>ㄴ>ㄷ>ㄹ
2
ㄱ>ㄴ>ㄹ>ㄷ
3
ㄴ>ㄱ>ㄹ>ㄷ
4
ㄴ>ㄱ>ㄷ>ㄹ

61. 다양한 원천 시스템으로부터 데이터를 추출하고 변환하여 DW 및 DM으로 적재하는 기술은?

1
EAI
2
ETL
3
OLTP
4
ODS

62. ETL 기술을 이용하여 데이터 저장소에 적재하는 하둡기반의 시스템은 무엇인가?

1
Tajo
2
Zookeeper
3
HBase
4
Oozie

63. 기존의 관계형 데이터베이스의 구조와 비교하여 정형화 되어 있지 않은 데이터를 대규모로 저장할 수 있는 기술은?

1
NoSQL
2
HDFS
3
Sqoop
4
Scribe

64. 다음의 설명은 어떤 개념에 대한 설명인가?

A 기관은 홍길동의 개인 가입 정보를 보관하고 있다. 홍길동은 B 기관에서 새로운 상품을 가입하려고 하는데, 이 때 홍길동의 동의를 얻어 A 기관에서 소유하고 있는 사용자의 정보를 B 기관으로 전달하고자 한다.

1
API
2
마이 데이터
3
인증
4
개인정보보호

65. 다음 중 민감정보가 아닌 것은?

1
건강 상태
2
취미 생활
3
개인의 사상 및 신념
4
정치적 성향

66. 다음 중 분석 과제 우선순위 평가에 대한 설명으로 틀린 것은?

1
분석 과제 우선순위 평가 기준에서 시급성도 고려해야 한다.
2
우선순위 선정 기준인 난이도와 시급성을 가지고 분석과제를 4가지 유형으로 구분하여 분석과제의 적용 우선순위를 결정한다.
3
난이도는 현시점에서 과제를 추진하는 것이 범위와 비용 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로 분석의 적합성 여부의 기준이 된다.
4
분석 과제 우선순위 평가에서 투자 비용 요소에는 데이터 획득/저장/가공/비용 및 가치가 포함되어 있고, 비지니스 효과에는 분석 적용 비용이 포함된다.

67. 다음 중 재현 데이터(Synthetic Data)에 대한 설명으로 올바른 것은?

1
재현하는 데이터에는 원 데이터의 속성을 포함하고 있어야 한다.
2
재현 데이터는 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 파생변수이다.
3
재현 데이터 중 완전 재현 데이터는 민감하지 않은 정보는 그대로 두고, 민감한 정보에 대해서만 재현 데이터로 대체한 데이터이다.
4
생성 방법은 단위 변환, 표현형식 변환, 요약 통계량 변환, 정보 추출, 변수 결합, 조건문 등이 있다.

68. 전통적인 기계학습에 비해 최근 부각되는 빅데이터를 활용한 인공지능의 특징으로 틀린 것은?

1
인간의 통찰을 통해 기준을 설정하여 학습에 활용한다.
2
상호보완 관계로 빅데이터는 인공지능을 통해 문제 해결 완성도를 높이게 되었다.
3
빅데이터를 통해 자체 알고리즘을 가지고 학습하는 딥러닝 기술을 활용할 수 있게 되었고, 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 되었다.
4
빅데이터를 스스로 학습하는 딥러닝 기술은 다양한 분야에서 상용화가 이루어지고 있다.

69. 데이터 과학자가 데이터 엔지니어와 다르게 지녀야 하는 소양으로 틀린 것은?

1
머신러닝 모델을 사용해 정형, 비정형 데이터에서 인사이트 창출 능력
2
사내 데이터를 이용해서 고객 행동 패턴 모델링을 통해 패턴을 찾아내거나 이상치를 탐지하는 능력
3
데이터 분석 및 활용에 사용될 소프트웨어 개발 능력
4
예측 모델링, 추천 시스템 등을 개발해 비즈니스 의사결정에 필요한 인사이트 제공 능력

70. 다음 중 데이터의 적절성, 정확성, 상호 운영 등 명시된 요구와 내재된 요구를 만족하는 데이터 품질 기준은?

1
데이터 기능성
2
데이터 접근성
3
데이터 일관성
4
데이터 효율성

71. 다음 중 데이터 분석 업무로 틀린 것은?

1
탐색적 데이터 분석과 데이터 모델링을 수행해야 한다.
2
데이터의 수집 및 정합성 검증을 수행해야 한다.
3
데이터 분석 유효성 검증을 수행해야 한다.
4
모델 평가 및 검증을 수행한다.

72. 다음 중 개인정보 보호 원칙에 대한 설명으로 틀린 것은?

1
개인정보처리자는 개인정보의 처리 목적에 필요한 범위에서 적합하게 개인정보를 처리하며, 그 목적 외의 용도로 활용하여서는 안 된다.
2
개인정보처리자는 개인정보의 익명처리가 가능한 경우에는 익명에 의하여 처리될 수 있도록 한다.
3
개인정보처리자는 수집된 개인정보를 필요한 목적에 의해서 활용하고, 그 이외는 정보 주체의 사생활 침해를 최소화하는 방법으로 개인정보를 처리해야 한다.
4
개인정보처리자는 개인정보의 처리 방법 및 종류 등에 따라 정보 주체의 권리가 침해 받을 가능성과 그 위험 정도를 고려하여 개인정보를 안전하게 관리하여야한다.

73. 다음 중 분석 마스터 플랜에 대한 설명으로 틀린 것은?

1
분석과제를 수행함에 있어 그 과제의 목적이나 목표에 따라 전체적인 방향성을 제시하는 기본 계획이다.
2
분석 마스터플랜의 우선순위 고려 요소에는 전략적 중요도, 비즈니스 성과, ROI, 실행 용이성이 있다.
3
중/장기적 마스터 플랜 수립을 위해 분석과제를 대상으로 다양한 기준을 고려하여 우선순위를 설정한다.
4
분석 마스터 플랜 로드맵 수립 시 고려 요소에는 개인정보보호법, 분석 데이터 적용 수준, 비식별화 적용 기법이 있다.

74. 다음 중 빅데이터 분석 기획 단계에서 수행해야 하는 작업으로 맞는 것은?

1
프로젝트 진행을 위해 비지니스에 대한 충분한 이해와 도메인 이슈를 도출한다.
2
정형/비정형/반정형 등의 모든 내/외부 데이터와 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의서를 작성한다.
3
비지니스 규칙을 확인하여 분석용 데이터세트를 준비한다.
4
테스트 데이터 세트를 이용하여 모델 검증 작업을 실시하고 보고서를 작성한다.

75. 다음 중 분석 문제 정의에 대한 설명으로 틀린 것은?

1
'과제'는 처리해야할 문제이며, '분석'은 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사결정에 활용하는 활동이다.
2
분석 문제에서 '문제'라는 것은 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정이다.
3
하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하면서 상호 보완하여 분석 과제를 발굴한다.
4
상향식 접근 방식은 분석 과제가 정해져있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법이다.

빅데이터분석기사 21년 3회차

필기

1. 점 추정 조건에 대한 설명 중 틀린 것은?

2. 다음 중 전수 조사에 해당하는 것은?

3. 이상값에 대한 설명으로 옳은 것은?

4. 표본 추출 방법 중 하나로 집단 내 이질적이고, 집단 간 동질적인 특성을 갖는 방법은?

5. PCA에 대한 설명으로 틀린 것은?

6. 차원 축소에 대한 설명으로 틀린 것은?

7. PCA에 대한 설명으로 틀린 것은?

8. 상관관계에 대한 설명으로 옳은 것은?

9. 포아송분포를 가지는 X변수는 평균이 4이고, Y는 평균이 9일 때 E(3X+2Y/6), V(3X+2Y/6)을 계산한 결과는 무엇인가?

10. x2분포에 대한 설명으로 틀린 것은?

11. 평균에 대한 설명으로 옳은 것은?

12. 불균형 데이터에 대한 설명으로 틀린 것은?

13. Box-Cox 변환에 대한 설명으로 틀린 것은?

14. 다음 중 성격이 다른 지표는 무엇인가?

15. 유의 확률에 대한 설명으로 옳은 것은?

16. 다음 중 대푯값에 대한 설명으로 틀린 것은?

17. 중심극한정리에 대한 설명으로 틀린 것은?

18. 다음 중 정제 과정에서 수행하는 내용은 무엇인가?

19. 스케일링에 대한 설명으로 옳지 않은 것은?

20. 동일집단에 대해 처치 전과 후를 비교할 때 평균 추정에 대한 설명으로 옳은 것은?

21. 다음 중 훈련데이터에서 다수의 부트스트랩 자료를 생성하고 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 앙상블 기법은?

22. 소프트맥스 함수에 대한 설명으로 틀린 것은?

23. 다음 중 활성화 함수에 대한 설명으로 틀린 것은?

24. 다음 중 다중공성선을 제거하는 방법으로 틀린 것은?

25. 다음 중 의사결정나무의 분류나무에서 사용되는 분리 기준이 아닌 것은?

26. 다음 중 시계열 분해 구성요소로 틀린 것은?

27. 다음 중 SVM RBF에 대한 설명으로 틀린 것은?

28. 다음 중 ARIMA에 대한 설명으로 틀린 것은?

29. 10명의 혈당을 측정하여 측정 전과 측정 후의 짝을 이룬 표본에 대한 비모수 검정으로 가장 맞는 것은?

30. 다음 중 인공지능 적용 분야와 기법이 올바르게 짝지어진 것으로 가장 알맞는 것은?

31. 다음 중 비모수 통계에 대한 설명으로 틀린 것은?

32. 아래와 같은 거래 데이터 세트가 주어졌을 때 연관규칙 '오렌지, 사과 >>> 자몽'의 지지도와 신뢰도는 각각 얼마인가?

33. 다음 중 로지스틱 회귀분석에 대한 설명으로 틀린 것은?

34. 다음 중 심층신경망에 대한 설명으로 틀린 것은?

35. 다음중 SNA 중심성으로 틀린 것은?

36. 다음 중 기계학습 기반 분석 절차로 맞는 것은?

37. 다음 중 선형회귀와 로지스틱 회귀에 대한 설명으로 틀린 것은?

38. 다음 중 시계열 모형으로 틀린 것은?

39. 다음 중 은닉층이 순환적으로 연결된 것은 무엇인가?

40. 다음 중 데이터 분할에 대한 설명으로 틀린 것은?

41. 다음 중 매개변수와 초매개변수에 대한 설명을 틀린 것은?

42. 다음 중 경사 하강법과 관련된 알고리즘으로 틀린 것은?

43. 관계 시각화에 대한 설명으로 옳은 것은?

44. 다음이 설명하는 데이터 시각화 기법은?

45. 선거인단수, 인구 등의 특정한 데이터 값의 변화에 따라 지도의 면적이 왜곡되어 표현되는 공간 시각화 기법은?

46. 주어진 원천 데이터를 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하는 학습 데이터로, 하나는 평가 데이터로 사용하는 기법은?

47. 다음 중 ROC 곡선에 대한 설명으로 틀린 것은?

48. 다음 중 회귀 모형의 가정으로 틀린 것은?

49. 시각화 기법이 아닌 것은?

50. 인공신경망의 과대적합을 방지하는 방법으로 틀린 것은?

51. 이진분류기의 평가측정 요소로 틀린 것은?

52. 회귀 모형 진단을 위해 사용되는 적합도 검정기법과 가장 거리가 먼 것은?

53. 다음 중 빅데이터 분석 결과를 통해 수립된 전략으로 틀린 것은?

54. 다음 중 데이터 시각화에 대한 설명으로 틀린 것은?

55. 혼동행렬의 평가 지표에서 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비유은?

56. 다음 중 빅데이터의 특징 3V에 해당하지 않는 것은?

57. 다음 중 개인정보 비식별화 기법으로 틀린 것은?

58. 2018년 5월 25일 부터 시행된 유럽연합의 개인정보보호 법령은?

59. 관계형 데이터베이스와 비교했을 때 DW에 저장되어 있는 데이터베이스의 특징으로 틀린 것은?

60. 다음 중 빅데이터 분석 방법론의 분석 절차로 올바른 것은?

61. 다양한 원천 시스템으로부터 데이터를 추출하고 변환하여 DW 및 DM으로 적재하는 기술은?

62. ETL 기술을 이용하여 데이터 저장소에 적재하는 하둡기반의 시스템은 무엇인가?

63. 기존의 관계형 데이터베이스의 구조와 비교하여 정형화 되어 있지 않은 데이터를 대규모로 저장할 수 있는 기술은?

64. 다음의 설명은 어떤 개념에 대한 설명인가?

65. 다음 중 민감정보가 아닌 것은?

66. 다음 중 분석 과제 우선순위 평가에 대한 설명으로 틀린 것은?

67. 다음 중 재현 데이터(Synthetic Data)에 대한 설명으로 올바른 것은?

68. 전통적인 기계학습에 비해 최근 부각되는 빅데이터를 활용한 인공지능의 특징으로 틀린 것은?

69. 데이터 과학자가 데이터 엔지니어와 다르게 지녀야 하는 소양으로 틀린 것은?

70. 다음 중 데이터의 적절성, 정확성, 상호 운영 등 명시된 요구와 내재된 요구를 만족하는 데이터 품질 기준은?

71. 다음 중 데이터 분석 업무로 틀린 것은?

72. 다음 중 개인정보 보호 원칙에 대한 설명으로 틀린 것은?

73. 다음 중 분석 마스터 플랜에 대한 설명으로 틀린 것은?

74. 다음 중 빅데이터 분석 기획 단계에서 수행해야 하는 작업으로 맞는 것은?

75. 다음 중 분석 문제 정의에 대한 설명으로 틀린 것은?

10. x²분포에 대한 설명으로 틀린 것은?