빅데이터분석기사 기출문제 문제은행 - 뉴비티::새로운 CBT 문제풀이 시스템

필기

1. 빅데이터 분석 기획 단계 중 WBS 작성을 수행하는 단계로 맞는 것은?

1
분석 주제 정의
2
프로젝트 계획 수립
3
도메인 및 프로세스 이해
4
모델링 방안 수립

2. CRISP-DM 방법론의 프로세스로 옳은 것은?

1
비즈니스이해 > 데이터이해 > 데이터준비 > 모델링 > 평가 > 전개
2
비즈니스이해 > 데이터준비 > 데이터처리 > 모델링 > 평가 > 전개
3
비즈니스이해 > 데이터준비 > 데이터준비 > 모델링 > 전개 > 평가
4
비즈니스이해 > 데이터준비 > 데이터처리 > 모델링 > 전개 > 평가

3. 인공지능, 머신러닝, 딥러닝의 상호관계를 바르게 나타낸 것은?

( A > B 는 A에 B가 포함된다는 의미임)

1
머신러닝 > 딥러닝 > 인공지능
2
인공지능 > 머신러닝 > 딥러닝
3
딥러닝 > 머신러닝 > 인공지능
4
머신러닝 > 인공지능 > 딥러닝

4. 관계형 데이터베이스를 하둡 기반으로 전환하고자 할 때, 이를 모니터링하는 직무는?

1
데이터 엔지니어
2
데이터 아키텍트
3
데이터 애널리스트
4
데이터 모델러

5. 개인정보 비식별화 조치에 대한 설명으로 틀린 것은?

1
데이터 범주화는 개인정보 중 주요 식별정보를 삭제한다.
2
총계 처리는 개별 데이터의 값 대신 데이터의 총합으로 대체한다.
3
가명 처리는 개인정보 중 주요 식별 정보를 다른 값으로 대체한다.
4
데이터 마스킹은 개인정보 중 주요식별정보의 전체 혹은 부분적으로 대체값으로 변환한다.

6. 데이터 품질 진단 절차에서 데이터를 측정하고 분석하여 수치를 산출하는 단계로 맞는 것은?

1
품질 진단 계획 수립
2
데이터 품질 측정
3
품질 기준 및 진단 대상 정의
4
데이터 품질 측정 결과 분석

7. 다음 중 개인정보보호법과 관련된 데이터3법에 대한 설명으로 틀린 것은?

1
빅데이터 처리 사실 및 목적 등의 공개를 통해 투명성을 확보해야 한다.
2
개인정보가 재식별될 경우 즉시 파기하거나 비식별화 조치를 추가로 취해야 한다.
3
데이터 3법은 개인정보 보호법, 정보통신망법, 신용정보법의 개정안을 일컫는다.
4
데이터 3법의 개정으로 가명처리 후 활용 시 정보주체의 동의가 필요하다.

8. 관계형 데이터처럼 테이블 형태로 구조화되어 있지 않지만, 메타데이터의 특성을 갖고 있는 데이터는?

1
반정형 데이터
2
비정형 데이터
3
팡리 데이터
4
스트림 데이터

9. 총계 처리 기법에 대한 단점으로 틀린 것은?

1
집계 처리되어 정밀한 분석이 어렵다.
2
집계 수량이 적을 경우 데이터 결합 과정에서 개인정보 예측이 가능하다.
3
총계 처리는 비식별화가 불가능하다.
4
재배열 방법의 경우 개개인의 특성을 파악하기 힘들다.

10. 다음 중 자료 수집 방법에 대한 설명으로 옳은 것은?

1
브레인스토밍: 두 개 후보의 차이점을 비교한다.
2
인터뷰: 다수의 사람들에게 질문지를 배포한다.
3
FGI(focus group interview): 전문가 설문조사 후 온/오프라인 면담을 수행한다.
4
스캠퍼(SCAMPER): 이해관계자와 이야기한다.

11. 다음 중 특정 분야에서 학습된 신경망을 유사하거나 다른 분야의 신경망 학습에 활용하는 방법은?

1
CNN
2
LSTM
3
GAN
4
Transfer Learning

12. 데이터 수집 기술에 대한 설명으로 틀린 것은?

1
스쿱(sqoop): 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일시스템으로 데이터를 수집한다.
2
FTP(File Transfer Protocool): 다수의 서버로부터 대용량의 실시간 로그 파일을 수집한다.
3
API(Application Programming Interface): 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있는 인터페이스 기술이다.
4
크롤링(Crawling): 다양한 웹 사이트에서 SNS, 뉴스 등의 웹 문서 및 콘텐츠를 수집한다.

13. 데이터 분석 방법론 프로세스 중 데이터를 이해하고 수집하는 단계는?

1
데이터 준비
2
분석 기획
3
데이터 분석
4
평가 및 전개

14. 데이터 및 자원 할당 관리, 빅데이터 애플리케이션 실행을 위한 서비스 제공을 하는 빅데이터 플랫폼 계층 구조는?

1
Software Layer
2
Hardware Layer
3
Platform Layer
4
Infrastructure Layer

15. 병렬 DBMS의 특성으로 틀린 것은?

1
다수의 마이크로 프로세서를 동시에 사용한다.
2
데이터 처리가 빠르다는 장점이 있다.
3
데이터 중복치가 증가한다.
4
시스템 용량 확장이 쉽다.

16. 빅데이터 분석에 대한 설명으로 틀린 것은?

1
신제품의 경쟁력을 예측하고 각종 리스크를 미리 점검할 수 있다.
2
공공부문에서 비용을 절감할 수 있다.
3
개인 프라이버시 침해 위험이 있다.
4
항상 경제적으로 이익을 얻을 수 있다.

17. 다음 중 예측을 위한 분석으로 옳은 것은?

1
군집 분석
2
인자 분석
3
시계열 분석
4
판별 분석

18. 다음에서 설명하는 것은?

다양한 데이터 소스 시스템에서 필요한 원천 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다.

1
ERP
2
ETL
3
CRM
4
RDB

19. 분석기획에서 비지니스 계획 수립 절차로 틀린 것은?

1
모델 발전 계획 수립
2
비지니스 이해 및 범위 설정
3
프로젝트 정의 및 계획 수립
4
프로젝트 위험 계획 수립

20. 다음 중 데이터 저장 기술로 틀린 것은?

1
텍스트마이닝
2
RDB
3
NoSQL
4
분산 파일 시스템

21. 단위 시간 안에 발생한 특정 사건의 수를 표현하는 이산확률분포로 옳은 것은?

1
베르누이 시행
2
T 통계량
3
카이제곱 통계량
4
포아송비

22. 임의로 추출된 20명의 사람에게 새로 개발한 다이어트 약을 투여한 후 약의 전후 효과를 비교하려 한다. 다이어트 약 투여 체중이 줄어들었는지 검정하기 위한 분포로 맞는 것은?

1
대응표본, 단측검정
2
대응표본, 양측검정
3
독립표본, 단측검정
4
독립표본, 양측검정

23. 다음 중 공분산에 대한 설명으로 틀린 것은?

1
두 확률변수의 공분산 Cov(X,Y)가 0이라면, 두 확률 변수 X, Y는 항상 상호 독립이다.
2
두 확률변수의 공분산 Cov(X,Y)>0이면, X값이 상승할 때 Y 값도 상승하는 경향을 보인다.
3
두 확률변수 X, Y가 독립이면, 공분산 Cov(X, Y)가 0이다.
4
공분산 값은 측정 단위에 따라 달라진다.

24. 클래스 불균형 데이터를 처리하기 위한 방안으로 틀린 것은?

1
임곗값 조정
2
언더샘플링
3
오버샘플링
4
정규화

25. 0 ~ 100까지 양수 값을 가지며 최댓값과 최솟값의 차이가 크고, 분포가 한쪽으로 기울어진 변수가 있다. 이 변수를 분석하기 쉽게 변환하고자 할 때 적용하기에 가장 적절한 변수변환 방법은?

1
자연로그 변환
2
비닝
3
더미 변수화
4
최소-최대 정규화

26. 모집단의 표준편차를 알지 못하는 경우 평균의 차이에 대한 검정을 수행하는 분포로 옳은 것은? (N: 표본수)

1
자유도 N, Z 분포
2
자유도 N-1, Z 분포
3
자유도 N, F 분포
4
자유도 N-1, T 분포

27. 다음 중 표본 분포에 대한 설명으로 틀린 것은?

1
표본 크기가 커질수록 표본 평균의 분산이 0에 가까워진다.
2
중심극한정리는 모집단의 분포와 상관없이 적용된다.
3
모분산이 알려져 있지 않은 경우 정규분포 대신 t-분포를 사용할 수 있다.
4
표본 크기와 관계없이 표본 평균의 기댓값은 항상 모평균과 동일하다.

28. 다음 중 인코딩 기법에 대한 설명으로 틀린 것은?

1
원-핫 인코딩을 적용하면 sparse한 데이터가 된다.
2
타깃 인코딩은 종속변수 값들의 표준편차를 활용한다.
3
레이블 인코딩은 각 범주를 숫자에 대치시킨다.
4
원-핫 인코딩을 적용할 때보다 바이너리 인코딩을 적용할 때 모델 학습 속도가 더 빠르다.

29. 다음 데이터 변환 기술에 대한 설명으로 틀린 것은?

1
집계: 데이터를 요약한다.
2
일반화: 데이터의 스케일을 변화시킨다.
3
정규화: 데이터의 여러 통곗값을 사용한다.
4
평활화: 특정 속성을 추가한다.

30. 데이터 탐색에 대한 설명으로 틀린 것은?

1
왜도가 0보다 크면 평균이 중위수보다 크다.
2
산점도로 변수 간 상관관계를 확인할 수 있다.
3
박스플롯 제 1사분위는 75% 데이터를 의미한다.
4
박스플롯으로 이상치 존재를 파악할 수 있다.

31. 정규분포를 다루는 확률분포에서 모집단으로부터 표본의 크기가 4개인 확률변수를 추출한다. X1, X2, X3, X4에 대한 설명으로 틀린 것은?

1
X2, X3는 서로 종속이다.
2
표본은 정규분포를 따른다.
3
표본표준편차는 모집단의 표준편차를 2로 나눈 값이다.
4
표본의 크기를 늘리면 표본평균은 모집단의 평균에 가까워진다.

32. 데이터 변수 척도에 대한 설명으로 틀린 것은?

1
회귀분석을 위해 명목형 척도를 더미변수화한다.
2
크기 구분(소형, 중형, 대형)은 순서형 척도다.
3
데이터 값이 정수인 경우 수치형 척도에 해당한다.
4
연속형 척도와 범주형 척도는 모두 평균, 표준편차와 같은 기술 통계량을 구할 수 있다.

33. 상자수염그림과 이상치에 대한 설명으로 틀린 것은?

1
1.5배 IQR 에서 3배까지 박스 수염이 이어져 있다.
2
상자수염그림에서 중앙값을 확인할 수 있다.
3
수염보다 바깥쪽에 존재하는 데이터들은 이상치이다.
4
상자의 범위는 Q1~Q3이다.

34. 시간에 따른 일별 기온 변화를 표현할 수 있는 기법은?

1
시계열 분석
2
장바구니 분석
3
텍스트 분석
4
주요 인자 분석

35. 다음 중 분석모형 선정에 대한 설명으로 틀린 것은?

1
데이터 특성에 따라 적용 가능한 분석 모형이 다르다.
2
비지도 학습을 통해 데이터 패턴 도출이 가능하다.
3
비용민감함수는 주요 인자 분석에 사용한다.
4
소셜 네트워크 분석으로 사회적 관계를 시각화 할 수 있다.

36. 다음 중 확률분포에 대한 설명으로 틀린 것은?

1
연속확률분포에는 초기하분포, 지수분포가 있다.
2
이산확률분포에는 이항분포, 포아송분포가 있다.
3
확률질량함수는 이산확률변수의 확률분포를 나타내는 함수이다.
4
확률밀도함수의 면적이 그 구간에 해당하는 확률값이다.

37. 다음 중 드롭아웃 효과와 동일한 효과를 가져올 수 있는 기법은?

1
폴링(Pooling)
2
패딩(Padding)
3
커널 트릭(Kernel trick)
4
데이터 증강(Data Augmentation)

38. k-fold 교차 검증에 대한 설명으로 틀린 것은?

1
Stratified k-fold 교차 검증은 분류 데이터셋에서 사용된다.
2
평가 데이터를 제외한 나머지 데이터는 검증에 최소 한 번 사용된다.
3
훈련, 검증, 평가 데이터셋을 2:3:5 비율로 구성한다.
4
모델의 일반화 성능을 향상시킬 수 있다.

39. 다음 중 인공신경망 모형에서 과적합을 방지할 수 있는 방법으로 틀린 것은?

1
학습 데이터 수를 늘린다.
2
가지치기를 수행한다.
3
가중치 규제를 적용한다.
4
학습 시 early stopping을 적용한다.

40. 텍스트 마이닝 기법 중 단어를 벡터화하는 text to Vector 변환 기법으로 틀린 것은?

1
One - hot encoding
2
TF - IDF
3
Word Embedding
4
POS - tagging

41. 다음 중 모형 선정에 대한 설명으로 틀린 것은?

1
나이브베이즈 모델은 범주형 독립변수 및 종속변수를 사용한다.
2
일반적으로 설명력이 좋은 모형은 예측력이 떨어진다.
3
SOM은 비지도 학습에 속한다.
4
단순한 모형보다 복잡한 모형이 무조건 좋다.

42. 다음 중 분석 모형에서 변수를 선택하는 방법이 아닌 것은?

1
차수선택법
2
전진선택법
3
단계적선택법
4
후진제거법

43. 다음 중 로지스틱 회귀분석에 관한 설명으로 맞는 것은?

1
종속변수의 범주가 세 개 이상일 때는 적용할 수 없다.
2
Odds는 -무한대 ~ 무한대의 범위를 갖는다.
3
y값이 0~1 사이 값을 가지고 이진 분류한다.
4
로지스틱 회귀는 정규분포를 따른다.

44. 시계열 모형 기법인 ARIMA 모형에 대한 설명으로 틀린 것은?

1
정상성을 보이는 시계열은 추세나 계절성이 없다.
2
AR 모델은 변수의 과거 값을 이용한다.
3
MA 모델은 과거 예측 오차를 이용한다.
4
백색잡음은 서로 독립적이지 않다.

45. 주성분 분석에 대한 설명으로 틀린 것은?

1
고차원 데이터를 저차원으로 변환한다.
2
주성분끼리는 서로 직교한다.
3
주성분은 기존 변수들의 선형결합으로 이뤄져 있다.
4
주성분 분석을 하기 위해서는 변수의 수가 표본의 수보다 항상 커야 한다.

46. 다음 중 비모수 검정에 대한 설명으로 틀린 것은?

1
만-휘트니 검정은 양측 모수 검정이다.
2
윌콕슨 순위합 검정은 중위수의 차이를 비교한다.
3
크루스칼-왈리스 검정은 분산 분석에서 정규성 가정이 만족되지 않을 때 사용한다.
4
일반적으로 모수 검정보다 검정력이 떨어진다.

47. 연관규칙 척도 중 하나로, A항목이 포함된 거래 중 A 항목과 B항목이 동시에 포함된 거래의 비율을 나타내는 지표는?

1
지지도
2
신뢰도
3
향상도
4
레버리지

48. 다음 중 요인 분석에 대한 설명으로 틀린 것은?

1
고차원의 데이터를 저차원으로 축소한다.
2
변수들의 상관관계를 기반으로 공통의 요인을 찾는다.
3
요인 회전 방법으로는 VariMax, ScreeMax 등이 있다.
4
요인 분석 결과로 만들어진 새로운 변수들은 서로 대등하다.

49. 독립변수와 종속변수 척도에 따른 통계분석 방법에 대한 설명으로 틀린 것은?

1
공분산분석(ANCOVA)은 종속변수가 범주형, 독립변수가 연속형인 분석 방법이다.
2
T-검정은 수치형 종속변수와 2개 범주의 독립변수를 사용하여 분석하는 방법이다.
3
로짓 모형은 범주형 종속변수와 범주형 및 수치형 독립변수를 사용하여 분석하는 방법이다.
4
카이제곱검정은 범주형 종속변수와 범주형 독립변수를 사용하여 분석하는 방법이다.

50. 회귀모형에 대한 설명으로 옳은 것은?

1
다중회귀모형에서 통계적 유의성을 확인하는 방법은 Z-통계량이다.
2
독립변수가 2개 이상이고 회귀계수가 2차 이상이면 다항회귀 모형이다.
3
설명변수들 사이에 비선형 관계가 존재하면 다중공선성 문제가 발생한다.
4
회귀모형의 변수 선택법에는 주성분 분석, 전진선택법, 후진제거법 등이 있다.

51. 의사결정나무 분석 결과에서 뿌리 노드만 남는 이유로 옳은 것은?

1
변별력 있는 변수가 없어 분리를 정지한다.
2
모델이 과적합되었다.
3
불필요한 가지를 제거했다.
4
변수들 간 관계가 비선형이기 때문이다.

52. 데이터 분석 결과 산출물로 틀린 것은?

1
분석 모델
2
알고리즘 보안 계획서
3
EDA 보고서
4
변수 정의서

53. 다음 중 ROC Curve 축을 구성하는 지표로 바르게 짝지어진 것은?

1
정확도, 정밀도
2
정밀도, 특이도
3
민감도, 특이도
4
민감도, F1-Score

54. 분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일로 틀린 것은?

1
사용자별 사용 데이터셋 및 정보 기술
2
사용자 시나리오 작성
3
스토리보드 기획
4
스토리보드 도구 검증

55. 최종 모델을 평가하는 기준으로 틀린 것은?

1
평가지표
2
표본의 충분성
3
시스템 구현 가능성
4
업무담당자의 의견

56. 분류모형 평가에 대한 설명으로 틀린 것은?

1
ROC Curve로 혼동행렬을 구할 수 있다.
2
혼동행렬에서 모델이 참으로 예측한 수는 TP+FP로 구할 수 있다.
3
F1-Score는 정밀도와 재현율의 조화평균 값이다.
4
AUC 값이 1에 가까울수록 분류 모델의 성능이 좋다.

57. 다음 중 정규성 검정 기법으로 틀린 것은?

1
Q-Q Plot
2
카이제곱 검정
3
샤피로-윌크 검정
4
콜모고로프-스미르노프 검정

58. 다음 중 비교 시각화 기법으로 틀린 것은?

1
버블차트
2
히트맵
3
체르노프 페이스
4
스타차트

59. 다음 보기 중 일반화 선형 모형(GLM)에 대한 설명으로 옳은 것을 모두 고르면?

가. 반응변수가 이항분포이면 연결함수로 logit 함수를 사용한다.
나. 종속변수의 정규성이 성립하지 않아도 사용할 수 있다.
다. 로지스틱 회귀가 대표적인 일반화 선형 모형이다.

1
가, 나
2
가, 다
3
나, 다
4
가, 나, 다

60. 다음 중 관계 시각화 기법으로 틀린 것은?

1
누적막대그래프
2
산점도
3
버블차트
4
산점도행렬

61. 민감도가 0.6, 정밀도가 0.4인 경우 F1-Score를 산출하면 얼마인가?

1
0.24
2
0.48
3
0.5
4
1

62. 다음 보기 중 앙상블 모형에 대한 설명으로 맞는 것은?

가. 랜덤포레스트가 대표적인 앙상블 모형이다.
나. 배깅은 부트스트랩 샘플을 사용한다.
다. 부스팅은 정답에 더 높은 가중치를 부여하여 모델 성능을 올리는 방법이다.

1
가
2
가, 나
3
나, 다
4
가, 나, 다

63. 신경망 모형에서 발생하는 Gradient Vanishing 문제에 대한 설명으로 맞는 것은?

1
신경망 학습 과정에서 기울기가 점차 커지다가 발산하는 현상이다.
2
오차 역전파 과정에서 기울기가 감소하여 가중치가 업데이트 되지 않는 현상이다.
3
은닉층의 활성화 함수로 시그모이드 함수를 사용하면 문제가 완화된다.
4
그레디언트 클리핑을 하면 문제가 완화된다.

64. 앙상블 모형을 독립적으로 최적화시키는 방법으로 틀린 것은?

1
평가 데이터셋을 다양화한다.
2
학습 데이터셋을 다양화한다.
3
하이퍼파라미터 튜닝을 한다.
4
학습시간을 늘려본다.

65. 다음 중 재현율에 대한 공식으로 옳은 것은?

1
TN/(TN+FP)
2
TN/(TN+TP)
3
TP/(TP+FN)
4
TP/(TP+TN)

66. 분석 모형 해석에 대한 설명으로 옳은 것은?

1
의사결정나무는 해석이 어렵다는 단점이 있다.
2
군집 분석의 성능은 지지도, 향상도 등으로 평가할 수 있다.
3
연관성 분석을 통해 두 변수 간의 선형관계를 알 수 있다.
4
예측 분석은 현재 분석 결과를 통해 미래를 예측한다.

67. 과대적합을 해결하기 위한 방법으로 옳은 것은?

1
벌점화 회귀를 사용하여 모형에 제약조건을 추가한다.
2
학습시간을 늘린다.
3
모델의 복잡성을 증가시킨다.
4
데이터의 다양성을 줄여 패턴을 더 잘 인식하도록 한다.

68. 과적합에 대한 설명으로 틀린 것은?

1
일반화 성능이 낮은 상태이다.
2
모형의 분산이 크다.
3
과대적합은 비선형 모형보다 선형모형에서 더 쉽게 발생한다.
4
모형이 과도하게 복잡한 상태이다.

69. 인포그래픽에 대한 설명으로 틀린 것은?

1
중요한 정보를 효과적으로 나타낼 수 있다.
2
적절한 텍스트를 넣어 이해하기 쉽게 만든다.
3
데이터의 패턴을 탐색할 수 있다.
4
디자인적 요소를 고려하여 만든다.

70. 빅데이터 시각화 절차에 해당하는 요소로 틀린 것은?

1
정제
2
구조화
3
시각화
4
시각 표현

빅데이터분석기사 22년 5회차

필기

1. 빅데이터 분석 기획 단계 중 WBS 작성을 수행하는 단계로 맞는 것은?

2. CRISP-DM 방법론의 프로세스로 옳은 것은?

3. 인공지능, 머신러닝, 딥러닝의 상호관계를 바르게 나타낸 것은?

4. 관계형 데이터베이스를 하둡 기반으로 전환하고자 할 때, 이를 모니터링하는 직무는?

5. 개인정보 비식별화 조치에 대한 설명으로 틀린 것은?

6. 데이터 품질 진단 절차에서 데이터를 측정하고 분석하여 수치를 산출하는 단계로 맞는 것은?

7. 다음 중 개인정보보호법과 관련된 데이터3법에 대한 설명으로 틀린 것은?

8. 관계형 데이터처럼 테이블 형태로 구조화되어 있지 않지만, 메타데이터의 특성을 갖고 있는 데이터는?

9. 총계 처리 기법에 대한 단점으로 틀린 것은?

10. 다음 중 자료 수집 방법에 대한 설명으로 옳은 것은?

11. 다음 중 특정 분야에서 학습된 신경망을 유사하거나 다른 분야의 신경망 학습에 활용하는 방법은?

12. 데이터 수집 기술에 대한 설명으로 틀린 것은?

13. 데이터 분석 방법론 프로세스 중 데이터를 이해하고 수집하는 단계는?

14. 데이터 및 자원 할당 관리, 빅데이터 애플리케이션 실행을 위한 서비스 제공을 하는 빅데이터 플랫폼 계층 구조는?

15. 병렬 DBMS의 특성으로 틀린 것은?

16. 빅데이터 분석에 대한 설명으로 틀린 것은?

17. 다음 중 예측을 위한 분석으로 옳은 것은?

18. 다음에서 설명하는 것은?

19. 분석기획에서 비지니스 계획 수립 절차로 틀린 것은?

20. 다음 중 데이터 저장 기술로 틀린 것은?

21. 단위 시간 안에 발생한 특정 사건의 수를 표현하는 이산확률분포로 옳은 것은?

22. 임의로 추출된 20명의 사람에게 새로 개발한 다이어트 약을 투여한 후 약의 전후 효과를 비교하려 한다. 다이어트 약 투여 체중이 줄어들었는지 검정하기 위한 분포로 맞는 것은?

23. 다음 중 공분산에 대한 설명으로 틀린 것은?

24. 클래스 불균형 데이터를 처리하기 위한 방안으로 틀린 것은?

25. 0 ~ 100까지 양수 값을 가지며 최댓값과 최솟값의 차이가 크고, 분포가 한쪽으로 기울어진 변수가 있다. 이 변수를 분석하기 쉽게 변환하고자 할 때 적용하기에 가장 적절한 변수변환 방법은?

26. 모집단의 표준편차를 알지 못하는 경우 평균의 차이에 대한 검정을 수행하는 분포로 옳은 것은? (N: 표본수)

27. 다음 중 표본 분포에 대한 설명으로 틀린 것은?

28. 다음 중 인코딩 기법에 대한 설명으로 틀린 것은?

29. 다음 데이터 변환 기술에 대한 설명으로 틀린 것은?

30. 데이터 탐색에 대한 설명으로 틀린 것은?

31. 정규분포를 다루는 확률분포에서 모집단으로부터 표본의 크기가 4개인 확률변수를 추출한다. X1, X2, X3, X4에 대한 설명으로 틀린 것은?

32. 데이터 변수 척도에 대한 설명으로 틀린 것은?

33. 상자수염그림과 이상치에 대한 설명으로 틀린 것은?

34. 시간에 따른 일별 기온 변화를 표현할 수 있는 기법은?

35. 다음 중 분석모형 선정에 대한 설명으로 틀린 것은?

36. 다음 중 확률분포에 대한 설명으로 틀린 것은?

37. 다음 중 드롭아웃 효과와 동일한 효과를 가져올 수 있는 기법은?

38. k-fold 교차 검증에 대한 설명으로 틀린 것은?

39. 다음 중 인공신경망 모형에서 과적합을 방지할 수 있는 방법으로 틀린 것은?

40. 텍스트 마이닝 기법 중 단어를 벡터화하는 text to Vector 변환 기법으로 틀린 것은?

41. 다음 중 모형 선정에 대한 설명으로 틀린 것은?

42. 다음 중 분석 모형에서 변수를 선택하는 방법이 아닌 것은?

43. 다음 중 로지스틱 회귀분석에 관한 설명으로 맞는 것은?

44. 시계열 모형 기법인 ARIMA 모형에 대한 설명으로 틀린 것은?

45. 주성분 분석에 대한 설명으로 틀린 것은?

46. 다음 중 비모수 검정에 대한 설명으로 틀린 것은?

47. 연관규칙 척도 중 하나로, A항목이 포함된 거래 중 A 항목과 B항목이 동시에 포함된 거래의 비율을 나타내는 지표는?

48. 다음 중 요인 분석에 대한 설명으로 틀린 것은?

49. 독립변수와 종속변수 척도에 따른 통계분석 방법에 대한 설명으로 틀린 것은?

50. 회귀모형에 대한 설명으로 옳은 것은?

51. 의사결정나무 분석 결과에서 뿌리 노드만 남는 이유로 옳은 것은?

52. 데이터 분석 결과 산출물로 틀린 것은?

53. 다음 중 ROC Curve 축을 구성하는 지표로 바르게 짝지어진 것은?

54. 분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일로 틀린 것은?

55. 최종 모델을 평가하는 기준으로 틀린 것은?

56. 분류모형 평가에 대한 설명으로 틀린 것은?

57. 다음 중 정규성 검정 기법으로 틀린 것은?

58. 다음 중 비교 시각화 기법으로 틀린 것은?

59. 다음 보기 중 일반화 선형 모형(GLM)에 대한 설명으로 옳은 것을 모두 고르면?

60. 다음 중 관계 시각화 기법으로 틀린 것은?

61. 민감도가 0.6, 정밀도가 0.4인 경우 F1-Score를 산출하면 얼마인가?

62. 다음 보기 중 앙상블 모형에 대한 설명으로 맞는 것은?

63. 신경망 모형에서 발생하는 Gradient Vanishing 문제에 대한 설명으로 맞는 것은?

64. 앙상블 모형을 독립적으로 최적화시키는 방법으로 틀린 것은?

65. 다음 중 재현율에 대한 공식으로 옳은 것은?

66. 분석 모형 해석에 대한 설명으로 옳은 것은?

67. 과대적합을 해결하기 위한 방법으로 옳은 것은?

68. 과적합에 대한 설명으로 틀린 것은?

69. 인포그래픽에 대한 설명으로 틀린 것은?

70. 빅데이터 시각화 절차에 해당하는 요소로 틀린 것은?