빅데이터분석기사 22년 5회차

필기


1. 빅데이터 분석 기획 단계 중 WBS 작성을 수행하는 단계로 맞는 것은?
  •  분석 주제 정의
  •  프로젝트 계획 수립
  •  도메인 및 프로세스 이해
  •  모델링 방안 수립

2. CRISP-DM 방법론의 프로세스로 옳은 것은?
  •  비즈니스이해 > 데이터이해 > 데이터준비 > 모델링 > 평가 > 전개
  •  비즈니스이해 > 데이터준비 > 데이터처리 > 모델링 > 평가 > 전개
  •  비즈니스이해 > 데이터준비 > 데이터준비 > 모델링 > 전개 > 평가
  •  비즈니스이해 > 데이터준비 > 데이터처리 > 모델링 > 전개 > 평가

3. 인공지능, 머신러닝, 딥러닝의 상호관계를 바르게 나타낸 것은?
( A > B 는 A에 B가 포함된다는 의미임)
  •  머신러닝 > 딥러닝 > 인공지능
  •  인공지능 > 머신러닝 > 딥러닝
  •  딥러닝 > 머신러닝 > 인공지능
  •  머신러닝 > 인공지능 > 딥러닝

4. 관계형 데이터베이스를 하둡 기반으로 전환하고자 할 때, 이를 모니터링하는 직무는?
  •  데이터 엔지니어
  •  데이터 아키텍트
  •  데이터 애널리스트
  •  데이터 모델러

5. 개인정보 비식별화 조치에 대한 설명으로 틀린 것은?
  •  데이터 범주화는 개인정보 중 주요 식별정보를 삭제한다.
  •  총계 처리는 개별 데이터의 값 대신 데이터의 총합으로 대체한다.
  •  가명 처리는 개인정보 중 주요 식별 정보를 다른 값으로 대체한다.
  •  데이터 마스킹은 개인정보 중 주요식별정보의 전체 혹은 부분적으로 대체값으로 변환한다.

6. 데이터 품질 진단 절차에서 데이터를 측정하고 분석하여 수치를 산출하는 단계로 맞는 것은?
  •  품질 진단 계획 수립
  •  데이터 품질 측정
  •  품질 기준 및 진단 대상 정의
  •  데이터 품질 측정 결과 분석

7. 다음 중 개인정보보호법과 관련된 데이터3법에 대한 설명으로 틀린 것은?
  •  빅데이터 처리 사실 및 목적 등의 공개를 통해 투명성을 확보해야 한다.
  •  개인정보가 재식별될 경우 즉시 파기하거나 비식별화 조치를 추가로 취해야 한다.
  •  데이터 3법은 개인정보 보호법, 정보통신망법, 신용정보법의 개정안을 일컫는다.
  •  데이터 3법의 개정으로 가명처리 후 활용 시 정보주체의 동의가 필요하다.

8. 관계형 데이터처럼 테이블 형태로 구조화되어 있지 않지만, 메타데이터의 특성을 갖고 있는 데이터는?
  •  반정형 데이터
  •  비정형 데이터
  •  팡리 데이터
  •  스트림 데이터

9. 총계 처리 기법에 대한 단점으로 틀린 것은?
  •  집계 처리되어 정밀한 분석이 어렵다.
  •  집계 수량이 적을 경우 데이터 결합 과정에서 개인정보 예측이 가능하다.
  •  총계 처리는 비식별화가 불가능하다.
  •  재배열 방법의 경우 개개인의 특성을 파악하기 힘들다.

10. 다음 중 자료 수집 방법에 대한 설명으로 옳은 것은?
  •  브레인스토밍: 두 개 후보의 차이점을 비교한다.
  •  인터뷰: 다수의 사람들에게 질문지를 배포한다.
  •  FGI(focus group interview): 전문가 설문조사 후 온/오프라인 면담을 수행한다.
  •  스캠퍼(SCAMPER): 이해관계자와 이야기한다.

11. 다음 중 특정 분야에서 학습된 신경망을 유사하거나 다른 분야의 신경망 학습에 활용하는 방법은?
  •  CNN
  •  LSTM
  •  GAN
  •  Transfer Learning

12. 데이터 수집 기술에 대한 설명으로 틀린 것은?
  •  스쿱(sqoop): 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일시스템으로 데이터를 수집한다.
  •  FTP(File Transfer Protocool): 다수의 서버로부터 대용량의 실시간 로그 파일을 수집한다.
  •  API(Application Programming Interface): 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있는 인터페이스 기술이다.
  •  크롤링(Crawling): 다양한 웹 사이트에서 SNS, 뉴스 등의 웹 문서 및 콘텐츠를 수집한다.

13. 데이터 분석 방법론 프로세스 중 데이터를 이해하고 수집하는 단계는?
  •  데이터 준비
  •  분석 기획
  •  데이터 분석
  •  평가 및 전개

14. 데이터 및 자원 할당 관리, 빅데이터 애플리케이션 실행을 위한 서비스 제공을 하는 빅데이터 플랫폼 계층 구조는?
  •  Software Layer
  •  Hardware Layer
  •  Platform Layer
  •  Infrastructure Layer

15. 병렬 DBMS의 특성으로 틀린 것은?
  •  다수의 마이크로 프로세서를 동시에 사용한다.
  •  데이터 처리가 빠르다는 장점이 있다.
  •  데이터 중복치가 증가한다.
  •  시스템 용량 확장이 쉽다.

16. 빅데이터 분석에 대한 설명으로 틀린 것은?
  •  신제품의 경쟁력을 예측하고 각종 리스크를 미리 점검할 수 있다.
  •  공공부문에서 비용을 절감할 수 있다.
  •  개인 프라이버시 침해 위험이 있다.
  •  항상 경제적으로 이익을 얻을 수 있다.

17. 다음 중 예측을 위한 분석으로 옳은 것은?
  •  군집 분석
  •  인자 분석
  •  시계열 분석
  •  판별 분석

18. 다음에서 설명하는 것은?
다양한 데이터 소스 시스템에서 필요한 원천 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다.
  •  ERP
  •  ETL
  •  CRM
  •  RDB

19. 분석기획에서 비지니스 계획 수립 절차로 틀린 것은?
  •  모델 발전 계획 수립
  •  비지니스 이해 및 범위 설정
  •  프로젝트 정의 및 계획 수립
  •  프로젝트 위험 계획 수립

20. 다음 중 데이터 저장 기술로 틀린 것은?
  •  텍스트마이닝
  •  RDB
  •  NoSQL
  •  분산 파일 시스템

21. 단위 시간 안에 발생한 특정 사건의 수를 표현하는 이산확률분포로 옳은 것은?
  •  베르누이 시행
  •  T 통계량
  •  카이제곱 통계량
  •  포아송비

22. 임의로 추출된 20명의 사람에게 새로 개발한 다이어트 약을 투여한 후 약의 전후 효과를 비교하려 한다. 다이어트 약 투여 체중이 줄어들었는지 검정하기 위한 분포로 맞는 것은?
  •  대응표본, 단측검정
  •  대응표본, 양측검정
  •  독립표본, 단측검정
  •  독립표본, 양측검정

23. 다음 중 공분산에 대한 설명으로 틀린 것은?
  •  두 확률변수의 공분산 Cov(X,Y)가 0이라면, 두 확률 변수 X, Y는 항상 상호 독립이다.
  •  두 확률변수의 공분산 Cov(X,Y)>0이면, X값이 상승할 때 Y 값도 상승하는 경향을 보인다.
  •  두 확률변수 X, Y가 독립이면, 공분산 Cov(X, Y)가 0이다.
  •  공분산 값은 측정 단위에 따라 달라진다.

24. 클래스 불균형 데이터를 처리하기 위한 방안으로 틀린 것은?
  •  임곗값 조정
  •  언더샘플링
  •  오버샘플링
  •  정규화

25. 0 ~ 100까지 양수 값을 가지며 최댓값과 최솟값의 차이가 크고, 분포가 한쪽으로 기울어진 변수가 있다. 이 변수를 분석하기 쉽게 변환하고자 할 때 적용하기에 가장 적절한 변수변환 방법은?
  •  자연로그 변환
  •  비닝
  •  더미 변수화
  •  최소-최대 정규화

26. 모집단의 표준편차를 알지 못하는 경우 평균의 차이에 대한 검정을 수행하는 분포로 옳은 것은? (N: 표본수)
  •  자유도 N, Z 분포
  •  자유도 N-1, Z 분포
  •  자유도 N, F 분포
  •  자유도 N-1, T 분포

27. 다음 중 표본 분포에 대한 설명으로 틀린 것은?
  •  표본 크기가 커질수록 표본 평균의 분산이 0에 가까워진다.
  •  중심극한정리는 모집단의 분포와 상관없이 적용된다.
  •  모분산이 알려져 있지 않은 경우 정규분포 대신 t-분포를 사용할 수 있다.
  •  표본 크기와 관계없이 표본 평균의 기댓값은 항상 모평균과 동일하다.

28. 다음 중 인코딩 기법에 대한 설명으로 틀린 것은?
  •  원-핫 인코딩을 적용하면 sparse한 데이터가 된다.
  •  타깃 인코딩은 종속변수 값들의 표준편차를 활용한다.
  •  레이블 인코딩은 각 범주를 숫자에 대치시킨다.
  •  원-핫 인코딩을 적용할 때보다 바이너리 인코딩을 적용할 때 모델 학습 속도가 더 빠르다.

29. 다음 데이터 변환 기술에 대한 설명으로 틀린 것은?
  •  집계: 데이터를 요약한다.
  •  일반화: 데이터의 스케일을 변화시킨다.
  •  정규화: 데이터의 여러 통곗값을 사용한다.
  •  평활화: 특정 속성을 추가한다.

30. 데이터 탐색에 대한 설명으로 틀린 것은?
  •  왜도가 0보다 크면 평균이 중위수보다 크다.
  •  산점도로 변수 간 상관관계를 확인할 수 있다.
  •  박스플롯 제 1사분위는 75% 데이터를 의미한다.
  •  박스플롯으로 이상치 존재를 파악할 수 있다.

31. 정규분포를 다루는 확률분포에서 모집단으로부터 표본의 크기가 4개인 확률변수를 추출한다. X1, X2, X3, X4에 대한 설명으로 틀린 것은?
  •  X2, X3는 서로 종속이다.
  •  표본은 정규분포를 따른다.
  •  표본표준편차는 모집단의 표준편차를 2로 나눈 값이다.
  •  표본의 크기를 늘리면 표본평균은 모집단의 평균에 가까워진다.

32. 데이터 변수 척도에 대한 설명으로 틀린 것은?
  •  회귀분석을 위해 명목형 척도를 더미변수화한다.
  •  크기 구분(소형, 중형, 대형)은 순서형 척도다.
  •  데이터 값이 정수인 경우 수치형 척도에 해당한다.
  •  연속형 척도와 범주형 척도는 모두 평균, 표준편차와 같은 기술 통계량을 구할 수 있다.

33. 상자수염그림과 이상치에 대한 설명으로 틀린 것은?
  •  1.5배 IQR 에서 3배까지 박스 수염이 이어져 있다.
  •  상자수염그림에서 중앙값을 확인할 수 있다.
  •  수염보다 바깥쪽에 존재하는 데이터들은 이상치이다.
  •  상자의 범위는 Q1~Q3이다.

34. 시간에 따른 일별 기온 변화를 표현할 수 있는 기법은?
  •  시계열 분석
  •  장바구니 분석
  •  텍스트 분석
  •  주요 인자 분석

35. 다음 중 분석모형 선정에 대한 설명으로 틀린 것은?
  •  데이터 특성에 따라 적용 가능한 분석 모형이 다르다.
  •  비지도 학습을 통해 데이터 패턴 도출이 가능하다.
  •  비용민감함수는 주요 인자 분석에 사용한다.
  •  소셜 네트워크 분석으로 사회적 관계를 시각화 할 수 있다.

36. 다음 중 확률분포에 대한 설명으로 틀린 것은?
  •  연속확률분포에는 초기하분포, 지수분포가 있다.
  •  이산확률분포에는 이항분포, 포아송분포가 있다.
  •  확률질량함수는 이산확률변수의 확률분포를 나타내는 함수이다.
  •  확률밀도함수의 면적이 그 구간에 해당하는 확률값이다.

37. 다음 중 드롭아웃 효과와 동일한 효과를 가져올 수 있는 기법은?
  •  폴링(Pooling)
  •  패딩(Padding)
  •  커널 트릭(Kernel trick)
  •  데이터 증강(Data Augmentation)

38. k-fold 교차 검증에 대한 설명으로 틀린 것은?
  •  Stratified k-fold 교차 검증은 분류 데이터셋에서 사용된다.
  •  평가 데이터를 제외한 나머지 데이터는 검증에 최소 한 번 사용된다.
  •  훈련, 검증, 평가 데이터셋을 2:3:5 비율로 구성한다.
  •  모델의 일반화 성능을 향상시킬 수 있다.

39. 다음 중 인공신경망 모형에서 과적합을 방지할 수 있는 방법으로 틀린 것은?
  •  학습 데이터 수를 늘린다.
  •  가지치기를 수행한다.
  •  가중치 규제를 적용한다.
  •  학습 시 early stopping을 적용한다.

40. 텍스트 마이닝 기법 중 단어를 벡터화하는 text to Vector 변환 기법으로 틀린 것은?
  •  One - hot encoding
  •  TF - IDF
  •  Word Embedding
  •  POS - tagging

41. 다음 중 모형 선정에 대한 설명으로 틀린 것은?
  •  나이브베이즈 모델은 범주형 독립변수 및 종속변수를 사용한다.
  •  일반적으로 설명력이 좋은 모형은 예측력이 떨어진다.
  •  SOM은 비지도 학습에 속한다.
  •  단순한 모형보다 복잡한 모형이 무조건 좋다.

42. 다음 중 분석 모형에서 변수를 선택하는 방법이 아닌 것은?
  •  차수선택법
  •  전진선택법
  •  단계적선택법
  •  후진제거법

43. 다음 중 로지스틱 회귀분석에 관한 설명으로 맞는 것은?
  •  종속변수의 범주가 세 개 이상일 때는 적용할 수 없다.
  •  Odds는 -무한대 ~ 무한대의 범위를 갖는다.
  •  y값이 0~1 사이 값을 가지고 이진 분류한다.
  •  로지스틱 회귀는 정규분포를 따른다.

44. 시계열 모형 기법인 ARIMA 모형에 대한 설명으로 틀린 것은?
  •  정상성을 보이는 시계열은 추세나 계절성이 없다.
  •  AR 모델은 변수의 과거 값을 이용한다.
  •  MA 모델은 과거 예측 오차를 이용한다.
  •  백색잡음은 서로 독립적이지 않다.

45. 주성분 분석에 대한 설명으로 틀린 것은?
  •  고차원 데이터를 저차원으로 변환한다.
  •  주성분끼리는 서로 직교한다.
  •  주성분은 기존 변수들의 선형결합으로 이뤄져 있다.
  •  주성분 분석을 하기 위해서는 변수의 수가 표본의 수보다 항상 커야 한다.

46. 다음 중 비모수 검정에 대한 설명으로 틀린 것은?
  •  만-휘트니 검정은 양측 모수 검정이다.
  •  윌콕슨 순위합 검정은 중위수의 차이를 비교한다.
  •  크루스칼-왈리스 검정은 분산 분석에서 정규성 가정이 만족되지 않을 때 사용한다.
  •  일반적으로 모수 검정보다 검정력이 떨어진다.

47. 연관규칙 척도 중 하나로, A항목이 포함된 거래 중 A 항목과 B항목이 동시에 포함된 거래의 비율을 나타내는 지표는?
  •  지지도
  •  신뢰도
  •  향상도
  •  레버리지

48. 다음 중 요인 분석에 대한 설명으로 틀린 것은?
  •  고차원의 데이터를 저차원으로 축소한다.
  •  변수들의 상관관계를 기반으로 공통의 요인을 찾는다.
  •  요인 회전 방법으로는 VariMax, ScreeMax 등이 있다.
  •  요인 분석 결과로 만들어진 새로운 변수들은 서로 대등하다.

49. 독립변수와 종속변수 척도에 따른 통계분석 방법에 대한 설명으로 틀린 것은?
  •  공분산분석(ANCOVA)은 종속변수가 범주형, 독립변수가 연속형인 분석 방법이다.
  •  T-검정은 수치형 종속변수와 2개 범주의 독립변수를 사용하여 분석하는 방법이다.
  •  로짓 모형은 범주형 종속변수와 범주형 및 수치형 독립변수를 사용하여 분석하는 방법이다.
  •  카이제곱검정은 범주형 종속변수와 범주형 독립변수를 사용하여 분석하는 방법이다.

50. 회귀모형에 대한 설명으로 옳은 것은?
  •  다중회귀모형에서 통계적 유의성을 확인하는 방법은 Z-통계량이다.
  •  독립변수가 2개 이상이고 회귀계수가 2차 이상이면 다항회귀 모형이다.
  •  설명변수들 사이에 비선형 관계가 존재하면 다중공선성 문제가 발생한다.
  •  회귀모형의 변수 선택법에는 주성분 분석, 전진선택법, 후진제거법 등이 있다.

51. 의사결정나무 분석 결과에서 뿌리 노드만 남는 이유로 옳은 것은?
  •  변별력 있는 변수가 없어 분리를 정지한다.
  •  모델이 과적합되었다.
  •  불필요한 가지를 제거했다.
  •  변수들 간 관계가 비선형이기 때문이다.

52. 데이터 분석 결과 산출물로 틀린 것은?
  •  분석 모델
  •  알고리즘 보안 계획서
  •  EDA 보고서
  •  변수 정의서

53. 다음 중 ROC Curve 축을 구성하는 지표로 바르게 짝지어진 것은?
  •  정확도, 정밀도
  •  정밀도, 특이도
  •  민감도, 특이도
  •  민감도, F1-Score

54. 분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일로 틀린 것은?
  •  사용자별 사용 데이터셋 및 정보 기술
  •  사용자 시나리오 작성
  •  스토리보드 기획
  •  스토리보드 도구 검증

55. 최종 모델을 평가하는 기준으로 틀린 것은?
  •  평가지표
  •  표본의 충분성
  •  시스템 구현 가능성
  •  업무담당자의 의견

56. 분류모형 평가에 대한 설명으로 틀린 것은?
  •  ROC Curve로 혼동행렬을 구할 수 있다.
  •  혼동행렬에서 모델이 참으로 예측한 수는 TP+FP로 구할 수 있다.
  •  F1-Score는 정밀도와 재현율의 조화평균 값이다.
  •  AUC 값이 1에 가까울수록 분류 모델의 성능이 좋다.

57. 다음 중 정규성 검정 기법으로 틀린 것은?
  •  Q-Q Plot
  •  카이제곱 검정
  •  샤피로-윌크 검정
  •  콜모고로프-스미르노프 검정

58. 다음 중 비교 시각화 기법으로 틀린 것은?
  •  버블차트
  •  히트맵
  •  체르노프 페이스
  •  스타차트

59. 다음 보기 중 일반화 선형 모형(GLM)에 대한 설명으로 옳은 것을 모두 고르면?
가. 반응변수가 이항분포이면 연결함수로 logit 함수를 사용한다.
나. 종속변수의 정규성이 성립하지 않아도 사용할 수 있다.
다. 로지스틱 회귀가 대표적인 일반화 선형 모형이다.
  •  가, 나
  •  가, 다
  •  나, 다
  •  가, 나, 다

60. 다음 중 관계 시각화 기법으로 틀린 것은?
  •  누적막대그래프
  •  산점도
  •  버블차트
  •  산점도행렬

61. 민감도가 0.6, 정밀도가 0.4인 경우 F1-Score를 산출하면 얼마인가?
  •  0.24
  •  0.48
  •  0.5
  •  1

62. 다음 보기 중 앙상블 모형에 대한 설명으로 맞는 것은?
가. 랜덤포레스트가 대표적인 앙상블 모형이다.
나. 배깅은 부트스트랩 샘플을 사용한다.
다. 부스팅은 정답에 더 높은 가중치를 부여하여 모델 성능을 올리는 방법이다.
  •  가
  •  가, 나
  •  나, 다
  •  가, 나, 다

63. 신경망 모형에서 발생하는 Gradient Vanishing 문제에 대한 설명으로 맞는 것은?
  •  신경망 학습 과정에서 기울기가 점차 커지다가 발산하는 현상이다.
  •  오차 역전파 과정에서 기울기가 감소하여 가중치가 업데이트 되지 않는 현상이다.
  •  은닉층의 활성화 함수로 시그모이드 함수를 사용하면 문제가 완화된다.
  •  그레디언트 클리핑을 하면 문제가 완화된다.

64. 앙상블 모형을 독립적으로 최적화시키는 방법으로 틀린 것은?
  •  평가 데이터셋을 다양화한다.
  •  학습 데이터셋을 다양화한다.
  •  하이퍼파라미터 튜닝을 한다.
  •  학습시간을 늘려본다.

65. 다음 중 재현율에 대한 공식으로 옳은 것은?
  •  TN/(TN+FP)
  •  TN/(TN+TP)
  •  TP/(TP+FN)
  •  TP/(TP+TN)

66. 분석 모형 해석에 대한 설명으로 옳은 것은?
  •  의사결정나무는 해석이 어렵다는 단점이 있다.
  •  군집 분석의 성능은 지지도, 향상도 등으로 평가할 수 있다.
  •  연관성 분석을 통해 두 변수 간의 선형관계를 알 수 있다.
  •  예측 분석은 현재 분석 결과를 통해 미래를 예측한다.

67. 과대적합을 해결하기 위한 방법으로 옳은 것은?
  •  벌점화 회귀를 사용하여 모형에 제약조건을 추가한다.
  •  학습시간을 늘린다.
  •  모델의 복잡성을 증가시킨다.
  •  데이터의 다양성을 줄여 패턴을 더 잘 인식하도록 한다.

68. 과적합에 대한 설명으로 틀린 것은?
  •  일반화 성능이 낮은 상태이다.
  •  모형의 분산이 크다.
  •  과대적합은 비선형 모형보다 선형모형에서 더 쉽게 발생한다.
  •  모형이 과도하게 복잡한 상태이다.

69. 인포그래픽에 대한 설명으로 틀린 것은?
  •  중요한 정보를 효과적으로 나타낼 수 있다.
  •  적절한 텍스트를 넣어 이해하기 쉽게 만든다.
  •  데이터의 패턴을 탐색할 수 있다.
  •  디자인적 요소를 고려하여 만든다.

70. 빅데이터 시각화 절차에 해당하는 요소로 틀린 것은?
  •  정제
  •  구조화
  •  시각화
  •  시각 표현

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr