빅데이터분석기사 21년 2회차

필기


1. 다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가?
  •  ETL
  •  CEP
  •  EAI
  •  ODS

2. 다음 중 빅데이터 분석 방법론 절차로 옳은 것은?
  •  분석기획 > 데이터준비 > 데이터 분석 > 평가 및 전개 > 시스템 구현
  •  분석기획 > 데이터준비 > 데이터 분석 > 시스템 구현 > 평가 및 전개
  •  데이터준비 > 분석기획 > 데이터 분석 > 시스템 구현 > 평가 및 전개
  •  데이터준비 > 분석기획 > 데이터 분석 > 평가 및 전개 > 시스템 구현

3. 다음 중 Label을 통해서만 학습하는 기법은?
  •  지도학습 (Supervised Learning)
  •  비지도학습 (Unsupervised Learning)
  •  강화학습 (Reinforcement Learning)
  •  준 지도학습 (Semi-superviesed Learning)

4. 다음 중 비식별화 조치에 대한 설명으로 틀린 것은?
  •  k-익명성은 주어진 데이터 집합에서 식별자 속성들이 동일한 레코드가 적어도 k개 이상 존재해야 한다.
  •  l-다양성은 l개의 서로 다른 민감정보를 가져야 한다.
  •  t-근접성은 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t-이상의 차이를 보이도록 해야 한다.
  •  m-유일성은 원본 데이터와 동일한 속성값의 조합이 비식별 결과 데이터에 최소 m개가 존재해야 한다.

5. 익명화 기법이 아닌 것은?
  •  가명처리 (Pseudonym)
  •  특이화 (Specialization)
  •  치환 (Permutation)
  •  섭동 (Perturbation)

6. 다음 중 분석의 대상이 무엇인지 인지하고 있는 경우, 해결해야 할 문제를 알고 있고, 분석의 방법도 알고 있는 경우 사용하는 분석 기획 유형은?
  •  최적화 (Optimization)
  •  솔루션 (Solution)
  •  통찰 (Insight)
  •  발견 (Discovery)

7. 개인정보 수집 시 동의를 얻지 않아도 되는 경우로 틀린 것은?
  •  사전 동의를 받을 수 없는 경우로 명백히 정보 주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위해 필요하다고 인정되는 경우
  •  입사 지원자에 대해 회사가 범죄 경력을 조회하는 경우
  •  정보 주체와의 계약 체결을 위해 불가피하게 필요한 경우
  •  요금 부과를 위해 회사가 사용자의 정보를 조회하는 경우

8. 수집된 정형 데이터 품질 보증을 위한 방법으로 적합하지 않은 것은?
  •  데이터프로파일링 - 정의된 표준도메인에 맞는지 검증한다.
  •  메타데이터분석 - 실제 운영 중인 데이터베이스의 테이블명, 컬럼명, 자료형, 도메인, 제약조건 등이며, 데이터베이스 설계에는 반영되지 않은 한글 메타데이터, 도메인 정보, 엔티티 관계, 코드 정의 등도 검증한다.
  •  데이터 표준 - 데이터 표준 준수 진단, 논리/물리 모델 표준에 맞는지 검증한다.
  •  비업무 규칙 적용 - 업무 규칙에 정의되어 있지 않는 값을 검증한다.

9. 진단 분석(Diagnosis Analysis)에 대한 설명으로 가장 적합한 것은?
  •  과거에 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는가?
  •  데이터를 기반으로 왜 발생했는지?
  •  무슨 일이 일어날 것인지?
  •  어떤 대응을 해야 하는지?

10. 데이터 수집 방법으로 가장 적절하지 않은 것은?
  •  Open API로 센서 데이터를 수집
  •  FTP를 통해 문서 수집
  •  동영상 데이터를 스트리밍을 통해 수집
  •  DBMS로부터 크롤링

11. 조직을 평가하기 위한 성숙도 단계로 적절하지 않은 것은?
  •  도입
  •  최적화
  •  활용
  •  인프라

12. 개인정보 주체자가 개인에게 알리지 않아도 되는 것은?
  •  동의를 거부할 수 있는 권리
  •  개인정보의 수집 보유 및 이용 기간
  •  개인정보 파기 사유
  •  개인정보 수집 항목

13. 프로세스 분석을 통한 분석 기회 발굴 절차로 올바른 것은?
  •  프로세스 분류 > 프로세스 흐름 분석 > 분석 요건 식별 > 분석 요건 정의
  •  프로세스 흐름 분석 > 프로세스 분류 > 분석 요건 식별 > 분석 요건 정의
  •  프로세스 흐름 분석 > 프로세스 분류 > 분석 요건 정의 > 분석 요건 식별
  •  프로세스 분류 > 프로세스 흐름 분석 > 분석 요건 정의 > 분석 요건 식별

14. 수집 데이터의 메타데이터 등 설명이 누락되거나 충분치 않을 때 자료 활용성에 있어 어떤 문제점 및 결함이 존재하는지 여부를 확인하는 품질 검증 기준은?
  •  유용성
  •  완전성
  •  일관성
  •  정확성

15. 다음이 설명하는 모델은?
기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터 품질, 관리 규정 준수를 강조하는 모델
  •  데이터 거버넌스
  •  IT 거버넌스
  •  데이터 레이크
  •  데이터 리터러시

16. 딥러닝에 대한 설명으로 옳은 것은?
  •  오차 역전파를 사용한다.
  •  ReLU보다 Sigmoid 함수를 사용한다.
  •  딥러닝은 각 은닉층의 가중치를 통해 모형의 결과를 해석하기 용이하다.
  •  Dropout은 일정한 비율로 신경망을 제거한다.

17. 빅데이터에 대한 설명으로 틀린 것은?
  •  빅데이터는 일반적으로 TB 크기 이상의 데이터 규모를 지칭하며, 기존 데이터베이스가 처리할 수 없는 대량의 데이터를 분석하고 가치를 추출하는 과정이다.
  •  빅데이터의 크기를 측정하는 순서는 TB < PB < EB < ZB < YB 이다.
  •  빅데이터 3V 는 Volume, Variety, Velocity 이다.
  •  ZB는 10^24 Bytes이다.

18. 기술통계에 해당하지 않는 것은?
  •  평균
  •  분산
  •  가설검정
  •  시각화

19. 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식은?
  •  전처리 분석
  •  탐색적 데이터 분석
  •  공간 분석
  •  다변량 분석

20. 빅데이터 분석 절차에서 문제의 단순화를 통해 변수 간의 관계로 정의하는 것은?
  •  연구 조사
  •  탐색적 데이터 분석
  •  요인분석
  •  모형화

21. 데이터 이상값 발생 원인으로 옳지 않은 것은?
  •  측정 오류 (Measurement Error)
  •  보고 오류 (Reporting Error)
  •  처리 오류 (Processing Error)
  •  표본 오류 (Sampling Error)

22. 모든 변수가 포함된 모형에서 시작하여 영향력이 가장 작은 변수를 하나씩 삭제하는 변수선택 기법은?
  •  후진 소거법
  •  전진 선택법
  •  단계적 방법
  •  필터 기법

23. 시각적 데이터 탐색에서 자주 사용되는 박스플롯(Box-Plot)으로 알 수 없는 통계량은 무엇인가? (2개)
  •  평균
  •  분산
  •  이상값
  •  최댓값

24. 다음 중 머신러닝에서 훈련 데이터의 클래스가 불균형한 문제를 처리하는 방법에 대해 잘못 설명한 것은?
  •  과소 표집(Under-Sampling)은 많은 클래스 데이터 일부만 선택하는 기법으로 정보가 유실되는 단점이 있다..
  •  과대 표집(Over-Sampling)은 소수 데이터를 복제해서 많은 클래스의 양만큼 증가시키는 방법이 있다.
  •  불균형 문제를 처리하지 않으면 정확도(Accuracy)는 낮아지고, 작은 클래스의 재현율(Recall)은 높아진다.
  •  클래스가 불균형한 훈련 데이터를 그대로 이용할 경우 과대적합 문제가 발생할 수 있다.

25. 다음 중 파생변수 생성방법으로 틀린것은?
  •  주어진 변수의 단위 혹은 척도를 변환하여 새로운 단위로 표현
  •  요약 통계량 등을 활용
  •  다양한 함수 등 수학적 결합을 통해 새로운 변수 정의
  •  소수의 데이터를 복제하여 생성

26. 한 회사에서 A공장은 부품을 50% 생산하고 불량률은 1%, B공장은 부품을 30% 생산하고 불량률은 2%, C공장은 부품을 20% 생산하고 불량률은 3% 이다. 불량품이 발생했을 때 C 공장에서 생산한 부품일 확률은?
  •  1/3
  •  6/17
  •  1/2
  •  3/5

27. 모표준편차 8인 정규분포를 따르는 모집단에서 표본의 크기가 25인 표본을 추출하였을때 표본평균은 90이다. 모평균(u)에 대한 90% 신뢰구간을 구해라. ( Z0.05=1.645, Z0.025=1.96)
  •  86.864 < u < 93.136
  •  87.368 < u < 92.632
  •  87.368 < u < 93.136
  •  86.864 < u < 92.632

28. 다음 중 하드 스킬에 해당되는 것을 모두 고른것은? (2개)
  •  프로그래밍 능력
  •  통계 및 수학 지식
  •  의사소통능력
  •  시각화 능력

29. 산점도에 대한 설명으로 옳은 것을 모두 고른것은?
가. 관계 시각화의 유형이다.
나. 직교 좌표계를 사용하여 좌표상의 점들을 표현하는 시각화 기법이다.
다. 두 변수 사이의 상관관계를 알 수 있다.
  •  가
  •  나
  •  다
  •  가, 나, 다

30. 두 변수 간에 직선관계가 있는지 나타낼 때 가장 적절한 통계량은?
  •  F-통계량
  •  t-통계량
  •  p-값
  •  표본상관계수

31. 아래에서 설명하는 시각화 기법은 어떤 차트를 설명하고 있는가?
가. 여러 축을 평행으로 배치하는 비교 시각화 기술이다.
나. 수직선엔 변수를 배치한다.
다. 측정 대상은 변수값에 따라 위아래로 이어지는 연결선으로 표현한다.
  •  산점도
  •  박스 플롯
  •  스타 차트
  •  평행 좌표계

32. A 고등학교에서 남학생 25명을 대상으로 키를 측정하였더니 평균 키는 170cm이고 분산은 25이다. A 고 남학생 평균키에 대한 95% 신뢰구간은?
Z0.025=2.060 (df=25), Z0.025=2.064 (df=24)
  •  167.936 < 키 < 172.064
  •  167.940 < 키 < 172.060
  •  168.289 < 키 < 171.711
  •  168.292 < 키

33. 다음 중 추론통계에 대한 설명으로 틀린 것은?
  •  표본의 개수가 많을수록 표준오차는 커진다.
  •  신뢰구간은 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위이다.
  •  점 추정은 모집단의 모수를 하나의 값으로 추정하는 것이다.
  •  신뢰수준은 추정값이 존재하는 구간에 모수가 포함될 확률을 말한다.

34. 다음 중 빈칸에 들어갈 용어로 올바른 것은?
  •  a: 제 1종 오류, b: 올바른 결정, c: 제2종 오류, d: 올바른 결정
  •  a: 제 2종 오류, b: 올바른 결정, c: 제1종 오류, d: 올바른 결정
  •  a: 올바른 결정, b: 제2종 오류, c: 제1종 오류, d: 올바른 결정
  •  a: 올바른 결정, b: 제1종 오류, c: 올바른 결정, d: 제2종 오류

35. 다음 중 주성분 분석에 대한 설명으로 틀린 것은?
  •  여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소한다.
  •  주성분 분석에서 누적 기여율이 85% 이상인 지점까지 주성분의 수로 결정한다.
  •  데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.
  •  스크리 산점도의 기울기가 완만해지기 직전까지 주성분의 수로 결정할 수 있다.

36. 다음 사례에서 설명하는 A 야구팀 연봉의 대푯값을 구하기 위한 가장 적절한 통계량은 무엇인가?
A 야구 구단의 상위 1~2명이 구단 전체 연봉의 50% 이상을 차지하며 나머지 선수들의 연봉은 일반적인 범주에 있다.
  •  평균
  •  최빈수
  •  중위수
  •  이상값

37. 다음에서 설명하는 표본추출방법은 무엇인가?
다수의 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들로, 서로 유사한 것끼리 몇 개의 층을 나눈 후, 각 계층에서 표본을 랜덤하게 추출한다.
  •  층화추출법
  •  계통추출법
  •  군집추출법
  •  단순무작위추출법

38. 각 클래스의 데이터에 불균형이 발생한 경우 학습 단계에서의 처리 방법으로 틀린 것은?
  •  과소표집
  •  과대표집
  •  임곗값 이동
  •  가중치 적용

39. 다음 중에서 분포의 성격이 다른 분포는 무엇인가?
  •  정규분포
  •  이항분포
  •  F-분포
  •  지수분포

40. 다음 중 확률분포에 대한 설명으로 틀린것은?
  •  포아송분포는 독립적인 두 카이제곱 분포가 있을 때, 두 확률변수의 비이다.
  •  카이제곱 분포는 서로 독립적인 표준 정규 확률변수를 각 제곱한 다음 합해서 얻어지는 분포이다.
  •  T-분포는 모집단이 정규분포라는 정도만 알고 모 표준편차는 모를 때, 모집단의 평균을 추정하기 위해 사용한다.
  •  베르누이 분포는 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률 분포이다.

41. 다음 중 T-분포와 Z-분포에 대한 설명으로 틀린 것은?
  •  표본의 크기가 작은 소표본의 경우 T-분포를 사용한다.
  •  표본의 크기가 큰 대표본의 경우 Z-분포를 사용한다.
  •  Z-분포의 평균은 0이고, 분산은 1이다.
  •  표본의 크기와 상관없이 T-분포는 정규분포를 따른다.

42. 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을때까지 설명 변수들을 제거하고 이때의 모형을 선택하는 방법은?
  •  중위 선택법
  •  전진 선택법
  •  후진 소거법
  •  단계적 방법

43. 인공신경망의 파라미터는?
  •  커널값
  •  뉴런
  •  가중치
  •  오차

44. CNN에서 원본 이미지가 5*5에서 Stride가 1이고, 필터가 3*3일 때, Feature Map은 무엇인가?
  •  2*2
  •  3*3
  •  4*4
  •  5*5

45. 선형회귀 모형의 가정에서 잔차항과 관련이 없는 것은 무엇인가?
  •  선형성
  •  독립성
  •  등분산성
  •  정상성

46. 서포트벡터머신에 대한 설명으로 틀린 것은?
  •  다른 모형에 비해 속도가 빠르다.
  •  다른 모형보다 과대적합에 강하다.
  •  비선형으로 분류되는 모형에도 사용할 수 있다.
  •  서포트벡터가 여러 개일 수 있다.

47. 다차원척도법에 대한 설명으로 틀린 것은?
  •  개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법이다.
  •  공분산행렬을 사용하여 고윳값이 1보다 큰 주성분의 개수를 이용한다.
  •  스트레스 값이 0에 가까울수록 적합도가 좋다.
  •  유클리드 거리와 유사도를 이용하여 구한다.

48. 다음 분석 변수 선택 방법이 설명하는 기법은?
  •  릿지(Ridge)
  •  라쏘(Lasso)
  •  엘라스틱 넷(Elastic Net)
  •  RFE(Recursive Feature Elimination)

49. 독립변수가 연속형이고 종속변수가 이산형일때 사용하는 분석 모형은?
  •  인공신경망 모델
  •  로지스틱 회귀분석
  •  회귀분석
  •  의사결정나무

50. 예측력이 약한 모형을 연결하여 강한 모형으로 만드는 기법으로, 오분류된 데이터에 가중치를 두어 표본을 추출하는 앙상블 기법과 알고리즘은?
  •  배깅 - AdaBoost
  •  배깅 - Random Forest
  •  부스팅 - Random Forest
  •  부스팅 - GBM

51. 다음은 암 진단을 예측한 것과 실제 암 진단결과를 혼동행렬로 나타낸 것이다. 아래 표를 보고 TPR, FPR의 확률을 계산하시오. (단, 결과가 음성이라는 뜻인 0을 Positive로 한다.)
--------------            실젯값
---------------     0                 1
                0      45(TP)    15(FN)
예측값    1       5(FP)     235(TN)
  •  TPR: 9/10, FPR: 1/4
  •  TPR: 9/10, FPR: 1/48
  •  TPR: 3/4, FPR: 1/48
  •  TPR: 3/4, FPR: 1/4

52. 다음 중 하둡 에코 시스템의 주요 기술이 잘 못 짝지어진 것은?
  •  데이터 수집: Sqoop, Chukwa
  •  분산 코디네이터: Zookeeper
  •  데이터 마이닝: Mahout
  •  데이터 처리: Hive

53. 다음 중 비지도 학습 알고리즘의 사례로 옳은 것은?
  •  과거 데이터를 기준으로 날씨 예측
  •  제품의 특성, 가격 등으로 판매량 예측
  •  페이스북 사진으로 사람을 분류
  •  부동산으로 지역별 집값을 예측

54. 전체 데이터 집합을 동일 크기를 갖는 K개의 부분 집합으로 나누고, 훈련 데이터와 평가데이터로 나누는 기법은 무엇인가?
  •  K-Fold Cross Validation
  •  Holdout Cross Validation
  •  Dropout
  •  K-means Clustering

55. 숫자 손글씨 이미지를 판별하기 위한 가장 적절한 분석 방법은?
  •  군집
  •  예측
  •  분류
  •  연관성

56. 다음 중 시계열 모형이 아닌 것은?
  •  백색잡음
  •  이항분포
  •  자기상관
  •  이동평균

57. 학생들의 교복의 표준 치수를 정하기 위해 학생들의 팔길이, 키, 가슴둘레를 기준으로 할때 어떤 방법이 가장 적절한 기법인가?
  •  이상치
  •  군집
  •  분류
  •  연관성

58. 비정형 데이터에 대한 설명으로 틀린 것은?
  •  텍스트는 문자 데이터로 저장한다.
  •  오디오는 CMYK 형태로 저장한다.
  •  이미지는 RGB 방식으로 저장한다.
  •  비디오는 이미지 스트리밍으로 저장한다.

59. 랜덤포레스트에 대한 설명으로 틀린 것은?
  •  훈련을 통해 구성한 다수의 나무들로부터 투표를 통해 분류 결과를 도출한다.
  •  분류기를 여러 개 쓸수록 성능이 좋아진다.
  •  트리의 수가 많아지면 과대적합이 발생한다.
  •  여러 개의 의사결정 트리가 모여 랜덤 포레스트 구조가 된다.

60. K-Fold Cross Validation에 대한 설명으로 틀린 것은?
  •  데이터를 K 개로 나눈다.
  •  1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용한다.
  •  K번 반복 수행한다.
  •  결과를 K에 다수결 또는 평균으로 분석한다.

61. 다음 중 이상적인 분석 모형을 위해 Bias와 Validation는 어떻게 설정되어야 하는가?
  •  높은 Bias, 높은 Variance
  •  낮은 Bias, 높은 Variance
  •  낮은 Bias, 낮은 Variance
  •  높은 Bias, 낮은 Variance

62. 다음 중 초매개변수(Hyper Parameter)로 설정 가능한 것은?
  •  편향(Bias)
  •  가중치(Weights)
  •  서포트벡터(Support Vector)
  •  은닉층(Hidden Layer) 수

63. 다음 중 산점도(Scatter Plot)와 비슷한 시각화 기법은 무엇인가?
  •  파이 차트(Pie Chart)
  •  버블 차트(Bubble Chart)
  •  히트맵(Heat Map)
  •  트리맵(Tree Map)

64. 다음 중 분포 시각화의 유형으로 설명 변수가 늘어날 때마다 축이 늘어나는 시각화 방법은?
  •  플로팅 바 차트
  •  막대 차트
  •  스타 차트
  •  히트맵

65. 불균형 데이터 세트로 이진 분류 모형 생성시 불균형을 해소하기 위한 방법으로 틀린 것은?
  •  다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞춘다.
  •  임곗값을 데이터가 적은 쪽으로 이동시킨다.
  •  서로 다른 여러 가지 모형들의 예측 결과를 종합한다.
  •  소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞춘다.

66. 다음 중 ROC 커브에 대한 설명으로 틀린 것은?
  •  x축은 특이도를 의미한다.
  •  y축은 민감도를 의미한다.
  •  AUC는 1.0에 가까울수록 분석 모형 성능이 우수하다.
  •  AUC는 0.5일 경우 랜덤 선택에 가까운 성능을 보인다.

67. 다음 혼동행렬에서 참이 0이고 거짓이 1일 때, Specificity와 Precision은 무엇인가?
==========  실젯값
==========  0        1       총합
예측값      0     25     15       40
                  1     15     75       90
총       합          40      90      130
  •  Specificity: 5/8, Precision: 5/8
  •  Specificity: 5/8, Precision: 5/6
  •  Specificity: 5/6, Precision: 5/6
  •  Specificity: 5/6, Precision: 5/8

68. 다음 중 매개변수, 초매개변수에 대한 것으로 틀린 것은?
  •  매개변수는 사람에 의해 설정한다.
  •  매개변수는 측정되거나 데이터로부터 학습된다.
  •  초매개변수는 학습을 위해 임의로 설정하는 값이다.
  •  초매개변수의 종류에는 은닉층 개수, 학습률 등이 있다.

69. 다음 중 K-평균 군집 알고리즘을 통해 K값을 구하는 기법은?
  •  K-Centroid 기법
  •  최장 연결법
  •  엘보우 기법
  •  역전파 알고리즘

70. 다음 중 F1-Score에 들어가는 지표는?
  •  TP Rate, FP Rate
  •  Accuracy, Sensitivity
  •  Specificity, Error Rate
  •  Precision, Recall

71. 종속변수가 범주형이고 독립변수가 수치형인 변수 간의 관계를 분석하기 위해 적용할 수 있는 알고리즘으로 올바른 것은?
  •  로지스틱 회귀분석
  •  k-평균 군집
  •  주성분 분석
  •  DBSCAN

72. 다음 중 적합도 검정 기법으로 틀린 것은?
  •  적합도 검정에서 자유도는 (범주의 수)+1 이다.
  •  적합도 검정은 카이제곱 검정 기법의 유형에 속한다.
  •  적합도 검정의 자료를 구분하는 범주가 상호 배타적이다.
  •  적합도 검정은 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법이다.

73. 다음 중 인포그래픽에 대한 설명으로 틀린 것은?
  •  도표나 글에 비해 시각적 기법을 사용하여 기억에 오랫동안 남는다.
  •  다양한 정보를 그래픽을 활용하여 나타내는 방법이다.
  •  빅데이터의 대량의 데이터를 표현하기에는 복잡하고 이해하기 어려울 수 있다.
  •  정보를 SNS 상에 쉽고 빠르게 전달 할 수 있다.

74. 다음 중 분석 모형의 평가 방법에 대한 설명으로 틀린 것은?
  •  종속변수의 유형에 따라 선택하는 평가 방법이 다르다.
  •  종속변수의 유형이 범주형일 때는 혼동행렬을 사용할 수 있다.
  •  종속변수의 유형이 연속형일 때는 RMSE를 사용할 수 있다.
  •  종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.

75. 다음 중 혼동행렬에 대한 설명으로 적절하지 않은 것은? (2개)
=======   실젯값
=======    0    1
예측값 0   TP  FN
             1   FP  TN
  •  카파 값은 0~1 사이의 값을 가지며, 1에 가까울수록 예측값과 실젯값이 일치함을 알 수 있다.
  •  부정인 범주 중 부정으로 올바르게 예측한 비율은 민감도 지표를 사용한다.
  •  부정인 범주 중 긍정으로 잘못 예측한 비율을 정밀도라고 하며, TP/(TP+FP)로 계산한다.
  •  정확도를 표기하는 식은 (TP+TN)/(TP+FP+FN+TN)이다.

76. 다음 중 분석 모형 검증에 대한 설명으로 틀린 것은?
  •  데이터의 수가 적으면 교차 검증하는 것이 좋다.
  •  교차 검증을 통해 분석 모형의 일반화 성능을 확인할 수 있다.
  •  K-Fold 교차 검증에서 (K-1)개 부분집합들은 훈련 데이터, 나머지 1개 부분 집합은 평가 데이터로 하는 K개의 학습 데이터를 구성하여 진행한다.
  •  데이터 수가 많으면 검증 데이터로 충분하므로, 평가 데이터는 불필요하다.

77. 다음 중 데이터 분석 결과 활용에 대한 설명으로 틀린 것은?
  •  분석 모형 최종 평가 시에는 학습할 때 사용하지 않았던 데이터를 사용한다.
  •  분석 모형 개발과 피드백 적용 고정을 반복하는 것은 지양한다.
  •  정확도, 재현율 등의 평가 지표를 분석 모형 성능 지표로 활용한다.
  •  분석 결과는 비즈니스 업무 담당자, 시스템 엔지니어 등 관련 인원들에게 모두 공유되어야 한다.

78. 시계열 분해 그래프를 통해 파악이 가능한 것이 아닌 것은?
  •  계절
  •  추세
  •  예측
  •  잔차

79. 다음 중 그 성격이 다른 군집 분석은?
  •  DBSCAN
  •  K-mean
  •  계층적 군집분석
  •  SOM

80. 다음 Boosting 모형에 대한 설명 중 틀린 것은?
  •  잘 분류하지 못한 데이터에 가중치를 주어 다음 모델에 넘겨준다.
  •  과적합의 문제를 가지고 있다.
  •  대표적인 모델에는 Extreme Gradient Boosting이 있다.
  •  Bootstrap 기법을 활용하는 것으로 알려져 있다.

81. 인공신경망의 마지막 은닉층과 출력층이 보기와 같을 때 출력값은?
- 마지막 은닉층의 첫 번째 노드 입력값 : 0.1
- 마지막 은닉층의 두 번째 노드 입력값 : -0.1
- 첫 번째 노드의 가중치 : 2
- 두 번째 노드의 가중치 : 3
- 출력층 Bias : -0.1
- 출력층 활성화 함수 : f(x) = x( x>=0 ), otherwise f(x)=-1
  •  1
  •  0
  •  0.09
  •  -1

82. 다음 역전파 알고리즘에 대한 설명에서 (ㄱ), (ㄴ)에 들어갈 말로 가장 적절한 것은?
역전파 알고리즘은 역방향 전파를 통해 출력층에서 입력층으로 순차적으로 (ㄱ)을 하면서 (ㄴ)을 증가시키는 방법이다.
  •  편미분, 학습률
  •  정적분, 거리
  •  내적, 거리
  •  내적, 기울기

83. seq2seq 모델에 대한 설명으로 (ㄱ), (ㄴ)에 들어갈 말로 가장 적절한 것은?
(ㄱ)은 입력 시퀀스를 단일 벡터로 바꾸고, (ㄴ)은 단일 벡터를 출력 시퀀스로 바꾼다.
  •  인코더, 디코더
  •  디코더, 인코더
  •  제너레이터, 비제너레이터
  •  편미분, 학습률

84. 다음 중 교차검증에 대한 설명으로 틀린 것은?
  •  모델의 과적합을 방지하기 위한 검증 방법이다.
  •  리브-원-아웃 교차 검증은 데이터 분할 시 Randomness를 포함하지 않는다.
  •  k-fold 교차 검증은 홀드아웃 교차 검증보다 학습 속도가 빠르다.
  •  분류 문제에서는 분포를 고려하는 층화 k-fold 교차 검증을 사용하기도 한다.

85. 다음 품목별 판매 건수를 보고 (사과)>(배, 포도)의 향상도를 계산하시오.
품목                                  | 건수
사과                                  | 5
배, 바나나                        | 10
바나나                              | 5
사과, 배, 바나나, 포도   | 2
배, 포도                            | 1
사과, 배, 포도                 | 3
사과, 포도                        | 4
  •  0.17
  •  0.36
  •  1.05
  •  1.79

86. 선형 회귀분석의 과적합에 대한 설명으로 틀린 것은?
  •  variance가 높은 모델은 과적합 가능성이 높다.
  •  Bias가 높은 모델은 과적합 가능성이 낮다.
  •  SSE 값이 작은 모델은 항상 과적합 모델이다.
  •  정규화 모델을 사용하여 과적합을 줄일 수 있다.

87. 종속변수가 없을 때 사용하는 모델 유형으로 가장 적절한 것은?
  •  K-평균 클러스터링
  •  로지스틱 회귀분석
  •  의사결정나무
  •  K-최근접 이웃 알고리즘

88. 학습 데이터와 평가 데이터에 대한 설명으로 틀린 것은?
  •  평가 데이터는 최종 모델의 성능을 평가하기 위한 데이터이다.
  •  모델 과적합을 방지하고 일반화 성능을 향상시키기 위해 데이터를 나눈다.
  •  데이터가 부족하지 않으면 일밙거으로 별도의 검증 데이터를 구분한다.
  •  학습 데이터와 평가 데이터는 동일한 비율(5:5)로 나뉜다.

89. 회귀분석 수행 시 잔차에 대한 가정으로 틀린 것은?
  •  잔차는 독립성을 만족한다.
  •  잔차는 Q-Q plot에서 우상향하는 정규성을 가진다.
  •  잔차의 자유도는 표본의 크기에서 -1한 값이다.
  •  잔차 간에 비상관성을 만족한다.

90. 소셜 미디이 데이터 분석 방법으로 틀린 것은?
  •  연결망 분석
  •  텍스트 분석
  •  감성 분석
  •  맵리듀스

91. 시간 시각화에 대한 설명으로 틀린 것은?
  •  시간에 따른 데이터의 변화를 나타낸다.
  •  막대 그래프를 사용한다.
  •  점그래프에서 점의 분포와 배치로는 데이터의 흐름을 파악하기 힘들다.
  •  x축에는 주로 시각, 날짜 등의 값이 들어 간다.

92. 초매개변수에 대한 설명 중 틀린 것은?
  •  초매개변수 선택은 모델 선택 전 데이터 집합 수준에서 결정할 수 있다.
  •  분석가가 임의로 지정하는 값이다.
  •  Grid search, 베이지안 최적화 등의 방법을 사용해 최적 조합을 찾을 수 있다.
  •  초매개변수의 예시로 SVM의 코스트 값이 있다.

93. K-평균 군집 분석에서 최적 K-평균을 구하는 방법은?
  •  실루엣 계수
  •  덴드로그램
  •  표준화 거리
  •  엘보우 기법

94. 적합도 검정에 대한 설명으로 틀린 것은?
  •  검정 통계량은 기대도수와 관측도수 값으로 계산된다.
  •  관측치가 특정 이론 분포를 따르는지 검정하는 방법이다.
  •  카이제곱 검정을 활용한다.
  •  귀무가설이 기각되더라도 기대도수 합과 관측도수의 합은 동일하다.

95. 다음 중 두 개의 집단에서 사용되는 비모수 검정 방법은?
  •  Z검정
  •  T검정
  •  윌콕슨 부호 순위 검정
  •  카이제곱 검정

96. 비교 시각화에 대한 내용으로 적절한 것은?
  •  다양한 변수를 한 번에 비교할 수 있다.
  •  상관관계 분석을 할 수 있다.
  •  산포도와 버블 차트로 표현할 수 있다.
  •  두 개 이상의 변수 간 관계를 나타낸다.

97. 의사결정나무 정지 규칙으로 틀린 것은?
  •  depth가 최대면 멈춘다.
  •  마지막 가지 끝에 남은 개수가 일정 개수이하이면 멈춘다.
  •  더 이상 불순도가 개선되지 않으면 멈춘다.
  •  가지에 남은 개수가 같으면 멈춘다.

98. 다음 중 앙상블 기법에 대한 설명으로 틀린 것은?
가. 앙상블의 예시로 k=1, 5, 7인 knn(k 근접이웃) 모델을 결합시키는 것을 들 수 있다.
나. 서로 다른 알고리즘으로 생성한 분류기는 앙상블할 수 없다.
다. 페이스팅은 배깅과 달리 데이터 샘플링 시 중복을 허용한다.
  •  가, 나
  •  가, 다
  •  나, 다
  •  가, 나, 다

99. 다음 중 부스팅 알고리즘으로 틀린 것은?
  •  AdaBoost
  •  Naive Bayes
  •  GBM
  •  Catboost

100. ROC 곡선에 대한 설명으로 틀린 것은?
  •  ROC 곡선의 x 축은 특이도, y축은 민감도를 나타낸다.
  •  ROC 곡선은 머신러닝 모델을 평가할 수 있다.
  •  ROC 곡선은 특이도와 민감도를 이용하여 구할 수 있다.
  •  ROC 곡선의 아래 면적이 넓을 수록 좋은 모델이다.

101. 다음 중 정준상관 분석에 대한 설명으로 옳은 것은?
  •  데이터들의 주성분을 찾는다.
  •  두 변수 집단 간의 선형 상관관계를 파악한다.
  •  변수들 간 상관관계를 이용하여 유사한 변수끼리 묶어준다.
  •  데이터 내에서 연관 규칙을 발견한다.

102. 회귀 및 분류 문제에 대한 설명으로 틀린 것은?
  •  회귀와 분류는 종속변수가 다르지만, 해석을 위해 동일한 지표를 사용한다.
  •  회귀 문제의 종속변수는 기온, 키, 제품 가격 등이 될 수 있다.
  •  분류 문제의 독립변수는 수치형, 범주형 모두 가능하다.
  •  지도 학습에 해당한다.

103. 다음 중 과적합에 대한 설명으로 틀린 것은?
  •  분산이 크다.
  •  학습 성능이 우수하다.
  •  편향이 크다.
  •  필요 이상으로 복잡한 모델이다.

104. 전기 사용량을 예측하는 모델의 성능을 계산하기 위한 지표로 적절하지 않은 것은?
  •  MAPE
  •  F1-score
  •  RMSE
  •  MES

105. 다음 중 F1-score를 올바르게 표현 한 것은?
  •  (specificity+sensitivity)/2
  •  2x(specificity+sensitivity)/(specificity+sensitivity)
  •  (precision+recall)/2
  •  2x(precision+recall)/(precision+recall)

106. 다음 중 과적합으로 보기 가장 적절한 것은?
학습데이터 정확도 (     )%, 평가 데이터 정확도 (    )%
  •  90, 90
  •  70, 90
  •  90, 70
  •  70, 70

107. k-fold 검증에서 k=10일 때 틀린 것은?
  •  각 fold는 검증 데이터로 한 번 사용된다.
  •  검증 데이터는 전체 데이터의 10%를 차지한다.
  •  k-fold 검증을 통해 과적합을 방지할 수 있다.
  •  각 fold는 학습 데이터로 한 번 사용된다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr