( A > B 는 A에 B가 포함된다는 의미임)
다양한 데이터 소스 시스템에서 필요한 원천 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다.
가. 반응변수가 이항분포이면 연결함수로 logit 함수를 사용한다. 나. 종속변수의 정규성이 성립하지 않아도 사용할 수 있다. 다. 로지스틱 회귀가 대표적인 일반화 선형 모형이다.
가. 랜덤포레스트가 대표적인 앙상블 모형이다. 나. 배깅은 부트스트랩 샘플을 사용한다. 다. 부스팅은 정답에 더 높은 가중치를 부여하여 모델 성능을 올리는 방법이다.