observe_db

[데이터마이닝] 1장 정리 본문

프로그래밍 언어 기초/데이터마이닝(남의수업)

[데이터마이닝] 1장 정리

쩡윤 2023. 2. 8. 17:06

*충대 자연대 정보통계학과 강의.

*소웨보다 실습을 많이한다.

 

데이터 마이닝(Data Mining): 대량의 데이터에서 규칙이나 패턴을 찾는 과정.

  • 통계학, DB, ML, AI의 영역에서 발전된 다양한 기법들을 포함한다.
  • 목적-데이터 셋에서 정보를 추출하고, 사용을 위해 이해할 수 있는 구조로 변환하는 것
  • 분석, 데이터베이스/데이터 관리, 전처리, 모형과 추론 고려사항, 흥미도, 복잡성, 발견된 구조 처리, 시각화 및 온라인 업데이트를 포함한다.
  • KDD(Knowledge Discovery in Databases, 데이터베이스 속의 지식발견) 과정 또는 KDD 과정의 분석 단계로 이해될 수 있다.
  • 적용분야-기업의 마케팅, 고객 분석(경영), 금융 평가(금융), 품질관리(제조), 유전자 분석(의학), 자료 처리(천문) 등
  • 텍스트마이닝, 빅데이터 분석 등에도 이용된다.

 

* R이랑 파이썬이 짱이다. *

 

지도학습/비지도학습(supervised/unsupervised learning)

  • 예측모형: 결과가 알려진 다변량 자료를 이용하여 모형을 구축하고 새로운 자료의 결과를 예측(prediction) 혹은 분류(classification)
  • 예측은 결과값이 연속형일 때, 분류는 결과값이 범주형일 때.
  • Logistic Regression, 의사결정트리, 판별분석, kNN 분류, 베이즈 분류, 신경망, SVM 및 이들의 앙상블 모형
  • 기계학습 분야에서는 지도학습이라 부른다.
  • 목표마케팅, 성과예측, 의학진단, 사기검출, 제조 등에 이용
  • 별도의 결과값을 요구하지 않는 자료의 분석은 비지도학습이라 부른다.
  • 군집분석(clusterinig)이 대표적이다. 결과값이 주어지지 않아 오차/보상신호의 개념이 사용되지 않는다.
  • k-평균군집, 계층적군집, 혼합분포군집 등의 군집분석과 주성분분석, 독립성분분석등이 포함된다.
Comments