일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Agile
- 벡터
- css
- 오픈소스웹소프트웨어
- 클래스
- 836
- 스케줄러
- 프로세스
- 언어모델
- 가상메모리
- 웹소프트웨어
- 컴파일러
- NLP
- Linear Algebra
- 파싱
- 애자일
- React
- 랩실일기
- 파싱테이블
- 데이터분석
- 자연어처리
- 소프트웨어공학
- C언어
- DB
- 정보검색
- 객체지향설계
- 데이터베이스
- 운영체제
- 컴파일
- OS
Archives
- Today
- Total
observe_db
[데이터마이닝] 1장 정리 본문
*충대 자연대 정보통계학과 강의.
*소웨보다 실습을 많이한다.
데이터 마이닝(Data Mining): 대량의 데이터에서 규칙이나 패턴을 찾는 과정.
- 통계학, DB, ML, AI의 영역에서 발전된 다양한 기법들을 포함한다.
- 목적-데이터 셋에서 정보를 추출하고, 사용을 위해 이해할 수 있는 구조로 변환하는 것
- 분석, 데이터베이스/데이터 관리, 전처리, 모형과 추론 고려사항, 흥미도, 복잡성, 발견된 구조 처리, 시각화 및 온라인 업데이트를 포함한다.
- KDD(Knowledge Discovery in Databases, 데이터베이스 속의 지식발견) 과정 또는 KDD 과정의 분석 단계로 이해될 수 있다.
- 적용분야-기업의 마케팅, 고객 분석(경영), 금융 평가(금융), 품질관리(제조), 유전자 분석(의학), 자료 처리(천문) 등
- 텍스트마이닝, 빅데이터 분석 등에도 이용된다.
* R이랑 파이썬이 짱이다. *
지도학습/비지도학습(supervised/unsupervised learning)
- 예측모형: 결과가 알려진 다변량 자료를 이용하여 모형을 구축하고 새로운 자료의 결과를 예측(prediction) 혹은 분류(classification)
- 예측은 결과값이 연속형일 때, 분류는 결과값이 범주형일 때.
- Logistic Regression, 의사결정트리, 판별분석, kNN 분류, 베이즈 분류, 신경망, SVM 및 이들의 앙상블 모형
- 기계학습 분야에서는 지도학습이라 부른다.
- 목표마케팅, 성과예측, 의학진단, 사기검출, 제조 등에 이용
- 별도의 결과값을 요구하지 않는 자료의 분석은 비지도학습이라 부른다.
- 군집분석(clusterinig)이 대표적이다. 결과값이 주어지지 않아 오차/보상신호의 개념이 사용되지 않는다.
- k-평균군집, 계층적군집, 혼합분포군집 등의 군집분석과 주성분분석, 독립성분분석등이 포함된다.
Comments