데이터마이닝(유사도계산)
- 최초 등록일
- 2010.02.05
- 최종 저작일
- 2010.02
- 7페이지/ 한컴오피스
- 가격 2,000원
소개글
Data mining의 가장 기본적인 개체간의 유사도를 측정하기 위한 방법에 대한 조사보고서입니다.
거리계산방법에 대해 현재까지 발표된 모든 방법을 조사한 내용입니다.
데이터마이닝 보고서 작성시 일부분으로 참고하실 수 있으리라 생각됩니다.
목차
1. 유사성이란?
2. 유사성 계산방법
3. 거리(Distance)의 정의
4. 거리계산방법
본문내용
1.유사성이란?
여러 개의 분석대상 Data를 대상으로 다양한 분석(패턴분석, 군집분석, 음성인식 등)을 수행한다고 하자. 이를 위해서는 우리는 Data간 유사도를 정량적으로 계산하는 방법을 정의하고 계산식에 근거하여 Data간 유사성을 정량적인 값으로 계산하여 분석과 의사결정을 수행해야 한다.
2.유사성계산방법
유사성을 정량적으로 표현하기 위해서 필요한 개념은 무엇일까? 바로 거리(Distance)라는 것이다. 이 거리라는 개념은 비교대상 Data의 유사성 정도를 값으로 구체화한 것으로서 종래 통계에서는 관심이 적었던 개념이다. 그러나 최근 Data mining이 등장하면서 Data간의 유사성을 정량적으로 측정하기 위해서는 공간상에 표현된 두 개체간의 거리를 계산하는 방법이 중요하게 되었으며 이 값에 근거하여 유사한 패턴을 묶어서 동일그룹으로 구분한다.
3.거리(Distance)의정의
유사성을 정량적으로 계산하기 위한 거리를 어떻게 정의할 수 있는가? 우선 거리는 아래 세가지를 만족해야 하는 측도(measure)라고 정의할 수 있다.
4.4 상관계수 (Correlation Coefficient)
수학적인 거리의 성질 (I)과 (II)를 만족하지 않으나, 두 개체간의 거리 혹은 유사성을 나타내는 측도로 널리 쓰인다. 상관계수란 두 개체간의 선형적 관계의 정도를 의미한다. 만약 이면 두 개체가 양의 상관관계를 나타내며, 는 음의 상관관계이며, 는 상관관계가 없음을 의미한다. 이 거리의 특징은 자료의 결측이 있더라도 계산할 수 있다. 또한 단위 크기(scale), 척도 문제에도 영향을 받지 않는다.
만약 자료가 ,
로 변환되었을 때,
이 성립한다. 따라서 상관계수 은 유클리디안 거리에서의 0의 값에 해당하며 상관계수가 -1로 감소할수록 유클리디안 거리는 증가한다. 따라서 유클리디안 거리는 비유사성에 초점을 두고 있고, 상관계수는 유사성에 기반한다.(유클리디안 거리는 값이 클수록 유사도가 낮아짐을 의미하는 것인 반면에 상관계수는 값이 클수록 즉
참고 자료
1. INTRODUCTION TO DATA MINING, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2005