<< Merkle trees(Hash trees) | Home | 파도 >>

WEKA - Classification, Clustering

WEKA는 Mining 알고리즘을 테스트 해보고 실제로 구현도 가능한 오픈 소스 툴이다. Hadoop등 빅 데이터 플랫폼이 준비가 안된 환경에서도 쉽게 샘플링 데이터를 가지고 마이닝 알고리즘을 테스트 해 볼 수 있는 장점이 있다.

1. WEKA 다운로드
- 다운로드 : http://www.cs.waikato.ac.nz/ml/weka/index_downloading.html
- prerequisites(여기 참고 : http://www.cs.waikato.ac.nz/ml/weka/index_requirements.html)
. JRE 설치 되어야 함.
. 고사양의 컴퓨터가 좋음.
- 설치 후.
. OutOfMemoryException을 회피하기 위해 RunWeka.ini파일의 maxheap=1024m 수정.

2. 입력 데이터 특징
- ARFF : Attribute-Relation File Format 의 약자.
- Weka 에서 ARFF 포멧을 input 으로 사용함.
- Weka 입력으로 db 도 연결할 수 있음.
- 하나의 flat 파일을 Mining 의 input 으로 사용하여야 함.

3.간단한 실행 방법
weke 설치한 후 explorer 를 실행한 후>open file>적당한 arff 파일을 선택하고 테스트 원하는 알고리즘 선택해서 진행하면 된다.

4. Classification 샘플
1) BMW Classification Train data 로드.
- 데이터 로그
. preprocess>open file>bmw-training.arff


2) Classification train
. Classify>Use training set 선택>Start 버튼 클릭.
. Classfier Rule은 J48.


- 중요한 값은 "Correctly Classified Instances" (59.1 %) 값-정확도이다.
- Confusion Matrix는 false positives and false negatives를 나타낸다. false positives는 516, false negatives는 710.
- 정확도는 59.1이어서 그리 좋지만 않다.
- Result list에서 우클릭한 다음 Visualize tree 선택하면 Classification tree를 볼 수 있음.


3) Classification tree validation
- BMW Classification Test data 로드.
. preprocess>open file>bmw-test.arff
- Classification test.
. Classify>Supplied test set>Set>open file>Start


- 정확도가 56.8로 그래도 나쁜편에 속한다.

5. Clustering 샘플
1) BMW Cluster data 로드.
- preprocess>open file>bmw-browsers.arff


2) Cluster
- Cluster>SimpleKMeans Cluster 선택.
- SimpleKMeans 클릭>Cluster attributes 추가.
. numClusters : 5, OK 버튼 클릭


- Cluster 0 : 이 그룹은 밖에 주차된 차량을 보거나 대리점들을 둘러보는 공상가류들이고 대리점에 들어왔을때 최악의 경우 구매 의사가 없는 경우가 많다.
- Cluster 1 : 이 그룹은 3-series 자동차나 Z4를 무시하고 바로 M5로 가기 때문에 M5 매니아 그룹. 구매율도 51%로 높지 않음. 차라리 M5섹션에 많은 영업 사원을 보내서 대리점 문제점 개선에 촛점을 맞추는 것이 낫다.
- Cluster 2 : 이 그룹은 포션이 작아서 제외하는 것이 낫다.
- Cluster 3 : 이 그룹은 BMW 베이비 그룹. 항상 자동차 구입과 동시에 대금결제를 완납함. 자동차를 보러 많이 돌아다니고 가능한 대리점을 검색을 자주 하는 부류. 3-series를 무시하고 M5나 Z4를 구해하는 경향이 있다. 대리점은 항상 M5, Z4가 검색될 수 있도록 한다.
- Cluster 4 : 비싼 M5를 보지않고 3-Series를 보는 것으로 보아 BMW를 시작하는 그룹. 많이 걷지도, 컴퓨터 검색은 하지 않고 쇼룸으로 바로 간다. 그리고 50%는 자금 단계까지 고려하고 32%가 구매를 한다. BMW(3-series)를 첫 구매하는 고객들은 감당할 수 있는 금융 지원을 기대한다. 그러면 대리점은 재무 기준을 완화해 판매를 증가시킬 수 있다.

[참고 사이트]


Avatar: 조유진

Re: WEKA - Classification, Clustering

데이터셋은 어디서 다운받을 수 있나요? 또 그 데이터셋을 arff 파일로는 어떻게 변경하나요? 오늘 처음 weka를 다운 받아 잘 모릅니다ㅠㅠ^^
Avatar: 백수입니다.

Re: WEKA - Classification, Clustering

지나가다가 들립니다

위에분 데이터는 저희나라의 경우 국가공공기관 공유데이터 관련 사이트가 있습니다

학생이시라면 http://archive.ics.uci.edu/ml/

이곳도 갠찬구요

그리고 굳이 arff 파일을 쓰실필요 없이 csv 파일형식도 지원하므로 엑셀을 통해서

데이터셋을 구성할수 있습니다.

 

 

 

 

 


Add a comment Send a TrackBack