Veri Madenciliği dersi uygulama projesidir. Yapılan çalışmada Sezgisel KNN ve Sezgisel YSA yöntemlerinin sınıflandırma performansları değerlendirilmiştir.
Sınıflandırma, veri madenciliğinin önemli bir parçasıdır. Sınıflandırma kavramı, basitçe bir veri kümesi üzerinde tanımlı olan çeşitli sınıflar arasında veriyi dağıtmaktır. Sınıflandırma algoritmaları, verilen eğitim kümesinden bu dağılım şeklini öğrenirler ve daha sonra sınıfının belirli olmadığı test verileri geldiğinde doğru şekilde sınıflandırmaya çalışırlar.Veri kümesi üzerinde verilen bu sınıfları belirten değerlere etiket ismi verilir ve gerek eğitim gerekse test sırasında verinin sınıfının belirlenmesi için kullanılırlar. Sınıflandırma alanında birçok yöntem ve algoritma geliştirilmiştir.
Yapay sinir ağları da sıklıkla sınıflandırma problemlerinde kullanılmaktadır. Yapay sinir ağları insan beyninden esinlenerek insanda bulunan yeni bilgiler öğrenme, yeni çıkarımlar yapma gibi yetenekleri otomatik olarak gerçekleştiren bir yöntemdir ve sınıflandırma, modelleme ve tahmin gibi birçok günlük hayat probleminin çözümünde kabul edilebilir başarılar gösterebilmektedir.
K-NN algoritmasında komşulara olan uzaklık hesaplamasında bağımsız değişkenlerin etki oranının daima 1 alınması ve YSA ağırlıkların bulunması için kullanılan geleneksel algoritmalar, yerel optimum tuzaklarına takılabilmektedirler. Bu nedenle yüksek doğruluk oranı gösteremeyebilirler. YSA ve K-NN de en iyi değerlerinin bulunması bir optimizasyon problemidir. Literatürde optimizasyon alanında sıklıkla kullanılan ve özellikle karmaşık problemlerde kabul edilebilir çözümler bulabilen meta sezgisel algoritmalar ile YSA ve K-NN modellerinde ağırlıkların en uygun değerlerinin bulunmasında kullanılabilir.
Sezgisel YSA, yapay sinir ağları ve sezgisel arama algoritmalarının teknikleri ile hibrit bir yapı oluşturularak geliştirilmiş bir yöntemdir. Bu çalışmada Sezgisel Algoritma olarak SOS (Symbiosis Organisms Search) algoritması kullanılmıştır.
KNN ve YSA performanslarını değerlendirmek için UCI makine öğrenme deposundan 2 veri seti alınmıştır. Veri setlerinin özellikleri:
- Toplam Veri Seti : 6000
- Nitelik Sayısı : 13
- Etiket Sayısı : 2
- Etiket : 0,1
- 0-> 3833 tane
- 1-> 2161 tane
- Toplam Veri Seti : 3509
- Nitelik Sayısı : 10
- Etiket Sayısı : 6
- Etiket : 1,2,3,4,5,6
- 1->1640 tane
- 2-> 105 tane
- 3-> 294 tane
- 4-> 1019 tane
- 5-> 239 tane
- 6-> 212 tane
1 nolu veri setinin 1-2000 arası YSA ve KNN ağırlıklarının bulunmasında, 2001-4000 arası performans değerlendirmesinde ve 4001-6000 arası KNN’de sınıflandırma yapılmak üzere bölünmüştür.
2 nolu veri setinin 1001-2000 arası YSA ve KNN ağırlıklarının bulunmasında, 2001-3509 arası performans değerlendirmesinde ve 1-1000 arası KNN’de sınıflandırma yapılmak üzere bölünmüştür.
KNN ve YSA ağırlıklarının bulunmasında Simbiyotik Organizmalar Arama Algoritması(SOS Algorithm) kullanılmıştır. Maksimum iterasyon sayısı (1.000 * problem boyutu) + 80.000 olarak belirlenmiştir. Hazırlanan modeller 4 kez çözümlenmiştir ve en düşük hataya sahip model seçilmiştir