Veri Madenciliği ve Makine Öğrenmesi
Makine öğrenmesi ve veri madenciliğinin bir arada açıklandığı bu kitabın yazılmasındaki amaçlar şunlardır:
Ele alınan algoritmaların anlatım dilini sadeleştirmek, böylece sadece matematik ya da mühendislik alanında değil, her alandan araştırmacı için başucu kitabı olabilmesi,
Gerçek hayattan verilen örnekler yardımı ile algoritmaların ve konunun daha iyi anlaşılmasının sağlanması,
Algoritmaların farklı disiplinlerden ve alanlardan alman veri setleri ile uygulama alanlarının genişletilmesi,
Makine öğrenmesi ve veri madenciliği alanında Türkçe literatürün zenginleştirilmesidir.
Makine öğrenmesinin, yapay zekâ uzantısında geliştirilmiş ve veri madenciliğinin temelini oluşturan bir teknik olduğu bilinmektedir. Kitabın ilk bölümünde veri madenciliği ve makine öğrenmesinden önce önemi nedeniyle yapay zekâ ile ilgili temel bilgilere yer verilmiştir.
Edward Fredkin'in deyişiyle, "Tarihte üç büyük olay vardır. Bunlardan ilki, evrenin oluşumudur, ikincisi yaşamın başlangıcının olması. Bu ikisiyle aynı derecede önemli olan üçüncüsü ise, yapay zekânın ortaya çıkışıdır".(Girişten)
ŞEKİLLER. vii
ÖNSÖZ. xi
GİRİŞ. 1
1. BAZI TEMEL KAVRAMLAR: YAPAY ZEKÂ, VERİ MADENCİLİĞİ ve MAKİNE ÖĞRENMESİ 5
1.1. YAPAY ZEKÂ. 5
1.2. YAPAY ZEKÂ TEKNOLOJİLERİ 10
1.2.1. Uzman Sistemler. 10
1.2.2. Genetik Algoritmalar. 11
1.2.3. Bulanık Mantık. 13
1.3. VERİ MADENCİLİĞİ 14
1.4. MAKİNE ÖĞRENMESİ 17
1.5. ÖĞRENME STRATEJİLERİ 21
1.5.1. Danışmanlı Öğrenme. 23
1.5.2. Danışmansız Öğrenme. 24
1.5.3. Pekiştirmeli Öğrenme. 26
1.6. MAKİNE ÖĞRENMESİ SÜRECİ ADIMLARI 26
1.6.1. Problemin Tanımlanması 28
1.6.2. Veriyi Anlama. 29
1.6.3. Veri Hazırlama. 32
1.6.4. Model Kurma. 36
1.6.5. Model Değerlendirme ve Seçimi 37
1.6.6. Model Performans Değerlendirme Yöntemleri 37
1.6.7. Model Performans Değerlendirme Ölçütleri 41
1.6.8. Modelin Uygulamaya Geçirilmesi 45
1.7. SORULAR. 46
2. TEMEL ALGORİTMALAR. 49
2.1. UZAKLIK ÖLÇÜLERİ 49
2.2. K-EN YAKIN KOMŞU ALGORİTMASI 54
2.3. BASİT (NAIVE) BAYES SINIFLANDIRICI 63
2.4. LOGİSTİK REGRESYON ANALİZİ 73
2.5. KARAR AĞAÇLARI 90
2.5.1. ID3 Karar Ağacı Algoritması 97
2.5.2. C4.5 Karar Ağacı Algoritması 108
2.5.3. Karar Ağaçlarında Nitelik Seçmeye İlişkin İki Yeni Yöntem Önerisi 115
2.6. K-ORTALAMALAR ALGORİTMASI 121
2.6.1. Silhouette Katsayısı 131
2.7. SORULAR. 135
3. R PROGRAMLAMA DİLİNDE TEMEL KOMUTLAR. 139
3.1. R KURULUMU.. 140
3.2. PAKETLER. 147
3.3. RStudio KURULUMU ve TEMEL ÖZELLİKLERİ 152
3.4. NESNELER VE BASİT İŞLEMLER. 158
3.4.1. Vektörler. 160
3.4.2. Diziler ve Matrisler. 167
3.4.3. Listeler. 173
3.4.4. Data Frame. 174
3.5. VERİ TİPİ DÖNÜŞÜMLERİ 178
3.6. VERİ SETİ OKUMA ve YAZDIRMA. 178
3.7. VERİ SETİNİ ALT KÜMELERE AYIRMA. 183
3.8. VERİ SETİNİ PARÇALAMA (EĞİTİM/TEST) 184
3.9. KARAR YAPISI 193
3.10. DÖNGÜLER. 194
3.11. FONKSİYON YAZMAK. 195
3.12. GRAFİKLER. 196
3.13. OPTİMİZASYON.. 200
3.14. SORULAR. 202
4. R PROGRAMLAMA DİLİ ile UYGULAMALAR. 203
4.1. ÖĞRETİM PERFORMANSINI DEĞERLENDİRME
(k-En Yakın Komşu Algoritma Uygulaması) 204
4.2. KREDİ RİSKİNİN TAHMİNİ
(Basit Bayes Sınıflandırıcı Uygulaması) 209
4.3. POTANSİYEL BANKA MÜŞTERİLERİNİN ÖNGÖRÜLMESİ
(Logistik Regresyon Analizi Uygulaması) 218
4.4. TENİS MAÇI SONUCUNUN TAHMİNİ
(C4.5 Karar Ağacı Uygulaması) 226
4.5. TOPTAN SATIŞ MÜŞTERİLERİNİN KÜMELENMESİ
(k-Ortalamalar Algoritma Uygulaması) 245
5. R PROGRAMLAMA DİLİ İLE BİR VAKA ÇALIŞMASI: KARDİYOLOJİK RİSK DEĞERLENDİRMESİ 253
5.1. KALP HASTALIĞI TEŞHİSİ 253
5.1.1. Problemin Tanımlanması 254
5.1.2. Veriyi Anlama. 254
5.1.3. Veri Hazırlama. 262
5.1.4. Model Kurma ve Performans Değerlendirme. 263
5.1.5. Genel Değerlendirme ve Model Seçimi 292
5.1.6. Seçilen Modelin Kalp Hastalığı Teşhisinde Kullanımı 293
SONSÖZ. 296
KAYNAKLAR. 297
DİZİN.. 319