Makine Öğrenmesi Terimleri | Makine Öğrenmesi Terminolojisi
Makine Öğrenmesi ( diğer adıyla Machine Learning) alanında kullanılan bazı terimler var ve bunları bilmeden bu alana dalmak pek verimli olmayabilir. Makine Öğrenmesi alanında iki tür öğrenme yolu vardır.
Bunların birincisi tahmin edilmek istenen hedefin modele verildiği Supervised Learning' dir. Bu öğrenme biçiminde veri( diğer adıyla data) modele verilir ve bu verinin hangi etiketi olduğu da verilir. Örnek verirsek, diyelim ki ev fiyatlarını tahmin etmeye çalışacağız. Burada tahmin edilmek istenen hedef evin fiyatıdır. Verimizde ise bu evin nerede olduğu, alanı, kaç tane yatak odası olduğu veriliyor. Verimizde her evin fiyatı da verildiği için bu öğrenme çeşidi Supervised Learning olarak geçer.
Diğer öğrenme yöntemi ise bu tahmin edilmek istenen terimin verilmediği durum olan Unsupervised Learning dir. Bu öğrenme yönteminde ise tahmin edilmek istenen hedef modele verilmez ve modelin veride bazı izler (pattern) bulması istenir. Bu tarz öğrenme daha çok kümeleme mantığı ile çalışır.
Genellikle iki tür görev (task vardır). Bunlar regresyon( regression) ve sınıflandırmadır (classification).
Regresyon (Regression): Regresyon durumlarında tahmin edilmek istenen hedef süreklidir (continuous). Örnek verirsek, bir evin fiyatını tahmin etmeye çalışmak regresyon problemine girer. Çünkü, fiyat süreklidir.
Sınıflandırma (Classification): Sınıflandırma görevlerinde tahmin edilmek istenen hedef kategoriseldir. Örnek verirsek, bir kanser hastasının ciddi mi ya da hafif bir kanser olup olmadığını öğrenmek sınıflandırmaya girer.
Ev fiyatları üzerinden örnek verdik. Şimdi bunlara hem regresyon hem de sınıflandırma üzerinden örnek vererek pekiştirelim. Bir evin direk fiyatını tahmin etmek regresyon problemi olur çünkü hedef sürekli olur. Ancak, bir evin fiyatını bölümlere ayırırsak, çok pahalı - pahalı - orta pahalı- ucuz, bu sınıflandırma problemi olur. Çünkü hedef kategorileşmiştir.
Model eğitme sırasında kullanılan bazı terimleri de inceleyelim.
Eğitme Verisi (Training Data): Bu veri bir modelin eğitilmesi için kullanılan veridir. Genellikle elimizde bulunan tüm verinin yüzde 80 ile 90' ı arasında olur. Bu veri ile model eğitilir.
Test Verisi - Deneme Verisi (Test Data): Bu veri ise tüm verinin yüzde 10 ya da 20 sini oluşturan (genelde), modelin test edilmesi için kullanılan veridir. Modele eğitilme sırasında hiç gösterilmez. Modelin görülmemiş veride nasıl performans gösterdiği ölçülür.
Model eğitildikten sonra performanslara göre kullanılan bazı terimler vardır.
Aşırı Uyma (Overfitting): Aşırı uyma diğer adı ile Overfitting, bir modelin eğitme verisine (training data) çok iyi uymasından kaynaklı olan bir problemdir. Model eğitme verisine o kadar iyi uyar ki, başka görülmemiş veride kötü sonuç verir. İstenilmeyen bir durumdur. Bunu engellemek için bazı metotlar vardır. Bunları sonraki yazılarımda inceleyeceğim.
Eksik Öğrenme(Underfitting): Eksik Öğrenme diğer adı ile Underfitting, bir modelin eğitme verisi üzerinde çok iyi öğrenememesi, yüzeysel bir öğrenme gerçekleştirmesinden kaynaklanır. Model iyi öğrenemediği için görülmemiş bir veri üzerinde de performansı kötü olacaktır. Bunu da engellemek için bazı metotlar vardır. Bunları sonraki yazılarımda ekleyeceğim.
Genel olarak anlatabileceğim terimler bu şekildedir. Sonraki yazılarımızda görüşmek üzere.
Yorumlar
Yorum Gönder