İstatistiksel Bilgilendirme
Kukla değişken, kategorik olarak tanımlanmış verilerin kodlanması ile oluşturulan özel bir değişken türüdür. Özellikle regresyon analizlerinde, sayısal veri yapıları üzerinden kukla değişken oluşturulduğunu bilimsel araştırmalarda sıkça görmekteyiz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Şimdi bu değişken türü üzerinde detaylıca duralım.
<!-- /wp:paragraph --><!-- wp:heading -->Cevabı peşinen verelim:
<!-- /wp:paragraph --><!-- wp:paragraph -->Kullandığımız analiz tekniğine bağlı olarak zorundayız.
<!-- /wp:paragraph --><!-- wp:paragraph -->Ortalama karşılaştırma testlerinde böyle bir zorunluluğumuz yok.
<!-- /wp:paragraph --><!-- wp:paragraph -->Örneğin; dört gruba sahip bir eğitim durumu değişkenimiz var ve eğitim gruplarına göre yaşam doyumlarını karşılaştırmak istiyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Normallik varsayımının altında, eğitim grupları arasında yaşam doyumunu puanlarını karşılaştırmak için varyans analizi (ANOVA) uyguluyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->ANOVA için kukla değişken oluşturmak zorunda değiliz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Aynı durum diğer testler için de geçerli. İster t-testi, ister Kruskal-Wallis testi, ister Friedman testi...
<!-- /wp:paragraph --><!-- wp:uagb/inline-notice {"block_id":"eccdebdb","noticeContent":"\u003cp\u003e\u003cem\u003eAksine, kukla değişken kullanmamız bu testleri uygularken doğru da değil.\u003c/em\u003e\u003c/p\u003e","noticeColor":"#8ed1fc","titleLeftPadding":15,"titleRightPadding":15,"titleTopPadding":15,"titleBottomPadding":15,"contentLeftPadding":15,"contentRightPadding":15,"contentTopPadding":15,"contentBottomPadding":15,"className":"uagb-inline_notice__outer-wrap"} -->Aksine, kukla değişken kullanmamız bu testleri uygularken doğru da değil.
Benzer şekilde kategorik veriler arasındaki ilişki testlerinde de kukla değişken kullanmıyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Örneğin; cinsiyet grupları ile kan grupları arasında bir ilişkinin varlığını test edelim. Bu amaçla (uygun koşullarda) ki-kare bağımsızlık testi uygulayabiliriz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Ki-kare bağımsızlık testini uygularken kukla değişken oluşturamayız.
<!-- /wp:paragraph --><!-- wp:paragraph -->İster ki-kare bağımsızlık testi, ister McNemar testi ... Aynı durum geçerli.
<!-- /wp:paragraph --><!-- wp:uagb/inline-notice {"block_id":"784a96d8","noticeContent":"\u003cp\u003e\u003cem\u003eAksine, kukla değişken kullanmamız bu testleri uygularken doğru da değil.\u003c/em\u003e\u003c/p\u003e","noticeColor":"#8ed1fc","titleLeftPadding":15,"titleRightPadding":15,"titleTopPadding":15,"titleBottomPadding":15,"contentLeftPadding":15,"contentRightPadding":15,"contentTopPadding":15,"contentBottomPadding":15,"className":"uagb-inline_notice__outer-wrap"} -->Aksine, kukla değişken kullanmamız bu testleri uygularken doğru da değil.
Ancak regresyon analizlerinde durum biraz farklı.
<!-- /wp:paragraph --><!-- wp:uagb/inline-notice {"block_id":"ceaeaeba","noticeContent":"\u003cp\u003e\u003cem\u003eAncak modelimizde bağımsız değişken tarafında bu durum geçerli. Bağımlı değişken için değil.\u003c/em\u003e\u003c/p\u003e","noticeColor":"#00d084","titleLeftPadding":15,"titleRightPadding":15,"titleTopPadding":15,"titleBottomPadding":15,"contentLeftPadding":15,"contentRightPadding":15,"contentTopPadding":15,"contentBottomPadding":15,"className":"uagb-inline_notice__outer-wrap"} -->Ancak modelimizde bağımsız değişken tarafında bu durum geçerli. Bağımlı değişken için değil.
Peki bunu nasıl gerçekleştiriyoruz?
<!-- /wp:paragraph --><!-- wp:paragraph -->Bunun için iki yolumuz var:
<!-- /wp:paragraph --><!-- wp:paragraph -->1. Kullandığımız kategorik değişken içerisinden referans bir grup seçerek gerçekleştirebiliriz.
<!-- /wp:paragraph --><!-- wp:paragraph -->2. Doğrudan tüm grupları kullanarak gerçekleştirebiliriz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Birinci yolun en sık tercih edilen yol olduğunu söyleyelim.
<!-- /wp:paragraph --><!-- wp:paragraph -->Bu yolda, kategorik değişkenimizin bir grubunu feda etmek durumundayız.
<!-- /wp:paragraph --><!-- wp:paragraph -->Değişkenimizin bir grubunu referans seçiyoruz ve o referans grubu analiz dışında bırakıyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Örneğin; medeni durum değişkenini bağımsız değişken olarak regresyon modelimizde kullanacağımızı düşünelim. Medeni durumu evli, bekar ve dul şeklinde üç gruba ayıralım.
<!-- /wp:paragraph --><!-- wp:paragraph -->Üç grup arasından herhangi birisini referans olarak seçip, kalan yorumları da o gruba göre yapmak durumundayız.
<!-- /wp:paragraph --><!-- wp:paragraph -->Eğer evli grubunu referans alırsak; bu sefer tüm yorumlarımızı bekar ve dul olan katılımcıları evlilere göre kıyaslayarak yapıyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Pratikte, iki sütün şeklinde bir yapıyı kullandığımız istatistik yazılımına tanımlıyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Bu durumu genelleştirirsek, K gruplu bir değişken için K-1 adet sütuna sahip değişkenler oluşturmamız gerekmektedir.
<!-- /wp:paragraph --><!-- wp:paragraph -->Sütunda her gözlem, ilgili grubun var olduğu durumlada 1, olmadığı durumlarda 0 değerini alır.
<!-- /wp:paragraph --><!-- wp:paragraph -->Örneğin; birinci katılımcının bekar olduğunu düşünelim. Medeni durum için de yine evli grubu referans alalım.
<!-- /wp:paragraph --><!-- wp:paragraph -->Veri girişi için bu sefer bekar grup için oluşturulan sütundaki gözlem değeri 1, dul grup için oluşturulan sütundaki gözlem değeri de 0 olmalı.
<!-- /wp:paragraph --><!-- wp:paragraph -->Aşağıdaki görselde bu durumu kısaca örneklendiriyoruz.
<!-- /wp:paragraph --><!-- wp:image {"id":3095,"sizeSlug":"full","linkDestination":"none"} -->Gördüğünüz gibi referans grup için (evli grubu) sütün veri setimizde yer almıyor. Sadece referans grup dışındaki iki değişkenş sütun halinde verimize tanımlıyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->İkinci kullandığımız yaklaşımı da referans grup oluşturmadan gerçekleştiriliyor.
<!-- /wp:paragraph --><!-- wp:paragraph -->Bunun için yapmamız gereken bir işlem var.
<!-- /wp:paragraph --><!-- wp:paragraph -->O da modeldeki sabit terimi feda etmek.
<!-- /wp:paragraph --><!-- wp:uagb/inline-notice {"block_id":"2ac2ecab","noticeContent":"\u003cp\u003e\u003cem\u003eBu durumda sabit terim olmadan regresyon analizini uygulamamız gerekiyor.\u003c/em\u003e \u003c/p\u003e","noticeColor":"#00d084","titleLeftPadding":15,"titleRightPadding":15,"titleTopPadding":15,"titleBottomPadding":15,"contentLeftPadding":15,"contentRightPadding":15,"contentTopPadding":15,"contentBottomPadding":15,"className":"uagb-inline_notice__outer-wrap"} -->Bu durumda sabit terim olmadan regresyon analizini uygulamamız gerekiyor.
Sabit terimsiz bir model oluşturmak, kullanılan istatistiksel analiz programları üzerinden mümkün.
<!-- /wp:paragraph --><!-- wp:paragraph -->Hepimizin bildiği ismiyle, beta sıfır değerini sıfıra sabitlediğimiz bir regresyon modeli oluşturmaktan bahsediyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Bu konuda R son derece basit bir seçenek sunuyor.
<!-- /wp:paragraph --><!-- wp:paragraph -->Diğer programlarda da buna uygun tahmin yöntemleri mevcut.
<!-- /wp:paragraph --><!-- wp:paragraph -->SPSS, Stata, Minitab gibi programlarda da sabit terimsiz regresyon analizi yapabiliriz.
<!-- /wp:paragraph --><!-- wp:paragraph -->İstatistik şirketlerinde bu tür kategorik verileri sayısal olarak analize katan hatalı yaklaşımların varlığını da gözlemliyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Regresyon analizi için şunu da ilave etmekte fayda var.
<!-- /wp:paragraph --><!-- wp:paragraph -->İster normal lineer regresyon, ister lojistik regresyon, ister Poisson regresyon analizi, ister beta regresyon analizi olsun.
<!-- /wp:paragraph --><!-- wp:heading {"level":3} -->Tüm regresyon analizi türlerinde bağımsız değişkenlerimiz kategorik ise kukla değişken oluşturmalıyız.
<!-- /wp:paragraph --><!-- wp:paragraph -->İstisnasız tüm regresyon analizlerinde bu durum söz konusu.
<!-- /wp:paragraph --><!-- wp:paragraph -->Literatürde regresyon analizlerinde görüldüğü kadarı ile, bilimsel makalelerin çoğunluğunda referans grup oluşturarak kukla değişkenlerin oluşturulduğunu vurgulayalım.
<!-- /wp:paragraph --><!-- wp:paragraph -->Az sayıda çalışma, makalemizde bahsettiğimiz ikinci yaklaşıma başvuruyor.
<!-- /wp:paragraph --><!-- wp:paragraph -->Bu yazımızda genel hatları ile kukla değişkenlerin nasıl oluşturulduğuna değindik. İstatistiksel analizlerde nasıl kullanacağımızı özetle anlatmaya çalıştık.
<!-- /wp:paragraph --><!-- wp:paragraph -->Kuşkusuz farklı veri bilimi uygulamalarında kategorik bağımsız değişkenleri tanımlarken farklı yollara başvuruyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Yine klasik istatistik tekniklerinde olduğu gibi, farklı analiz tekniklerinde kukla değişkeni kullanmamız ve kullanmamamız gereken durumlar bulunuyor. Algoritmanın çalışma prensibine göre yeni sütunlar tanımlamadan da analizlerimizi uygulayabiliyoruz.
<!-- /wp:paragraph --><!-- wp:paragraph -->Gelecek yazılarımızda diğer istatistik programları (SPSS, Minitab vb.) ve güncel veri bilimi algoritmalarında (makina öğrenme, veri madenciliği) bu konuya daha detaylı değineceğiz.
<!-- /wp:paragraph -->