Aykırı Değer ve Tanımlayıcı İstatistikler
Aykırı değer
(outlier), istatistik analizi sürecinde verilerimizde bulunan
aşırı uç değerlerden oluşan gözlemleri temsil etmektedir. Verilerimizin genel yapısına göre aşırı ölçüde yüksek veya düşük gözlemler
aykırı değer olarak tanımlanabilir. Söz konusu aşırı değerler bazı
dışsal faktörler, istisnai durumlar veya
yanlış veri girişi nedeni ile gözlemlenebilmektedir.
Bu değerleri
sayısal değişkenler kapsamında değerlendirdiğimizi vurgulayalım.
Verilerimizde bulunan bu tür aşırı ölçüde yüksek veya düşük değerli gözlemler, tanımlayıcı istatistik değerlerinde büyük değişimlere yol açmaktadır. Bu durumu örneklendirmek için aşağıdaki basit verilere göz atalım:
Yaş: 10, 11, 11, 12, 12, 12, 14, 14, 15, 100
Yukarıdaki satırda 10 kişiye ait yaş değerleri yer alıyor. İlk dokuz kişinin yaş ortalamasına bakıldığında, aritmetik ortalama değerinin 12.3 olduğunu görebiliyoruz. Ancak 10. sıraya
100 yaşında bir teyze dahil oluyor ve bu teyzenin yaşının aykırı değer olduğunu açıkça görebiliyoruz. Teyzenin yaşını dahil ettiğimizde, aritmetik ortalama 21.1'e yükseliyor.
Şimdi şu soruyu sormanın tam zamanı: Sizleri bir toplantı salonuna gözleriniz bağlı olarak götürsek ve bu sınıftaki kişilerin de yaş ortalamasının 12.3 olduğunu söylesek, muhtemelen bu toplantı salonundaki kişilerin ortaokul çağındaki çocuklardan oluştuğunu düşünürsünüz.
Ancak salondaki kişilerin yaş ortalamasının 21.1 olduğunu söylediğimizde, gözleriniz kapalı iken muhtemelen bu salondakilerin üniversite çağındaki gençlerden oluştuğunu öngörebilirsiniz.
Gördüğümüz gibi, tek bir gözlem genel veri düzeninden büyük ölçüde farklı olduğunda
aritmetik ortalama da değişiyor.
Aritmetik Ortalama ve Medyan Değerlerinin Aykırı Değer Tespitindeki Rolü
Bir önceki örnekte gördüğümüz üzere, aritmetik ortalama aykırı değerlere karşı son derece duyarlı bir tanımlayıcı istatistik. Bu durumda verilerimizdeki aşırılıkları tanımlayıcı istatistiklere yansıtmayacak,
dayanıklı (robust) istatistiklerden yararlanabiliriz. Bu istatistiklerin en başında da
medyan geliyor.
Peki verilerimizde aykırı değer olup olmadığını aritmetik ortalama ve medyan değerlerine bakarak söylememiz mümkün mü? Evet, mümkün, ama her zaman değil. Çünkü sadece ortalamaların değil,
varyans değerlerinin de etkisi olabilir ve bu yaklaşıma varyans şerhini de koymamız gerekiyor.
Verilerimizde aritmetik ortalama ve medyan değerleri arasında çarpıcı bir farklılık oluşuyorsa, aykırı değerin varlığından şüphe duymalıyız. Ölçümlerin çarpıklık-basıklık düzeylerine göre de bu farklılık oluşabilir ama söz konusu farklılık gözle görülür ölçüde ise, aykırı değerin var olduğunu sezebiliriz.
Aritmetik ortalama ve medyan değerleri arasındaki farklılığın ne ölçüde büyük olduğunu belirlemek için mutlaka araştırma değişkenimizin doğasını tanımalıyız. Örneğin
kan şekeri için 10 birimlik bir fark çok önemli değilken;
Hba1c için 10 birimlik bir fark muazzam etki yaratır!
Benzer şekilde, bir önceki yaş örneğimizi anımsayalım. Bu veride medyan değeri 12'dir, aritmetik ortalama ise 21.1 olarak hesaplanmıştı. Yıl açısından bakarsak; yaklaşık 9 senelik bir yaş farkı oluşuyor.
Verilerimize dair aritmetik ortalama ve medyan değerlerini istatistik analiz yazılımları (R-Project, SPSS vb.) sayesinde kolaylıkla hesaplayabilir ve aradaki sayısal farklılığı gözlemleyebiliriz.
Son söz olarak, medyan ver aritmetik ortalama değerlerimiz gözle görülür ölçüde farklı bulunuyorsa, aykırı değerin varlığına
dikkat diyoruz.