Uç Değerler Nasıl Hesaplanır?

Ortak yazar: wikiHow Kadrosu

İstatistikte uç değer, bir örneklemdeki diğer veri noktalarından önemli ölçüde farklı olan bir veri noktasıdır. Genellikle, bir veri kümesindeki uç değerler istatistikçileri, alınan ölçümlerde deneysel anormallikler veya hatalar konusunda uyarabilir ve bu da uç değerlerin veri kümesinde ihmal edilmesine neden olabilir. Eğer veri kümesinde uç değerleri ihmal ederler ise, çalışmadan çıkan sonuçlarda önemli değişiklikler olabilir.[1] Bu nedenle, uç değerlerin nasıl hesaplanacağını ve değerlendirileceğini bilmek, istatistiksel verilerin doğru bir şekilde anlaşılmasını sağlamak için önemlidir.

AdımlarDüzenleniyor

  1. 1
    Olası uç değerlerin nasıl fark edileceğini öğren. Belirli bir veri kümesindeki uç değerlerin ihmal edilip edilmeyeceğine karar vermeden, öncelikle veri kümesinin olası uç değerlerini tanımlamamız gerekir. Genel anlamda uç değerler, veri kümesindeki diğer değerler tarafından ifade edilen eğilimden büyük ölçüde farklı olan veri noktalarıdır. Diğer bir deyişle, uç değerler diğer değerlerin dışında kalır. Genellikle bunu veri tablolarında veya (özellikle) grafiklerde tespit etmek kolaydır.[2] Eğer veri kümesi grafik üzerinde görsel olarak ifade edilirse dış noktalar diğer değerlerden "uzak" olacaktır. Örneğin; eğer bir veri kümesindeki noktaların çoğunluğu düz bir çizgi oluşturuyorsa uç değerler, çizgiye uyacak şekilde mantıklı olarak yorumlanamayacaktır.
    • Bir odadaki 12 farklı nesnenin sıcaklığını temsil eden bir veri kümesini düşünelim. Nesnelerin 11'inin 21°C civarında sıcaklığı varsa, ancak 12. nesne olan bir fırın 150°C sıcaklığa sahipse, üstünkörü bir inceleme ile fırının olası bir uç değer olduğu söylenebilir.
  2. 2
    Tüm veri noktalarını en düşükten en yükseğe doğru sırala. Veri kümesindeki uç değerleri hesaplarken ilk adım, veri kümesinin medyan (ortanca) değerini bulmaktır. Veri kümesindeki değerler en küçükten en büyüğe doğru sıralanmışsa bu görev büyük ölçüde kolaylaşır. Dolayısıyla, devam etmeden önce veri kümendeki değerleri bu şekilde sırala.
    • Yukarıdaki örnekle devam edelim. Bir odadaki birkaç nesnenin sıcaklığını temsil eden veri kümemiz: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Veri kümesindeki değerleri en küçükten en büyüğe doğru sıralarsak, yeni değer kümemiz şöyle olur: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3
    Veri kümesinin medyanını hesapla. Bir veri kümesinin medyanı, üzerinde ve altında verilerin yarısının bulunduğu noktadır; esasen bir veri kümesinin "orta" noktasıdır.[3] Veri kümesi tek sayıda nokta içeriyorsa bunu bulmak kolaydır; medyan, altında ve üstünde eşit sayıda değer bulunan noktadır. Ancak, eğer çift sayıda nokta varsa, o zaman tek bir orta nokta olmadığından, ortancayı bulmak için 2 orta noktanın ortalaması alınmalıdır. Uç değerleri hesaplarken medyan genellikle Q2 değişkenine atanır, bunun nedeni, medyanın daha sonra tanımlayacağımız alt ve üst çeyrekler olan Q1 ve Q3 arasında kalmasıdır.
    • Nokta sayısı çift olan veri kümeleri kafanı karıştırmasın; iki orta noktanın ortalaması çoğu zaman veri kümesinde görünmeyen bir sayı olacaktır ve bu sorun değildir. Ancak, eğer iki orta nokta aynı sayıysa ortalama, tabii ki bu sayı olacaktır ki bu da sorun değildir.
    • Örneğimizde, 12 noktamız var. Ortadaki 2 terim sırasıyla 6. ve 7. noktalar olan 70 ve 71'dir. Dolayısıyla, veri kümemizin medyanı bu iki noktanın ortalamasıdır: ((70 + 71) / 2) = 70,5.
  4. 4
    Alt çeyreği hesapla. Q1 değişkenini atayacağımız bu nokta, gözlemlerin yüzde 25'inin (veya dörtte birinin) belirlendiği veri noktasıdır. Başka bir deyişle bu, veri kümendeki medyanın altında olan noktaların orta noktasıdır. Eğer medyanın altındaki değerlerin sayısı çift sayı ise, ortancayı bulmak için yapmak zorunda kaldığın gibi, bir kez daha Q1'i bulmak için iki orta değerin ortalamasını bulman gerekir.
    • Örneğimizde, medyanın üzerinde 6 nokta ve altında 6 nokta bulunur. Yani, alt çeyreği bulmak için alttaki altı noktanın iki orta noktasının ortalamasını bulmamız gerekecektir. Alttaki 6 noktanın 3. ve 4. noktalarının her ikisi de 70'e eşittir. Dolayısıyla, ortalamaları ((70 + 70) / 2) = 70. 70, Q1 değerimiz olacak.
  5. 5
    Üst çeyreği hesapla. Q3 değişkeni atanan bu nokta, verilerin yüzde 25'inin üzerindeki veri noktasıdır. Q3'ü bulmak, Q1'i bulmakla hemen hemen aynıdır, ancak bu durumda, medyanın altındaki değil de üstündeki noktalar dikkate alınır.
    • Yukarıdaki örneğe devam edersek, medyanın üzerindeki 6 noktanın iki orta noktası 71 ve 72'dir. Bu 2 noktanın ortalaması ((71 + 72) / 2) = 71,5’tir. 71,5 Q3 değerimiz olacaktır.
  6. 6
    Çeyrekler açıklığını bul. Q1 ve Q3'ü tanımladığımıza göre, bu iki değişken arasındaki mesafeyi hesaplamamız gerekiyor. Q1 ile Q3 arasındaki mesafe, Q1'in Q3'ten çıkarılmasıyla bulunur. Çeyrekler açıklığı için elde ettiğin değer, veri kümendeki uç değer olmayan noktaların sınırlarını belirlemek için çok önemlidir.
    • Örneğimizde, Q1 ve Q3 için değerlerimiz sırasıyla 70 ve 71,5'tir. Çeyrekler açıklığını bulmak için: Q3 - Q1: 71,5 - 70 = 1,5.
    • Bu, Q1, Q3 veya her ikisinin de negatif sayı olması durumunda bile çalışır. Örneğin; eğer Q1 değerimiz -70 olsaydı, çeyrekler açıklığı 71,5 - (-70) = 141,5 olurdu, ki bu doğrudur.
  7. 7
    Veri kümesi için "iç sınırları" bul. Uç değerler, “iç sınır” ve “dış sınır” olarak adlandırılan bir dizi sayısal sınır içine düşüp düşmedikleri değerlendirilerek belirlenir.[4] Veri kümesinin iç sınırlarının dışına düşen bir nokta alt uç değer, dış sınırların dışına düşen ise üst uç değer olarak sınıflandırılır. Veri kümendeki iç sınırları bulmak için, önce çeyrekler açıklığını 1,5 ile çarp. Sonra sonucu Q3'e ekle ve Q1'den çıkar. Elde edilen iki değer, veri kümenin iç sınırlarıdır.
  8. 8
    Veri kümesi için "dış sınırları" bul. Bu, iç sınırlar ile aynı şekilde yapılır, sadece çeyrekler açıklığı 1,5 yerine 3 ile çarpılır. Sonuç daha sonra Q3'e eklenip Q1'den çıkarılarak dış çitin üst ve alt sınırlarını bulunur.
  9. 9
    Uç değerlerin "ihmal edilip edilmeyeceğini" belirlemek için nitel değerlendirmeyi kullan. Yukarıda açıklanan metodolojiyi kullanarak belirli noktaların alt uç değer, üst uç değer olduğunu veya uç değer olmadıklarını belirlemek mümkündür. Ancak, hata yapma; bir noktayı bir uç değer olarak tanımlamak, onun veri kümesinden çıkarılacak bir aday olduğunu gösterir, çıkarılması gereken bir nokta olduğunu değil. Bir uç değerin veri kümesindeki diğer noktalardan farklılık göstermesinin nedeni, uç değerin ihmal edilip edilmeyeceğinin belirlenmesinde çok önemlidir. Genellikle, bir tür hataya atfedilebilen uç değerler (örneğin; ölçüm, kayıt veya deneysel tasarım hatası) ihmal edilir.[5] Öte yandan, hataya atfedilmemiş olan ve öngörülemeyen yeni bilgileri veya eğilimleri ortaya çıkaran uç değerler genellikle ihmal edilmez.
    • Dikkate alınması gereken bir başka kriter uç değerlerin, veri kümesinin ortalamasını çarpıtacak veya yanıltıcı görünmesine neden olacak şekilde önemli ölçüde ortalamayı etkileyip etkilemediğidir. Bunu, özellikle veri kümenin ortalamasından sonuç çıkarmayı düşündüğünde dikkate almak önemlidir.
    • Örneğimizi değerlendirelim. Örneğimizde, fırının öngörülemeyen bir doğal kuvveti kullanarak 300 derecelik bir sıcaklığa ulaşması ihtimali oldukça düşük olduğundan, fırının kazara açık bırakılması nedeniyle anormal yüksek sıcaklığa ulaştığına neredeyse kesin olarak karar verebiliriz. Ayrıca, uç değeri ihmal etmezsek veri kümemizin ortalaması (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 derece iken uç değeri ihmal edersek ortalama (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 olur.
      • Uç değer, insan hatasıyla ilişkilendirilebildiğinden ve bu odanın ortalama sıcaklığının yaklaşık 90 derece olduğunu söylemek doğru olmayacağı için, uç değeri ihmal etmeyi tercih etmeliyiz.
  10. 10
    Uç değerleri elde tutmanın (bazen) önemini anla. Bazı uç değerler, hata sonucu ortaya çıkması ve/veya yanlış veya yanıltıcı yollarla sonuçları çarpıtması nedeniyle veri kümelerinden çıkarılmalı iken bazı uç değerler de korunmalıdır. Örneğin; bir uç değer gerçekten elde edilmiş gibi görünüyorsa (yani, hata sonucu değilse) ve/veya ölçülen olguya yeni bir bakış açısı kazandırıyorsa elden çıkarılmaması gerekir. Bilimsel deneyler, uç değerlerle uğraşırken özellikle hassas durumlardır. Bir uç değeri yanlışlıkla ihmal etmek, bazı yeni eğilimleri veya keşifleri işaret eden bilgilerin ihmal edilmesi anlamına gelebilir.
    • Örneğin; bir balık çiftliğindeki balık boyutunu artırmak için yeni bir ilaç tasarladığımızı varsayalım. Eski veri kümemizi ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) kullanacağız, ancak bu sefer her nokta, doğumdan sonra farklı bir deneysel ilaçla tedavi edilen balığın ulaştığı kütleyi (gram olarak) temsil edecek. Başka bir deyişle, ilk ilaç bir balığa 71 gram aldırmış, ikinci ilaç ise farklı bir balığa 70 gram aldırmış. Bu durumda, 300 hâlâ büyük bir uç değerdir, ancak bunu ihmal etmemeliyiz, çünkü bunun bir hatadan kaynaklanmadığını varsayarsak deneyimizdeki önemli bir başarıyı temsil eder. 300 gramlık bir balığa neden olan ilaç diğer ilaçlardan daha çok işe yaradı, bu yüzden bu nokta, veri kümemizdeki en az önemli değil en önemli olanıdır.
    Advertisement

İpuçlarıDüzenleniyor

  • Uç değerler bulunduğunda, veri kümesinden çıkarmadan önce mevcudiyetlerini açıklamaya çalış; bunlar dağılımdaki ölçüm hatalarını veya anormallikleri gösterebilir.

İhtiyacın Olan ŞeylerDüzenleniyor

  • Hesap Makinesi

About this wikiHow

Ortak Yazar:
wikiHow Editör Ekibi
Bu makale editörler ve araştırmacılardan oluşan, makalenin doğruluğu ile kapsamlılığını onaylayan, eğitimli bir ekip tarafından ortaklaşa yazılmıştır.
Kategoriler: Eğitim ve İletişim

Bu makale işine yaradı mı?

Evet
Hayır
Advertisement