في الإحصاء ، الانحراف أو "الخارج" هو مسند ينحرف كثيرًا عن أي مسند آخر ضمن عينة أو مجموعة من البيانات (تسمى مجموعة المسند البيانات). في كثير من الأحيان ، يمكن أن يكون الانحراف في مجموعة المسند بمثابة تحذير للإحصائي من وجود خلل أو خطأ تجريبي في القياسات المأخوذة ، مما قد يؤدي إلى إزالة الإحصائي الخارج من مجموعة المسند. إذا أزال الإحصائي القيم المتطرفة من مجموعة المسند ، يمكن أن تكون الاستنتاجات المستخلصة من الدراسة مختلفة تمامًا. لذلك ، فإن معرفة كيفية حساب القيم المتطرفة وتحليلها أمر مهم للغاية لضمان الفهم الصحيح لمجموعة البيانات الإحصائية.
خطوة
الخطوة الأولى. تعرف على كيفية تحديد المسندات التي يحتمل أن تكون متطرفة
قبل أن نقرر ما إذا كنا سنزيل البيانات الخارجية من مجموعة المسند أم لا ، يجب علينا بالطبع تحديد البيانات التي لديها القدرة على أن تصبح قيمًا متطرفة. بشكل عام ، الانحراف هو مسند ينحرف كثيرًا عن البيانات الأخرى في مجموعة مسند واحدة - بعبارة أخرى ، الخارج هو "خارج" البيانات الأخرى. عادة ما يكون من السهل اكتشاف القيم المتطرفة في جدول البيانات أو (على وجه الخصوص) الرسم البياني. إذا تم وصف مجموعة واحدة من المسندات بصريًا باستخدام رسم بياني ، فسيظهر المسند الخارجي على أنه "بعيد جدًا" عن البيانات الأخرى. على سبيل المثال ، إذا كانت معظم البيانات في مجموعة مسند تشكل خطًا مستقيمًا ، فلن يتم تفسير البيانات الخارجية بشكل معقول على أنها تشكل هذا الخط.
لنلقِ نظرة على مجموعة من البيانات التي تمثل درجات حرارة 12 عنصرًا مختلفًا في الغرفة. إذا كانت درجة حرارة 11 جسمًا تبلغ حوالي 70 فهرنهايت (21 درجة مئوية) ، لكن درجة حرارة الجسم الثاني عشر ، الفرن ، تبلغ 300 فهرنهايت (150 درجة مئوية) ، يمكن أن نرى على الفور أن درجة حرارة الفرن من المحتمل جدًا أن تكون الخارج
الخطوة 2. رتب المسند في مجموعة من المسند من الأدنى إلى الأعلى
تتمثل الخطوة الأولى لحساب القيم المتطرفة في مجموعة مسند في العثور على الوسيط (القيمة الوسطى) لمجموعة الإسناد تلك. تصبح هذه المهمة بسيطة للغاية إذا تم ترتيب المساند في مجموعة من المسند من الأصغر إلى الأكبر. لذا ، قبل المتابعة ، رتب المسند في مجموعة مسند واحدة.
دعنا نكمل المثال أعلاه. هذه مجموعة بياناتنا التي تمثل درجات حرارة عدة كائنات في غرفة: {71 ، 70 ، 73 ، 70 ، 70 ، 69 ، 70 ، 72 ، 71 ، 300 ، 71 ، 69}. إذا رتبنا المراجع من الأدنى إلى الأعلى ، يصبح ترتيب المسند: {69 ، 69 ، 70 ، 70 ، 70 ، 70 ، 71 ، 71 ، 71 ، 72 ، 73 ، 300}
الخطوة 3. احسب وسيط مجموعة الإسناد
وسيط مجموعة الإسناد هو مسند حيث يكون النصف الآخر من المسند أعلى من ذلك المسند والنصف المتبقي تحته - وهذا الأساس هو أساسًا المسند الموجود في "منتصف" مجموعة الإسناد. إذا كان عدد المسند في مجموعة مسند غريبًا ، فمن السهل جدًا العثور عليه - الوسيط هو المسند الذي يحتوي على نفس العدد أعلى وأسفل. ومع ذلك ، إذا كان عدد المساند في مجموعة المسند متساويًا ، فبسبب عدم وجود دليل واحد يناسب الوسط ، يتم حساب المتوسطين في الوسط للعثور على الوسيط. تجدر الإشارة إلى أنه عند حساب القيم المتطرفة ، عادةً ما يتم تعيين الوسيط للمتغير Q2-ni لأن Q2 يقع بين Q1 و Q3 ، الربعين الأدنى والأعلى ، والذي سنناقشه لاحقًا.
- لا ينبغي الخلط بينه وبين مجموعة المسند حيث يكون عدد المساند متساويًا - غالبًا ما يعرض متوسط اثنين من المساند الأوسط رقمًا غير موجود في مجموعة المسند نفسها - هذا جيد. ومع ذلك ، إذا كان العددان الأوسطان هما نفس الرقم ، فسيكون المتوسط ، بالطبع ، هو نفس الرقم ، وهو أمر جيد أيضًا.
- في المثال أعلاه ، لدينا 12 مرجعًا. المساندان الأوسطان هما السادس والسابع المساندان -70 و 71 على التوالي. لذا ، فإن متوسط مجموعة مساندتنا هو متوسط هذين العددين: ((70 + 71) / 2) ، = 70.5.
الخطوة 4. احسب الربيع الأدنى
هذه القيمة ، التي نعطيها للمتغير Q1 ، هي المسند الذي يمثل 25 بالمائة (أو ربع) من البيانات. وبعبارة أخرى ، فإن المسند هو الذي يقسم المساند التي تكون أقل من المتوسط. إذا كان عدد المساند أقل من المتوسط متساويًا ، فيجب عليك مرة أخرى حساب المتوسطين في المنتصف للعثور على Q1 ، تمامًا كما تفعل لإيجاد الوسيط نفسه.
في مثالنا ، هناك 6 مسندات تقع فوق المتوسط ، و 6 مسندات تقع تحت المتوسط. هذا يعني أنه لإيجاد الربيع الأدنى ، سنحتاج إلى حساب متوسط المراجع 2 في منتصف 6 مساند أقل من المتوسط. المساندان الثالث والرابع المكونان من 6 مساند أقل من المتوسط 70 كلاهما. لذا ، فإن المتوسط هو ((70 + 70) / 2) ، = 70. 70 يصبح Q1 لدينا.
الخطوة 5. احسب الربيع الأعلى
هذه القيمة ، التي نعطيها للمتغير Q3 ، هي المسند الذي يوجد عليه 25 بالمائة من البيانات في مجموعة الإسناد. يشبه العثور على Q3 إلى حد كبير العثور على Q1 ، باستثناء أننا في هذه الحالة ننظر إلى المساند أعلى المتوسط ، وليس أقل من المتوسط.
استمرارًا لمثالنا أعلاه ، فإن المراجع 2 في منتصف 6 مساند فوق الوسيط هي 71 و 72. متوسط هذين المساند هو ((71 + 72) / 2) ، = 71, 5. 71 ، 5 كوننا Q3.
الخطوة 6. أوجد المسافة الربيعية
الآن وقد أوجدنا Q1 و Q3 ، علينا حساب المسافة بين هذين المتغيرين. تم العثور على المسافة من Q1 إلى Q3 بطرح Q1 من Q3. تعتبر القيم التي تحصل عليها للمسافات بين الشرائح الربعية مهمة جدًا لتحديد حدود مساند البيانات غير الخارجية في مجموعة البيانات الخاصة بك.
- في مثالنا ، قيمنا Q1 و Q3 هي 70 و 71 ، 5. لإيجاد المسافة الربيعية ، نطرح Q3 - Q1 = 71.5 - 70 = 1, 5.
- وتجدر الإشارة إلى أن هذا صحيح أيضًا حتى إذا كان Q1 أو Q3 أو كلاهما أرقامًا سالبة. على سبيل المثال ، إذا كانت قيمة Q1 لدينا هي -70 ، فإن المسافة الربعية الصحيحة ستكون 71.5 - (-70) = 141 ، 5.
الخطوة 7. ابحث عن "السياج الداخلي" في مجموعة الإسناد
تم العثور على القيم المتطرفة عن طريق التحقق مما إذا كان الإسناد يقع ضمن حدود الأرقام التي تسمى "السياج الداخلي" و "السياج الخارجي". يشار إلى المسند الذي يقع خارج السياج الداخلي لمجموعة الإسناد باسم "الخارج الطفيف" ، بينما يُشار إلى المسند الذي يقع خارج السياج الخارجي باسم "الخارج الرئيسي". للعثور على السياج الداخلي في مجموعة مسندك ، اضرب أولاً المسافة الربيعية بمقدار 1 ، 5. ثم أضف النتيجة في Q3 واطرحها أيضًا من Q1. القيمتان اللتان تحصل عليهما هما الحدود الداخلية لمجموعة مسندك.
-
في مثالنا ، المسافة الربيعية هي (71.5 - 70) ، أو 1.5. اضرب 1.5 في 1.5 مما ينتج عنه 2.25. نضيف هذا الرقم إلى Q3 ونطرح Q1 بهذا الرقم لإيجاد حدود السياج الداخلي على النحو التالي:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- لذا ، فإن حدود سياجنا الداخلي هي 67 و 75 و 73 و 75.
-
في مجموعتنا من البيانات ، فقط درجة حرارة الفرن ، 300 فهرنهايت - هي خارج هذه الحدود ، وبالتالي فإن هذا الإسناد هو شاذ طفيف. ومع ذلك ، ما زلنا لم نحسب ما إذا كانت درجة الحرارة هذه هي الانحراف الرئيسي ، لذلك لا تقفز إلى الاستنتاجات حتى ننتهي من حساباتنا.
الخطوة 8. ابحث عن "السياج الخارجي" في مجموعة الإسناد
يتم ذلك بنفس طريقة إيجاد السياج الداخلي ، باستثناء أن المسافة الربيعية مضروبة في 3 بدلاً من 1.5 ، ثم تضاف النتيجة إلى Q3 وتطرح من Q1 لإيجاد الحد العلوي والسفلي للسياج الخارجي.
-
في مثالنا ، ضرب المسافة الربيعية في 3 يعطي (1 ، 5 × 3) ، أو 4 ، 5. نجد حدود السياج الخارجي بالطريقة نفسها كما في السابق:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- حدود السياج الخارجي 65.5 و 76.
-
يشار إلى المسندات التي تقع خارج حدود السياج الخارجي على أنها القيم المتطرفة الرئيسية. في هذا المثال ، من الواضح أن درجة حرارة الفرن ، 300 فهرنهايت ، تقع خارج السياج الخارجي ، لذا فإن هذا الإسناد هو "بالتأكيد" متغير رئيسي.
الخطوة 9. استخدم الحكم النوعي لتحديد ما إذا كان سيتم "تجاهل" البيانات الخارجية أم لا
باستخدام الطريقة الموضحة أعلاه ، يمكن تحديد ما إذا كان المرجع هو مسند ثانوي ، أو مرجع رئيسي ، أو ليس استثناءً على الإطلاق. ومع ذلك ، لا تخطئ - فالعثور على مرجع كمرجع خارجي يشير فقط إلى أن المسند "مرشح" يجب إزالته من مجموعة المسند ، وليس كمرجع "ينبغي" التخلص منه. إن "السبب" الذي يتسبب في انحراف مسند غريب عن مسندات أخرى في مجموعة مسند مهم جدًا في تحديد ما إذا كان يجب التخلص منه أم لا. بشكل عام ، يمكن التخلص من الانحراف الناجم عن خطأ في القياس أو التسجيل أو التخطيط التجريبي ، على سبيل المثال. من ناحية أخرى ، القيم المتطرفة التي لا تنتج عن الخطأ والتي تشير إلى معلومات أو اتجاهات جديدة لم يتم توقعها من قبل عادة ما يتم تجاهلها "لا".
- هناك معيار آخر يجب مراعاته وهو ما إذا كان للشرط تأثير كبير على متوسط مجموعة الإسناد ، أي ما إذا كان الغريب يربكها أو يجعلها تبدو خاطئة. من المهم جدًا التفكير في ما إذا كنت تنوي استخلاص استنتاجات من متوسط مجموعة البيانات الخاصة بك.
-
دعنا ندرس مثالنا. في هذا المثال ، نظرًا لأنه من غير المحتمل "بدرجة كبيرة" أن يصل الفرن إلى 300 فهرنهايت من خلال قوى طبيعية غير متوقعة ، يمكننا أن نستنتج على وجه اليقين تقريبًا أن الفرن قد تم تشغيله عن طريق الخطأ ، مما أدى إلى خلل في البيانات بسبب ارتفاع درجة الحرارة. أيضًا ، إذا لم نقم بإزالة القيم المتطرفة ، فسيكون متوسط مجموعة البيانات لدينا (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 فهرنهايت (32 درجة مئوية)) ، بينما المتوسط إذا أزلنا القيم المتطرفة هو (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 فهرنهايت (21 درجة مئوية).
نظرًا لأن هذه القيم المتطرفة كانت ناتجة عن خطأ بشري ولأنه سيكون من الخطأ القول إن متوسط درجة حرارة الغرفة يصل إلى ما يقرب من 90 فهرنهايت (32 درجة مئوية) ، فمن الأفضل اختيار "التخلص" من القيم المتطرفة لدينا
الخطوة 10. تعرف على أهمية (في بعض الأحيان) الحفاظ على القيم المتطرفة
على الرغم من أنه يجب إزالة بعض القيم المتطرفة من مجموعة البيانات لأنها تسبب أخطاء و / أو تجعل النتائج غير دقيقة أو خاطئة ، يجب الحفاظ على بعض القيم المتطرفة. إذا ظهر ، على سبيل المثال ، أنه تم الحصول على قيمة خارجية بشكل طبيعي (أي ليس نتيجة لخطأ) و / أو قدمت منظورًا جديدًا للظاهرة قيد الدراسة ، فلا ينبغي إزالة الخارج من مجموعة البيانات. عادة ما يكون البحث العلمي موقفًا حساسًا للغاية عندما يتعلق الأمر بالقيم المتطرفة - يمكن أن تعني إزالة القيم المتطرفة بشكل غير صحيح تجاهل المعلومات التي تشير إلى اتجاه جديد أو اكتشاف جديد.