التوزيع الطبيعي و أهميته
منحنى التوزيع الطبيعي Normal Distribution Curve هو من الأدوات كثيرة الاستخدام في التحاليل الإحصائية التي يحتاجها المدير والمهندس الصناعي. فدائما ما تسمع عن المنحنى الذي يشبه الناقوس وهو منحنى التوزيع الطبيعي. ومن أشهر تطبيقاته الإدارية تقييم المرؤوسين طبقا لهذا المنحنى أي بحيث يحقق التقييم نفس شكل التوزيع الطبيعي لضمان قدر من العدالة. ولمنحنى التوزيع الطبيعي استخدامه في دراسة البواقي في تحليل الانحدار وله علاقة وطيدة بخرائط الضبط Control Charts. لذلك فضلت أن نُمعِن النظر في منحنى التوزيع الطبيعي قبل أن نستفيض في خرائط الضبط (المراقبة). وإنني أحاول في هذه المقالة توضيح مفهوم منحنى التوزيع الطبيعي دون الدخول في تعقيدات حسابية.
ما معنى التوزيع الاحتمالي Probability Distribution؟
يمكن فهم التوزيع (التوزيع الاحتمالي) كشكل مشابه للمدرج التكراري Histogram ولكن المدرج التكراري يصف توزيع البيانات الحقيقية بينما التوزيعات الرياضية (النظرية) مثل التوزيع الطبيعي وغيره هي توزيعات نظرية لها معادلات محددة وجداول تبين الاحتمالات المختلفة ولذلك تسمى توزيعات احتمالية. فعندما نرسم المدرج التكراري لمتغير ما فإننا نحاول أن نتعرف على التوزيع الاحتمالي الذي يُشبهه لكي نستخدم هذا التوزيع الاحتمالي في التحاليل الإحصائية.
التوزيع يبين احتمالية أن يأخذ المتغير الذي ندرسه قيمة معينة أو أن يأخذ أقل أو أكثر من قيمة ما. فالتوزيع المنتظم Uniform يبين أن احتمالية أن يأخذ المتغير قيمة ما في مدى محدد متساوية بينما تجد الاحتماليات مختلفة في التوزيع الطبيعي. ففي التوزيع الطبيعي تكون الاحتمالية أعلى إذا كانت القيمة قريبة من المتوسط وتكون قليلة كلما ابتعدنا عن المتوسط. وهذه الاحتمالية يمكن تحديدها باستخدام الحاسوب أو الجداول.
افترض أنك تريد حساب محيط ومساحة منزلك. في البداية تقيس أبعاد الغرف ثم تقوم برسمها. بعد ذلك تبدأ في البحث عن أشكال هندسية تشابه أشكال الغرف مثل الشكل المستطيل أو المثلث أو شبه المنحرف أو المربع. وبعد تحديد الشكل الهندسي المشابه للغرفة تبدأ في حساب المحيط والمساحة باستخدام قوانين الهندسة الخاصة بكل شكل. هذا هو نفس الأمر بالنسبة لتغير متغير ما. إنك تقيس قيم هذا المتغير في فترة ما ثم تقوم برسمها كمدرج تكراري. بعد ذلك تبحث عن توزيع احتمالي يشبه هذا المدرج التكراري. وبعد تحديد التوزيع الاحتمالي المناسب تبدأ في استخدام جداوله أو استخدام الحاسوب للقيام ببعض التحاليل الخاصة بهذا المتغير.
الكثير من التحاليل الإحصائية تعتمد على توزيع البيانات بنفس التوزيع الطبيعي ولذلك فإننا نرسم المدرج التكراري ونحاول مقارنته بمنحنى التوزيع الطبيعي. وهناك تطبيقات تفترض توزيع أسي Exponential Distrintuion مثل نظرية خطوط الانتظار (الطوابير) أي أنها مبنية على افتراض أن زمن الخدمة يأخذ شكل التوزيع الأُسي.
والتوزيعات الاحتمالية لها أهمية في عمليات المحاكاة Simulation حيث نقوم بتحديد أقرب توزيع احتمالي للمدرج التكراري أي للتغيرات الحقيقية. وبناء عليه فإننا نستخدم هذا التوزيع في نموذج المحاكاة حيث يتم محاكاة التغير بنفس التوزيع ونفس القيم الحقيقية.
افترض أننا قمنا برسم المدرج التكراري لمجموعة بيانات وحصلنا على الشكل التالي.
يمكننا البحث عن توزيع رياضي يشبه هذا المدرج التكراري والذي نرسمه بالخط الأصفر في الرسم التالي. في هذه الحالة فإن التوزيع المناسب هو التوزيع الطبيعي.
التوزيع الطبيعي؟
التوزيع الطبيعي Normal Distribtion هو أشهر التوزيعات الاحتمالية وذلك لسببين. السبب الأول هو أن الكثير من الظواهر تتبع منحنى التوزيع الطبيعي. السبب الآخر هو أن هناك نظرية تقول أن متوسط قيم عينات متعددة يأخذ شكل التوزيع الطبيعي ولو لم يكن توزيع المتغير نفسه يتبع التوزيع الطبيعي. لذلك فإن التوزيع الطبيعي هو شيء محوري في علم الإحصاء.
منحنى التوزيع الطبيعي يشبه الجرس (الناقوس) ويتميز بوجود تماثل بين جانبيه الأيمن والأيسر حول المتوسط. ومن سمات منحنى التوزيع الطبيعي أن المتوسط يساوي الوسيط ويساوي المنوال. يتم تعريف منحنى التوزيع الطبيعي بقيمتين: المتوسط والانحراف المعياري. ويرمز عادة للمتوسط بـ µ وللانحراف المعياري بـ σ. الرسم التالي يبين شكل منحنى التوزيع الطبيعي وفي هذا المثال المتوسط µ = 8. لاحظ أن تماثل المنحنى يعني أن 50% من القيم هي أقل من المتوسط و50% من القيم هي أكبر من المتوسط وهذا يعني أن الوسيط يساوي المتوسط.
*** إذا لم تكن مصطلحات المتوسط والوسيط والمنوال والانحراف المعياري مألوفة للقارئ الكريم برجاء الرجوع للمقالتين التاليتين: التعامل مع البيانات، تلخيص البيانات. وكتذكرة سريعة فإن المتوسط هو مجموع القيم كلها مقسوما على عددها. والوسيط هو القيمة التي تكون 50% منا لقيم أكبر منها. والمنوال هو القيمة الأكثر تكررا. والانحراف المعياري هو مقياس لبعد جميع القيم عن المتوسط أي مقياس لتشتت القيم.
ولمنحنى التوزيع الطبيعي سمات رئيسية منها أن 68% من الاحتمالات تقع في حدود المتوسط ± الانحراف المعياري. و99.7% من الاحتمالات تقع في حدود المتوسط ±3 * الانحراف المعياري. فلو عرفنا المتوسط والانحراف المعياري يمكننا حساب هذه الاحتمالات. لاحظ أن احتمال وقوع المتغير بين قيمتين تُمَثل بالمساحة تحت المنحنى بين هاتين القيمتين. ولذلك يمكننا بمجرد النظر أن نقول إن وقوع قيمة المتغير في الرسم أدناه بين 8 و9 هي أعلى بكثير من وقوعه بين 10 و11 لأن المساحة تحت المنحنى بين 8 و9 اكبر بكثير منها بين 10 و 11.
ففي الشكل أعلاه يمكننا أن نقول أن قيمة هذا المتغير في 99.7% من الحالات تقع بين 5 و 11. وأن قيمة هذا المتغير تتراوح بين 7 و 9 في 68% من الحالات.
فعلى سبيل المثال لو وجدنا أن زمن التصنيع يتبع التوزيع الطبيعي بمتوسط 30 دقيقة وانحراف معياري 2 دقيقة فإنه يمكننا أن نقول أن 99.7% من الإنتاج يستغرق
30 ± 3 * 2= من 24 إلى 36 دقيقة
ولو وجدنا أن طول القطعة التي ننتجها يتبع التوزيع الطبيعي بمتوسط 10 مم وانحراف معياري 0.01 مم فإنه يمكننا مقارنة ذلك بالمواصفات المطلوبة. فمثلا يمكننا أن نقول أن 99.7% من الإنتاج سيحقق طول =
10 ± 3* 0.01 = من 9.97 إلى 10.03 مم
فلو كانت المواصفات تسمح بأن يكون هذا البعد بين 9.96 و10.04 مم فإننا نستنتج أننا في الجانب الآمن فيما يزيد عن 99.7% من الحالات. أما لو كانت المواصفات تشترط أن يكون هذا البعد بين 9.99 و 10.01 مم فإن المخاطرة ستكون كبيرة. فنحن نعلم أنه في 68% من الحالات يكون هذا الطول مساويا
10 ± 1* 0.01 = 9.99 إلى 10.01 مم
وبالتالي فإننا في هذه الحالة نتوقع أن نحقق المواصفات في 68% من الكمية المنتجة أي أن 32% من المحتمل أن يتجاوز المواصفات المطلوبة. ومن هنا نفكر في عدم القيام بهذه العملية أو استخدام طريقة إنتاج أخرى.
ولا يتوقف الأمر عند هذا الحد بل يمكننا تحديد احتمالية تجاوز أي قيمة وذلك من خلال الجداول أو باستخدام الحاسوب.
والتوزيع الطبيعي هو جزء أساسي من فكرة خرائط المراقبة. فالحدود القصوى والدنيا توضع عند µ ± 3 σ. لماذا؟ لأنه في حالة التوزيع الطبيعي فإن احتمالية وقوع القيم في هذا المدى هي 99.7% كما ذكرنا منذ قليل. أي أن القيمة لو كانت خارج هذا المدى فهي لا تنتمي لنفس التوزيع أي أن شيئا غير طبيعي قد حدث.
المساحة تحت المنحنى…لماذا؟
كما علمت فإن احتمالية وقوع المتغير بين قيمتين تقاس بالمساحة تحت المنحنى بين هاتين القيميتن. ولكن من أين لنا هذا المفهوم؟ دعنا نرجع إلى المدرج التكراري Histogram. انظر إلى المدرج التكراري أدناه والذي يبين زمن عملية ما بالأيام.
من الواضح أن الزمن متغير ولكن إن سألتك ما هي احتمالية أن يكون زمن العملية بين 20 و40 يوما؟ كيف ستفكر في الأمر؟ إنك ستنظر إلى الأعمدة التي تبين وقوع المتغير في هذا المدى. من لواضح أنهما أطول عمودين وبالتالي لإغن احتماليتهما كبيرة.
ماذا لو سألتك عن المقارنة بين احتمالية أن يكون الزمن من 90 إلى 100 يوم وبين أن يكون من 30 إلى 50 يوما؟ إنك ستجيب بمنتهي الثقة بأن احتمالية أن يكون الزمن من 90 إلى 100 يوم أقل بكثير من احتمالية أن يكون من 30 إلى 50 يوما. لماذا؟ لأنك وجدت أن العمود الذي يمثل وقوع المتغير من 90 إلى مائة قصير جدا بالنسبة للعمودين اللذين يمثلان وقوع المتغير من 30 إلى 50 يوما. فالواقع أنك تجمع طول الأعمدة وتقارنها لتحدد الاحتماليات. وطول الأعمدة يتناسب تماما مع المساحة التي تمثلها هذه الأعمدة لأن المساحة هي حاصل ضرب هذه الأطوال في عرض كل عمود والذي هو ثابت يساوي عشرة في مثالنا هذا.
ولذلك فإننا عندما نستخدم توزيع احتمالي مثل التوزيع الطبيعي أو المنتظم أو الأسي أوغيرهم فإننا نحدد الاحتماليات بالنظر للمساحة تحت المنحنى. فلو نظرنا للشكل أدناه لعلمنا أن وقوع هذا المتغير بين 6 و 8 (المساحة البنية اللون) هي أكبر بكثير من وقوعه بين 9 و11 (المساحة الزرقاء اللون). فهي نفس فكرة النظر للأعمدة في المدرج التكرراي.
ويمكننا بنفس الطريقة تقدير احتمالية أن يتجاوز المتغير قيمة ما أو يقل عنها. فمثلا لو أحببنا أن نعرف احتمالية أن يزيد هذا المتغير عن 10 فإننا ننظر إلى المساحة المبينة في الشكل أدناه.
ولو أحببنا أن نعرف احتمالية أن يقل هذا المتغير عن 5 فإننا ننظر إلى المساحة تحت المنحنى من قيمة 5 فما أقل وهي مساحة صغيرة جدا تقترب من الصفر (المساحة الزرقاء في الشكل أدناه).
ومن هنا نعرف لماذا كانت معضظم القيم (99.7%) في حدود µ ± 3*σ أي في هذا المثال من 5 إلى 11 لأن المساحة تحت المنحنى من 5 إلى 11 تكاد تكون هي المساحة كلها وتبقى مساحة ضئيلة جاعلى الجانبين. وعملية حساب احتماليات وقوع المتغير بين قيميتن أو أكببر من قيمة ما أو أقل من قيمة ما يتم تقديره على وجه الدقة باستخدام الجداول التي تعطي المساحة تحت المنحنى في كل جزء منه أو باستخدام الحاسوب.
تأثير تغير قيمة المتوسط أو الانحراف المعياري
الشكل التالي يبين تأثير تغير الانحراف المعياري مع ثبات المتوسط. إن ما يحدث هو أن المنحنى يقل انبعاجا كلما زادت قيمة الانحراف المعياري. وهذا مرتبط بأن الانحراف المعياري هو مقياس لتشتت المنحنى وبالتالي فكلما زاد الانحراف المعياري فإن هذا يعني أن المنحنى ينتشر على مدى أوسع. فعندما كان الانحراف المعياري يساوي 0.5 كان التوزيع قريب جدا من المتوسط بينما ازداد اتساعا عندما زادت قيمة الانحراف المعياري إلى 1 ثم ازداد اتساعا عندما وصلت قيمة الانحراف المعياري إلى 2.
أما تغير المتوسط فيظهر في الرسم التالي. فالانحراف المعياري لكل منحنى من هذه المنحنيات متساوٍ بينما المتوسط مختلف. لاحظ أن المنحنيات الثلاثة متشابهة تماما ولكن كل منها يتوزع حول متوسط مختلف.
شهد غازي حطاب اول ثانوي ادبي د