http://www.elshami.com

information theory
نظرية المعلومات

أسلوب رياضي يتعامل مع خصائص المعلومات وإرسالها. وهي تعتبر جزءا من النظرية الرياضية للإحصاء والإحصاء الرياضي لقياس مفهوم المعلومات. وتركز نظرية المعلومات على أوجه الاتصال، مثل كمية البيانات، ومدى الإرسال، وسعة قناة الإرسال، وتداخل الإشارات، والتكرار، وصحة الإرسال، وتصحيح الأخطاء، وذلك من إرسال البيانات عبر الكبلات حتى تدفقها إلى المجتمع ككل. ويعتقد أن نظرية المعلومات بدأت تتشكل عندما نشر   Claude E. Shannon (1916-2001)  مقالة بعنوان:

A Mathematical Theory of Communication

في  Bell System Technical Journal  في أكتوبر  1948  عندما كان يعمل في معامل بل  Bell Laboratories  بالولايات المتحدة وطبقها في مجال هندسة الاتصالات.

والنظرية تعتبر فرعا من النظرية الإحصائية لعلوم الاتصال، وهي أيضا على علاقة بميادين أخرى، منها التحسيب. وقد استفاد شانون من أعمال  Harry Nyquist (1889-1976)  في تحديد سعة الحزمة المطلوبة لبث المعلومات، وأعمال  Ralph Hartley (1888-1970)  في بث المعلومات والذي قال إن مجموع كمية المعلومات المرسلة تتناسب مع مدى الترددات المرسلة وزمن الإرسال. وكان  Nyquist and Hartley     يعملان أيضا في  Bell Laboratories.

وقد أوجدت النظرية وسيلة كمية لقياس المحتوي المعلوماتي للرسائل   message   كما أوجدت أكفأ الوسائل لبثها. وعلى الرغم من كونها جزءا من علوم الاتصالات التطبيقية، إلا أنها فتحت الطريق للأبحاث في العلوم الرياضية البحتة.

 

1.  التطبيقات

وتطبق النظرية في ميادين كثيرة، منها الرياضة البحتة والتطبيقية، ونظرية الاتصالات، والسبرنيتيقا  cybernetics  والحاسبات، وماكينات الترجمة، وعلم الوراثة، والعلوم النفسية، وفي تشخيص الأمراض كذلك. ففي العلوم النفسية، مثلا، جرت عدة دراسات فيما يتعلق بأقصى الدرجات التي يمكن للإنسان أن يستوعب بها المعلومات. ولكن الاستخدام الأساسي كان في علوم الاتصالات، وخصوصا في تصميم أجهزة الاتصالات الذكية، واختيار الأكواد المناسبة وبث الإشارات بدون حدوث أخطاء بسرعة تصل إلى درجة سعة القناة. والجزء الخاص بالإرسال في النظرية لا يهتم بمعنى الرسالة ولكنه يهتم بتوصيل الرسالة بكل أمانة، كما هي، إلى الطرف المستقبل بدون ضياع أي جزء منها. وقبل وصف النتائج الهامة للنظرية يجب تعريف بعض المفاهيم الأساسية مثل: مصادر المعلومات، والمحتوى المعلوماتي للرسالة، والأنتروبيا، والضوضاء، والحشو، وسعة القناة التي ترسل عبرها الرسالة.

2. مصادر المعلومات

يعتبر كلام البشر من أوضح الأمثلة على مصادر المعلومات. فاللغة العربية، مثلا، تتألف من 28 حرفا حيث تتجمع الحروف في مجموعات لتؤلف الكلمات أو الرسائل. كما يعتبر المصباح الومضي مصدرا للمعلومات حيث يحتوي على عنصرين فقط، إما "مضيء " أو "مطفأ". ولا يشترط أن يكون عدد مصادر المعلومات محدودا بعدد معين. فالأمواج الصوتية الصادرة من آلة موسيقية كالترمبون لها طبقات صوتية لا نهائية تشكل عناصر "لغتها".

 

3. المحتوى المعلوماتي

في مسائل الاتصالات، يكون التعامل مع المصادر التي تبث الإشارات ذات الطبيعة الإحصائية. فلكل عنصر من عناصر المصدر درجة احتمال للبث - فمثلا، في اللغة الانجليزية نجد أن نسبة احتمال ورود حرف  "e"  في الرسائل أعلى من ورود حرف  "z".  وبينما يمكننا معرفة احتمالية ورود الحروف المفردة، فإن تلك المعرفة لا تكون مؤكدة لمعرفة أي الإشارات ستكون التالية في الإرسال. ولكن التساؤل الذي أثاره ثم أجاب عليه شانون كان كالتالي: هل هناك مقياس مناسب لعدم التأكد أو بمعنى آخر لعنصر المفاجأة الذي يمكن أن يقترن بمصدر احتمالي من هذا النوع ؟ بالإضافة إلى أن مثل هذا المقياس يجب أن يعتمد فقط على احتماليات الرسالة وليس على الطبيعة المادية للإشارات، مثل قوتها أو مصدرها المادي.

ولتبسيط المسألة دعنا نفترض أننا نرسل إشارات في لغة ذات عنصرين فقط "0", "1"،. أضف إلى ذلك أننا سنحاول إيجاد مقياس لمحتوى المعلومات لتلك اللغة. فإذا افترضنا أن عنصرا واحدا يتم إرساله أو بثه طول الوقت، فإن الرسالة التي تتألف كلها من خيط من "1"،   يعني  مثلا  (111111  الخ.)    لن تحمل أية معلومات، لأن المستقبل يمكنه دائما أن يتنبأ بكل دقة بالعنصر الذي سيصل إليه في كل مرة يحدث فيها الإرسال.

سنفترض الآن أن الرمز "1" يرسل بنسبة     63/64  في المتوسط طول الوقت، فإنه عند استقبال هذا الرمز فإن المعلومات التي يحصل عليها تكون ضئيلة جدا لأن المستقبل يمكنه أن يخمن وصول هذا الرمز كما أن تخمينه سيكون صحيحا معظم الوقت. وبهذا المفهوم فإنه عند استقبال  "0" فإن نسبة كبيرة من المعلومات يكون قد تم الحصول عليها. وعليه فإنه كلما زادت "ندرة" الرمز، زاد المحتوى المعلوماتي.

من هذه المناقشة البسيطة نرى أن المقياس الكمي للمحتوى المعلوماتي للرمز يجب أن يزيد كلما قلت احتمالية إرسال الرمز. فإذا كانت الاحتمالية تساوي "واحد" (أي أن الرمز يتم إرساله باستمرار) فان المحتوى المعلوماتي يجب أن يساوي صفرا. والاقتران الرياضي  mathematical function  الذي يساوى الصفر عندما يكون المتغير المستقل  independent variable  واحد، هو اللوغاريتم في الشكل (1).

 

شكل 1

 

وعلى هذا افترض شانون أن المحتوى المعلوماتي  I  للرمز يجب أن يقاس بالمعادلة التالية:

I =  - log2 p

 

حيث    log2 p    هى احتمالية  probability إرسال الرمز ويلاحظ أن  I  تكون دائما موجبة، طالما أن  P، أي الاحتمال، يجب أن يتراوح مداه من الصفر إلى واحد، حتى يكون لوغاريتمه دائما سالبا أو  صفرا . وأساس اللوغاريتم عادة يكون  2   لتسهيلعملية الحساب (log2). ويمكن تمثيل المقياس الذي يتطابق مع المعيار عاليه كما يلي:

أ) يتزايد المحتوى المعلوماتي للرمز كلما قلت إحتمالية إرسال ذلك الرمز.

ب) ان المحتوى المعلوماتي للرمز الذي تساوي احتمالية ارساله واحد يكون صفرا.

ج) كلما زادت ندرة الرمز زاد المحتوى المعلوماتي. ويوضح الشكل (1) المحتوى المعلوماتي المصاحب للرموز ذات الاحتمالات المختلفة. ومن الشكل 1  نرى أن المحتوى المعلوماتي للرمز الذي يساوي احتماله 1/2 يساوي الواحد الصحيح   unity.

 

4. الأنتروبيا أو درجة التعادل

قدمت المناقشة عاليه طريقة لحساب المحتوى المعلوماتي لرمز مفرد، ولكن الهدف هنا هو إيجاد مقياس لمتوسط المحتوى المعلوماتي لمصدر بأكمله، وهو ما يمثل جميع الرموز المتاحة للإرسال. ومثل هذا المتوسط للمحتوى المعلوماتي هو ما يسمى بأنتروبيا المصدر source entropy أو درجة تعادله. (ولفظ أنتروبيا مستعار من الديناميكا الحرارية حيث يستخدم كمقياس للعشوائية الكلية للنظام أو الجهاز. وكما سيتضح، فإن مفهوم الأنتروبيا في نظرية المعلومات يمكن اعتباره مقياسا للعشوائية). ففي النظام الثنائي تكون الأنتروبيا H هي:

 

H = - p1 log2 p1 - p2 log2 p2

 

وعامة في حالة المصدر الذي يحتوي على n من الرموز فإن:

H = p1 log2 p1 - p2 log2 p2 ... - pn log2 pn

 

ويمثل الشكل رقم (2) كيف تتغير قيمة  H  مع احتمالية الرمز في النظام الثنائي.

 

شكل 2

 

أمثلة: في النظام الثنائي ذي الاحتمالات المتساوية في الإرسال، أي أن " 0 " يرسل دائما نصف الوقت وكذلك "1". إذا أحللنا:

 

p1 = ½  p2 = 1/2

في الصيغة عاليه، فإننا نجد أن

 

H = -1/2 (-1) -1/2 (-1) = 1

 

حيث أن:

log2 ½ = -1

 

ويلاحظ في هذا النظام أن عدد الرموز المطلوبة لكل عنصر يساوي واحد. والآن، تخيل نظاما مكونا من أربع رسائل ذات احتماليات متساوية، مثل الشمال والجنوب والشرق والغرب. والنظام الثنائي المقابل لها يمكن أن يكون   10, 01, 11, 00  وعلى هذا يمكن تمثيل كل رسالة برقمين ثنائيين. فإذا قمنا بحساب    فإننا سنجد أن    H=2  وقد عرفنا من المثال الأول أن  H=1 لنظام مكون من 2  ذي عناصر متساوية في الاحتمال وأن  H=2  في نظام مكون من 2، وأن قيمة  H  في كل مرة كانت تساوي عدد الأرقام التي تمثل ذلك الرمز. وفي الحقيقة فإنه إذا وجد  2 عنصر ذو احتمال متساو في أي مصدر للمعلومات، فإنه يمكن ايجاد كود باستعمال H أرقام ثنائية لكل رمز. وبهذا فان قيمة H لأي مصدر معلومات يمكن اعتباره عدد الأرقام الثنائية المطلوبة لتمثيل عنصر في هذا المصدر. ولهذا فإن تلك الوحدات الممثلة لقيمة H تسمى بتات bits / للرمز، حيث يستخدم اللفظ  بت بالأرقام الثنائية   binary digits

فإذا لم تكن الرموز متساوية في درجة الاحتمال، فإنه من المرغوب فيه ايجاد كود يستخدم تتابعات قصيرة من الأرقام للرموز الأكثر احتمالا، وتتابعات طويلة للرموز الأقل احتمالا. ومثل هذا الكود سيوفر أموالا طائلة عن طريق تقصير متوسط عدد البتات لكل رمز. وان كود     Morse code    مثلا،  يسجل الاحتماليات الانفرادية لكل حرف ويخصص أكوادا قصيرة (نقطة أو نقطتين بالإضافة إلى شرط) للأحرف الشائعة التي تستعمل كثيرا، مثل حرف "e  " وأكوادا طويلة لحرف مثل" x ".

 والآن يمكننا وضع أساس نظرية المعلومات كالآتي: لأي مصدر ثنائي ذي أنتروبيا (درجة تعادل) H بت للرمز، فإن أكفأ كود ممكن يجب أن يستخدم في المتوسط على الأقل H   بت للرمز. وهذا يعتبر هاما للغاية في الاعتبارات العملية حيث يتيح للمشتغلين بنظرية الأكواد تحديد أكفأ الأكواد عند الاستخدام.

 

5. الضوضاء والحشو

عند انتقال الرسالة من المرسل إلى المستقبل، فإنها تكون معرضة للشواش (المسموع) static    والتداخل    interference  والشواش (المرئي)  snow  وأية أشكال أخرى عشوائية غير مرغوب فيها سواء كانت مضافة أو محذوفة أو أية تغييرات مما يطلق عليها عامة لفظ ضوضاء  noise. وهناك طرق متعددة للتصدي للضوضاء، إذ يمكننا مثلا، إعادة إرسال كل الرسالة أو إعادة إرسال أجزاءها التي تعتبر ذات أهمية. ولكن ذلك لن يكون كافيا. وهناك وسيلة للتصدي للضوضاء وذلك عن طريق إضافة نوع من الحشو أو الإضافة redundancy إلى الكود. فالعنصر المضاف هو عنصر ليس ضروريا للإدلال بمعنى الرسالة ولكن يعمل على الإدلال عن الأخطاء إذا لم تتطابق مع جزء سابق من الرسالة. وكمثال، إذا أخذنا مصدرا ذا احتمال متساو والذي تكون عناصره هي الشمال والجنوب والشرق والغرب، فإن H لهذا النظام ستكون 2 وعليه، فإنه يمكن تكويده كما يلي:

شمال 00   شرق 10

جنوب01   غرب 11

ولكن، هب أن خطأ حدث عند الإرسال مغيرا "0" إلى "1". فإن رسالة الشمال يمكن أن تقرأ "جنوب ".

والآن افترض أننا استخدمنا الكود الإضافي.

شمال 001   شرق 100

جنوب 010   غرب 111

فلن يصبح في إمكان خطأ واحد أن يُحدثَ خطأً في الرسالة، وبدلا من ذلك، فإن أي كلمة لا معنى لها تصل سوف تخطر المستقبل عن وجود خطأ. إلا إذا حدث خطآن في الكود المكون من ثلاثة حروف فإن رسالة خاطئة سوف تنتج عن ذلك. فإذا كانت نسبة حدوث أخطاء في الكود الأول هي 1 % طول الوقت، فإن كلمة واحدة من كل مائة كلمة تستقبل سوف تكون خطأ. أما في حالة الكود الإضافي إذا كانت النسبة 1 % فإن كلمة واحدة من 10000 كلمة مستقبلة ستكون خطأ. فإذا زادت الأرقام الثنائية في كل رسالة إلى 50% مثلا فإن نسبة الخطأ يمكن إنقاصها حوالي 10000%.

 كانت العناصر التي أضيفت في الأكواد عاليه أمثلة على الحشو الاصطناعي  artificial redundancy  ذلك الحشو الذي يضاف إلى الكود لتقليل نسبة الخطأ. ولكن مصادر المعلومات يمكن أن تمتلك حشوا طبيعيا natural  redundancy ليس من الضرورة أن يقلل نسبة الخطأ. فمثلا في اللغة الانجليزية لا توجد كلمة تحتوي على الحرف "q"  ولا يتبعه حرف  u  ولهذا فان حرف  u   يعتبر حشوا طبيعيا، ويمكن ارسال الكلمة التي تحتوي على حرف "q" بدون ارسال حرف"  u" وذلك لتوفير تكاليف الإرسال. وعليه فإنه من أجل إنشاء كود يجب أولا إزالة الحشو الطبيعي من المصدر ثم إضافة الحشو الاصطناعي.

 

6. سعة القناة

هناك مفهوم أساسي آخر قدمه شانون وهو سعة القناة. "فالقناة" ببساطة هي الوسيط الذي تنتقل عبره الرسالة، مثل سلك التليفون، أو الهواء الذي تنتقل عبره الموجات الصوتية. ومهما يكن الوسيط، فإن له سعة معينة   capacity-C  وهي تقاس بعدد البتات في الثانية  bits per second. وهذه القيمة تعتمد على عدد البتات التي يمكن أن تبثها القناة في الثانية الواحدة في ظروف مثالية (بلا شواش). فإذا تم تحديد C لأي قناة فإنه يمكن مقارنتها بالأنتروبيا H لأي مصدر للمعلومات.

والسؤال الأساسي في نظرية الاتصالات يهتم باحتمال تخفيض الأخطاء المتضمنة في إرسال رسالة عبر قناة مفعمة بالضجيج. فالقناة ذات السعة C ومصدر معلومات ذي الأنتروبيا H إذا كانت H أقل من  C، فإنه يوجد كود من شأنه تقليل الأخطاء إلى أقل نسبة ترددات ممكنة حسب الرغبة. فإذا كانت H أكبر من  C، فإنه لا يوجد كود مما سينشأ عنه دائما إحتمال للخطأ وهو ما يسمى بالغموض أو الالتباس equivocation  والذي لا يمكن تخفيضه لأقل من قيمة (H-C) بتات في الثانية. ولكن يوجد حتما كود يقلل الالتباس الى تلك القيمة.

وهذه النظرية مثيرة في الواقع من حيث عموميتها، حيث أنها تطبق على جميع مصادر المعلومات والوسائل الإعلامية التي ترسل عبرها المعلومات. فالعبارة التي تقرر أن الأخطاء يمكن تخفيضها بالضرورة إلى الصفر، تحت شروط معينة، من الصعب تصديقها. ومهما يكن، فإنها تؤيدها التجارب التي أجريت على الأنظمة المختلفة. وقد يُعتقد أن الطريقة التي يمكن بها تخفيض الأخطاء هي إبطاء عملية البث - يعني الحديث ببطء ووضوح. ولكن العكس هو الصحيح، إذ أنه يجب ملء القناة، أي إرسال أقصى عدد يمكن أن تستوعبه القناة من البتات في الثانية، واستخدام كود إضافي كما ذكر سابقا وبهذه الطريقة لن يحدث خطأ عند الاستقبال إلا إذا حدثت مجموعة متعاقبة من الأخطاء.

 

7. القناة الثنائية المتماثلة

سنطبق هنا ما سبق أن بيناه من أفكار. هب أن هناك مصدرا ثنائيا ذا احتمالات متساوية حيث يرسل كل رمز بدون أخطاء باحتمال p

وباحتمال حدوث أخطاء:   q = 1 – p  (الشكل 3). وللمصدر أنتروبيا H تساوي 1 بت للرمز، مع سعة قناة   C، وهي أقل من H بمقدار "الضوضاء"، في القناة:

 

C= 1 + p log p + q log q

 

شكل 3

 

فإذا حدث مثلا خطأ مرة واحدة كل 64 مرة، فإن السعة  C تساوي:

 

C = 1 + 63/64 log 63/64 + 1/64 log 1/64

= 1 - 0.116 = 0.884

 

وعلى هذا تكون السعة قد انخفضت إلى 88% من مقدارها في الظروف غير الضوضائية.

 

8. التكويد المناسب

اهتمت المناقشة السابقة بالخصائص الرياضية البحتة لنظرية المعلومات،

وقد وجد أن التكويد الخالي من الأخطاء يزيد من طول الرسالة. ولكن في الحياة العملية يجب أخذ التكاليف في الاعتبار وهي التي تزيد بازدياد طول الرسالة. وعلى هذا فإنه يجب إجراء بعض التعديلات على تلك المتطلبات المتعارضة. ففي الحالات البسيطة عندما تكون تكاليف الرموز متساوية فإن متوسط تكاليف الرسالة يصبح جزئيا بالنسبة لمتوسط طولها      وتعرف     

بأنها مجموع احتمالات كل رسالة   

مضروبة في طولهامضروبة في طولها   :  

 

ومن الواضح بأنه بالدراسة المناسبة لاحتمالية الرسالة، فإنه يمكن وضع الأكواد المناسبة التي تقلل متوسط طول الكلمة       ولكن كفاية إجراءات التكويد يمكن تعريفها إذا عرفنا فقط الحد الأدنى لـ    . وعلى هذا فإن السؤال يكون كالآتي: لمجموعة من الرسائل ولأبجدية معينة،

 

ما هي القيمة الدنيا  لـ     التي يمكن الحصول عليها؟  (حيث أننا وجدنا سابقا أن قيمة     الدنيا في نظام ثنائي متساوي الاحتمالية تساوي  H). والآن فإن السؤال يعمم بالنسبة لأي نظام. والنتيجة تكون كالآتي:

 

 

 

حيث D هي عدد الرموز في الأبجدية. ويتبع ذلك أن الكفاية n في إجراء الترميز يمكن قياسه بالمعادلة:

 

 

 

وأن الحشو الذي نوقش سابقا يساوي: 1-n

 

مثال: في حالة الحشو في مثال الشمال والجنوب والشرق والغرب فإن متوسط طول كل رسالة كان ثلاثة أرقام ثنائية على الرغم من كون H تساوي 2.  وعلى هذا فإن الكفاية تكون:

 

 

 

وعلى هذا فإن الحشو يساوي 33%

والآن لنأخذ مثالا أكثر تعقيدا. هب أن على المصدر أن يبث أربع رسائل   m1, m2, m3, m4   ذات احتمالات كالآتي:

 

½, ¼, 1/8, 1/8

 

عبر قناة ثنائية (ومرة أخرى فإن  D = 2)  لا ضوضائية، فإن  التكويد وفك التكويد يكون كالآتي:

 

m1    0                 m3  110

m2  10                 m4  111

 

ونجد في تلك الحالة أن:

l = 1 ¾ ,  H = 1 3/4

 

وعلى ذلك تكون الكفاية:   100%  وسيكون الحشو صفرا.

وفي النهاية نستطيع القول بأن نتائج نظرية المعلومات تدلنا على أننا لسنا بحاجة للبحث عن كود أكثر كفاية- لأن مثل هذا الكود غير موجود بالمرة.