الفصـــل 25 من دستور المملكة : حرية الفكر والرأي والتعبير مكفولة بكل أشكالها. حرية الإبداع والنشر والعرض في المجالات الأدبية والفنية والبحت العلمي, والتقني مضمونة.


الثلاثاء، مارس 16، 2021

إمكانات النص الرقمي (3) ترجمة عبده حقي


القراءة المحوسبة

في بعض الأحيان ، يكون لدينا جميعًا مقطع سردي من كتاب ما وحتى نتذكر بعض الكلمات الرئيسية ، ولكننا نواجه صعوبة في العثور عليها عند تقليب الصفحات. أي شخص استخدم وظيفة "Find" في البرنامج للعثور على كلمة أو عبارة في ملف PDF أو

مستند MS Word أو صفحة ويب يعرف بالفعل فائدة التنسيق الرقمي ؛ هذه عملية غربلة لا تقدمها الصفحة الورقية المطبوعة. لا ينبغي الاستهانة بقيمة الإجراءات البسيطة مع النصوص الرقمية. على سبيل المثال ، إذا رغب المرء في فهم الطريقة التي يتحدث بها موليير عن "أفكاري" بشكل أفضل في إصدار PDF من الأعمال الكاملة [المرجع 16] فما عليك سوى إجراء بحث عن عبارة (كلمات بين علامات الاقتباس) في برنامج المعاينة أو Adobe Acrobat   لرؤية توافق يجعل من السهل التنقل بين كل تكرار (أي أن بعض مميزات تحليل النص متاحة للجميع . يتيح لنا البحث عن الكلمات الرئيسية العثور على ما كنا نبحث عنه ، ولكنه يسمح لنا أيضًا بالعثور على ما لم نعرفه. علاوة على ذلك فإن الاكتشاف هو أول مبادئ البحث العلمي "الأوليات العلمية" التي حددها جون أنسوورث عند الحديث عن المنهجيات في العلوم الإنسانية (بعضها الآخر هو التعليقات التوضيحية والمقارنة والإحالة وأخذ العينات والتوضيح والتمثيل [5].

كما هو الحال عادةً مع تحليل النص ، يبدو البحث عن الكلمات الرئيسية واضحًا ، ولكن يمكن أن يصبح معقدًا بشكل مفاجئ. دعنا نعود إلى مثال "أفكاري: سلسلة من الأحرف التي يجب أن يتمكن البرنامج من العثور عليها في نص المصدر. ولكن ماذا لو كان التسلسل في بداية الجملة وكان الحرف الأول كبيرًا؟ أو إذا كان هناك مسافتان أو نهاية سطر تفصل بين الكلمتين؟ ونتجاهل متغيرات التهجئة والأخطاء المطبعية وما إلى ذلك. تهتم بعض البرامج بتطبيع الاختلافات (مثل المعاينة) ، بينما يقدم البعض الآخر معاملات بحث متقدمة مثل MS Word ولا يزال البعض الآخر يسمح بما يسمى بالتعبيرات العادية مثل TextMate  المرجع 17(وهي صيغة مرنة للغاية لإجراء عمليات البحث. لذا ، إذا أردنا العثور على "فكرتي" أو "أفكارك" بطريقة مرنة جدًا ، فيمكن للمرء تحديد تعبير عادي مثل: / \ b [mt] a \ s + mind \ b / i ( تبدأ الشرطة المائلة التعبير ، \ b يشير إلى حد الكلمة ، [mt]  يطابق أي حرف ، \ s +  يعثر على واحد أو أكثر من أحرف المسافات البيضاء ، والشرطة المائلة الثانية تنهي التعبير ، ويشير الحرف i إلى أن التعبير ليس حساسًا لحالة الأحرف).

يؤدي البحث بالكلمات المفتاحية بطبيعة الحال إلى شكل ثانٍ من تحليل الكمبيوتر الذي تسهله الطبيعة الرقمية للنصوص: عد التردد. الترددات الفردية لا تساوي شيئًا في حد ذاتها ؛ فهي تستفيد من المقارنة ، إما بمصطلحات أخرى في نفس النص أو بتكرار مصطلح في وثيقة أخرى. إن القول على سبيل المثال ، أن هناك 305 تكرارات لكلمة "سيدي" في طبعتنا من Bourgeois gentilhomme [المرجع 18] من تأليف موليير يفتقر إلى السياق والوزن. وبالتالي قد يصبح الأمر أكثر إثارة للاهتمام عندما تفكر في أن نفس النص يحتوي فقط على 180 تكرارًا لكلمة "سيدتي" ، أي ما يقرب من نصف تكرارات كلمة "سيدي". يمكن للمرء أن يبدأ في الافتراض حول الوجود النسبي للجنسين في هذا النص ، ولكن مع العمليات الكمية ، يجب أن يكون المرء دائمًا على دراية بخصائص البيانات.

إن Le Bourgeois gentilhomme  هي مسرحية بالطبع ، ويظهر إصدارنا النصي البسيط اسم كل شخصية أمام إشارتها - يمكن إحباط تكرار كلمات معينة من خلال وجود عناصر نصية (إشارة إلى إشارات من السيد والسيدة) جوردان. إن تضمين أسماء الأحرف في العد ليس خاطئًا بالضرورة ، ولكن عليك فقط أن تكون على دراية به وتكون قادرًا على تبريره (النسبة النسبية للمصطلحين "سيدي" و "سيدتي" تظل كما هي تقريبًا مع أو بدون إشارات شخصية).

يمكنك مقارنة الترددات المطلقة في نفس المستند ، ولكن أيضًا الترددات المطلقة أو النسبية فيما يتعلق بالمستندات الأخرى. مفهوم التردد النسبي مهم: إذا كان طول وثيقتين بالضبط 1000 كلمة ، فإن التكرارات المطلقة والنسبية هي نفسها. ومع ذلك نظرًا لأن النصوص دائمًا ما تكون ذات أطوال مختلفة ، فمن المفيد غالبًا وضع القيم في منظورها الصحيح: 10 تكرارات لمصطلح في مستند مكون من 1000 كلمة لا تساوي 10 تكرارات في مستند مكون من 500 كلمة - المصطلح أكثر تكرارا مرتين في النص الثاني. لذلك نحن نبحث عن مقياس نسبي ؛ يمكننا القول أن النص الأول يحتوي على 100 تكرار لكل 10000 كلمة بينما يحتوي النص الثاني على 200 تكرار لكل 10000 كلمة (المقياس لا يهم ، الشيء المهم هو إيجاد طريقة لمقارنة القيم).

يتبع


0 التعليقات: