في مقالته التي نشرها عام 1985 بعنوان "بعض الأفكار حول الحالة المعرفية للنص الإلكتروني" ، وصف سيرج لوزينيان تداعيات النص الرقمي كما يلي :
يتميز النص المغناطيسي أو الإلكتروني بخصائص المرونة التي يتجاهلها النص المطبوع. لا يمكن نقل الأحرف والكلمات المضمنة في الورقة أو إعادة ترتيبها أو تعديلها ، بينما الأحرف والكلمات الممغنطة متحركة تمامًا. هذه الميزة الخاصة بالنص الإلكتروني تجعل من الممكن تطبيق إجراءات التلاعب الخوارزمية المختلفة عليه وذلك بفضل الكمبيوتر [2].
لا شيء في
التنسيق الرقمي يتطلب إعادة تنظيم الحروف والكلمات (كما يتضح من الغالبية العظمى
من الإصدارات الرقمية). من ناحية أخرى من الممكن قطع النص المطبوع كما فعل
الدادائيون بطريقة مرحة [المرجع 3] أو بطريقة أقل مرحًا ولكن قبل ذلك بوقت طويل ،
رهبان القرن الثالث عشر الذين اخترعوا التوافق من خلال إعادة تنظيم النص من الكتاب
المقدس من خلال كل تكرار لكلمة رئيسية مع القليل من السياق. ببساطة ، تجعل طبيعة
النص الرقمي من السهل قصه وإعادة تنظيمه ، كما أنه يفسح المجال للتحليل بشكل
طبيعي. استعارة المصطلحات من مجال التفاعل بين الإنسان والآلة ، يمكن للمرء أن
يتحدث عن إتاحة [التعريف 2] للنص الرقمي: تقترح بنية المعلومات النصية في الوحدات
المتنقلة نفسها استخدامها للتحليل.
وسنعود إلى
إمكانيات التحليل المحوسب في القسم التالي ، لكن الأمر يستحق الخوض للحظة في
البساطة الخادعة للنص الرقمي لأنه بدون فهم المادة الخام التي يعمل بها المرء ،
يصعب فهمه. أي فهم حقًا ما يتم بناؤه.
كما ذكرنا
سابقًا ، يعمل الكمبيوتر كنظام ثنائي يقوم بمعالجة المعلومات المشفرة على مستوى
أولي في 0 و 1 والذي يمثل لاحقًا وجود أو عدم وجود التيار في الترانزستور الذي
يتحكم في الدوائر المنطقية . من اللافت للنظر أن كل سحر الكمبيوتر أصبح ممكنًا من
خلال هذه الثنائية الأولية ذات البساطة الكبيرة: الكلمات في نص رقمي ، والطلبات
الفورية تقريبًا لمحرك بحث على مئات المليارات من الصفحات المفهرسة ، والرسومات
الواقعية للعبة الفيديو ، النظام الذي يدير الحركات المعقدة لطائرة تجارية ، وما
إلى ذلك.
إذا أخذنا 26
حرفًا من الأبجدية الرومانية ، فإن 5 بتات (5 أعمدة من 0 و 1) تكفي لتمثيل كل
الاحتمالات [3]. في الواقع في فجر عصر الكمبيوتر (في الأربعينيات والخمسينيات من
القرن الماضي) ، تم تمثيل النصوص على وجه التحديد باستخدام 5 بتات ، ولكن تم
استخدام هذا فقط للأحرف الكبيرة. قد يتطلب الأمر 52 احتمالًا على الأقل لتضمين
الأحرف الصغيرة أيضًا ، ناهيك عن الأحرف التي تحتوي على علامات التشكيل وعلامات
الترقيم وغيرها من العلامات المطبعية ومتغيرات المسافة البيضاء (مسافة مفردة ،
ومسافة غير منقسمة ، ومسافة علامة تبويب ، ونهاية سطر ، وما إلى ذلك) . يتتبع
تاريخ الحوسبة أيضًا تقدمًا في مجموعات الأحرف الكبيرة والشاملة بشكل متزايد
[المرجع 4]: 7 بت (128 احتمالًا) لـ ASCII [المرجع
5] في عام 1963 ، 8 بت (256 احتمالًا) لـ "ASCII الممتد [المرجع 6] ، وما فوق حتى 16 بت
لـ
Unicode يمكن
أن يمثل
UTF-32 ما
يصل إلى 4،294،967،296 احتمالًا [المرجع 7] . قد يتساءل المرء لماذا لم ننشئ مجموعة
شخصيات رائعة منذ البداية ، لكن دعونا لا ننسى أن الذاكرة كانت ثمينة في الحوسبة
في ذلك الوقت. كان نفس المبدأ لتمثيل السنوات برقمين الذي تسببا في الكثير من
القلق في نهاية الألفية [المرجع 8]. حجم 4 كيلوبايت المتاح في Apple II 1977 هو أصغر 1،000،000 مرة من 4 GB المتوفرة في طراز كمبيوتر محمول أساسي
اليوم..
لا يقل توحيد
حجم مجموعات الأحرف عن أهمية توحيدها. لا شيء من حيث التعريف يعرّف الحرف A على أنه الرمز العشري 65 مثل ASCII و ISO-8859-1 و Unicode [ref9]) ؛ إنها مجرد اتفاق. ببساطة ، لكي تتحدث
الأنظمة مع بعضها البعض ، ولكي تكون هناك إمكانية التشغيل البيني للبيانات ،
ولتجنب برج بابل ، فإن المعايير ضرورية للشخصيات.
الشيء نفسه
ينطبق على تنسيقات المستندات. أبسط تنسيق هو مستند نص عادي ، لكن هذا التنسيق لا
يسمح لك بتحديد مجموعة الأحرف المستخدمة ، مما يتسبب في مشاكل للنص الفرنسي الذي
سيعرض بشكل مختلف اعتمادًا على ما إذا كان لاتينيًا. -1 [المرجع 10] ، Mac OS Roman المرجع 11 ، Unicode أو غير ذلك. يمكن أن يعبر النص المنسق عن ترميز
الأحرف ، ولكن أي تعليمات تنسيق تأتي بتكلفة كبيرة لتعقيد التنسيق. وبالتالي فكلما
كان التنسيق أكثر تعقيدًا ، كلما كان من الضروري أن يكون برنامج المعالجة أكثر
تعقيدًا ، وكلما زادت استدامة التنسيق ، خاصة بالنسبة لما يسمى بالتنسيقات
الاحتكارية أو
المغلقة
[ref12]. هذا
المنطق بالذات هو الذي دفع مايكل هارت ، مؤسس مشروع جوتنبرج [المرجع 13] إلى تفضيل
تنسيق النص العادي لمجموعته من نصوص المجال العام التي تضم الآن حوالي 40.000 عنوانا
. لقد أثبت تنسيق
ePub المفتوح الذي يستخدم جزئيًا نفس ترميز HTML المستخدم لصفحات الويب) نفسه كتنسيق مفضل لتقديم النص الرقمي ،
خاصة لتخطيطه المرن الذي يسهل التمثيل عبر الأنظمة الأساسية على الشاشات. أحجام
مختلفة جدًا (هاتف ذكي ، جهاز لوحي ، قارئ إلكتروني ، كمبيوتر ، إلخ). لقد ساهمت
قدرة تنسيق
ePub (اختياريًا)
في إدارة حقوق الوصول بشكل كبير في النجاح التجاري للتنسيق [المرجع 14]. ينجح ePub في ترميز الأحرف الأساسية وبنية النصوص
، ولكنه لم يتم تصميمه لتمثيل التفاصيل النصية والفوقية الأخرى بطريقة موحدة ، مثل
أنواع مقاطع الشعر في القصيدة ، والاختلافات في التهجئة بين الإصدارات المختلفة أو
الثقوب غير المقروءة في صفحة مكتوبة بخط اليد ، لإعطاء ثلاثة أمثلة فقط من عدد لا
نهائي تقريبًا. هذا هو السبب في أن الباحثين والمحافظين المهتمين بالتقاط نطاق
أوسع بكثير من التفاصيل يفضلون مبادرة تشفير النص (TEI) وهي لغة XML التي تتيح وصف الخصائص الدلالية للنص
بدلاً من عرضه (بدلاً من أن تعبر سلسلة من الكلمات عن عنوان الكتاب ، على سبيل
المثال ، وليس فقط أي قالب يتم عرضه بخط مائل [المرجع 15].
بغض النظر عن
التنسيق ، غالبًا ما تكون الخطوة الأولى في تحليل النص المحوسب هي استخراج النص
بتنسيق خام [4]. سيكون من الجيد أن تكون قادرًا على الاستفادة من العلامات
الدلالية في ملف بتنسيق TEI على سبيل المثال ، ولكن القليل جدًا من الأدوات
مصممة للقيام بذلك (وبالتالي تصبح العلامات غير ضرورية أو حتى ضارة للتحليل).
0 التعليقات:
إرسال تعليق