الفصـــل 25 من دستور المملكة : حرية الفكر والرأي والتعبير مكفولة بكل أشكالها. حرية الإبداع والنشر والعرض في المجالات الأدبية والفنية والبحت العلمي, والتقني مضمونة.


إعلانات أفقية

الأحد، فبراير 28، 2021

إنشاء نص رقمي عبده حقي


تحديد كيف يمكن استخدام النص

إذا كنت تقوم برقمنة نص من مستند نصي موجود ، ففكر في هدفك من حيث النتيجة النهائية. حدد ما إذا كنت تريد ببساطة التقاط المعلومات رقميًا ، أو تمثيل النص رقميًا بالطريقة التي تم إنشاؤه بها في الأصل ، والتقاط التخطيط والخطوط ونسيج الورق

والجوانب الأخرى للمستند. سيؤثر هذا بشكل كبير على استراتيجيتك ، حيث أن الأول يفسح المجال للنسخ والتعرف البصري على الأحرف ، بينما يقترح الثاني عمليات مسح الصور الرقمية.

تقنيات الرقمنة

التعرف البصري على الأحرف (OCR)

يمكن أن يكون التعرف الضوئي على الحروف أكثر فائدة لمشاريع النسخ ، وتشكيل قاعدة من النص الخام التي يمكن تصحيحها وفحصها يدويًا. يستخدم التعرف الضوئي على الحروف أيضًا لجعل النص المستند إلى الصور قابلاً للبحث ، مثل النص المستخدم بواسطة موقع Papers Past على الويب .

تأتي معظم الماسحات الضوئية للوثائق مزودة ببرنامج يدعم التعرف الضوئي على الحروف. وعلى الرغم من أن هذا البرنامج يمكن أن يكون ذا جودة متغيرة ، إلا أن أفضل تقنيات التعرف الضوئي على الحروف تتطلب درجة معينة من التصحيح وإعادة التنسيق. من المرجح أن يكون أعلى معدل نجاح هو الصفحات العادية للنص المكتوب من الكتب أو المستندات التجارية. لا تزال الكتابة اليدوية صعبة الفك بشكل عام ، خاصة الأنماط القديمة المستندة إلى النصوص. قد يتطلب النص في المنشورات ذات التخطيطات الأكثر تعقيدًا (مثل الصحف والمجلات) الفصل المادي لعناصر النص (مثل العناوين والأعمدة والإعلانات) أو البرامج التي يمكنه تفسيرها بدقة. يمكن أن يساعد تصحيح النص المطبوع بشكل سيئ والقضاء على المصنوعات والبقع المطبوعة ، جنبًا إلى جنب مع تدريب البرنامج على التعرف على الكلمات غير الشائعة ، على زيادة الدقة حتى حوالي 99٪ في بعض الظروف.

النسخ والترميز

 يؤدي النسخ الكامل (باستخدام التعرف الضوئي على الحروف كأساس) إلى إنشاء إصدار جديد من المستند بشكل فعال. يمكن أن يكون النسخ مضيعة للوقت ، ولكنه يسمح بأكبر قدر من القدرة على إعادة توظيف مستند رقمي والاحتفاظ به بتنسيق قابل للاستخدام على المدى الطويل. فقد اتخذ مركز النص الإلكتروني النيوزيلندي هذا المنهج ، حيث قام بترميز نصه باستخدام معيار TEI المفتوح . يسمح هذا بإنشاء نص منظم يمكن إعادة تنسيقه إلى أي تنسيق تقريبًا ويظل قابلاً للاستخدام. يسمح بعرض مجموعة واحدة من النصوص في أماكن متعددة ، على سبيل المثال من خلال صفحة ويب أو مستند PDF أو كتاب إلكتروني. لا يعد النسخ بديلاً كاملاً لمستند نصي أصلي في معظم الحالات ، ولكنه يكون ذا قيمة عالية عندما تكون المعلومات التي يتم نسخها ذات قيمة بحد ذاتها.

المسح الرقمي للنص

الاعتبارات الرئيسية للمسح الرقمي للنص هي:

          حجم الصفحة الأصلية. معظم الماسحات الضوئية المسطحة ليست أكبر من A3 ، مما يعني أن هناك حاجة إلى تقنيات مختلفة مثل استخدام ماسحات الخرائط أو حوامل النسخ العلوية وكاميرا عالية الدقة.

          التقاط أصغر مستوى مهم من التفاصيل في صورة ما. لا يمكن تحديد إعداد الدقة لمسح النص ضوئيًا أو تصويره حسب حجم الصفحة. يجب أن تكون أصغر عناصر الأحرف (مثل الفواصل ونقاط التوقف الكاملة) قابلة للعرض بالتفصيل من أجل الحفاظ على سهولة قراءة المستند ككل.

          زاوية الكاميرا أو الماسح الضوئي للصفحة. بعض تقنيات المسح مدمرة للغاية ، وتتطلب فك أو تقطيع الصفحات لتحقيق عدم انحراف أو تشويه.

          تلوين الصفحات الذي قد يجعل النص غير مقروء. يغمق معظم الورق مع تقدم العمر بسبب الأحماض الموجودة في الورق. قد ينتج عن ذلك نص ذو تباين منخفض للغاية ، مما يتطلب معالجة الصورة من خلال البرنامج لضمان قراءة النص ، وماسح ضوئي قادر على حل التفاصيل منخفضة التباين.

          فحص جودة الصفحات الممسوحة ضوئيًا. تأكد من عدم وضوح الصفحات التي تم التقاطها ، وأنها في التسلسل الصحيح ، وعدم فقدان أي منها يعد جزءًا أساسيًا من عملية مسح النص.

          وجود آلية تسليم للصور الناتجة. إن إنشاء مئات أو حتى آلاف الصفحات من النصوص الرقمية مفيد فقط إذا كان من الممكن البحث في الصفحات واسترجاعها وفهمها. فقد واجهت العديد من مشاريع الرقمنة مشاكل عندما لم يكن لديهم مكان لاستضافة صفحاتهم. قد تكون مواقع مثل أرشيف الإنترنت مفيدة في هذه الأنواع من الظروف.

          لضمان حصولك على مستوى التفاصيل التي تحتاجها ، يمكنك استخدام حاسبة جودة الصورة المجانية الذي نشرته جامعة إلينوي.

إنشاء مستندات نصية جديدة

عند إنشاء مستندات نصية جديدة رقميًا ، من المهم التفكير في التنسيق الأفضل لأغراضك. على الرغم من كونه معيارًا صناعيًا طويل الأمد ، فإن تنسيق Microsoft Word .DOC ليس معيارًا مفتوحًا ، حيث لم يتم نشر مواصفاته مطلقًا. يعد معيار Office Open XML الأحدث من Microsoft والذي يتم استخدامه بتنسيق .DOCX الخاص بهم ، معيار ISO مفتوحًا ، ولكن من الصعب تطبيقه بشكل كامل. إن عدادات هذا المعيار هما تنسيق المستند المفتوح (ODF) ، المدعوم على نطاق واسع خارج منتوجات ميكروسوفت  كمعيار تم تعيينه بواسطة OASIS (منظمة تطوير معايير المعلومات المنظمة) وتنسيق Adobe  المستند إلى صورة PDF والذي تم فتحه في عام 2008 . وكلها ذات قيود من حيث طول العمر على الرغم من أن تنسيق المستند المفتوح هو الأكثر مرونة من حيث قابلية التشغيل البيني بين منتوجات البرامج المختلفة. يدعم إصدار 2010 من Microsoft Office جنبًا إلى جنب مع Open Office Suite  المجاني ODF.

إذا كنت تكتب للويب ، ففكر في التوافق بين متصفحات الويب وأنظمة التشغيل المختلفة. التنسيق الأكثر توافقًا ويمكن الوصول إليه للنص على الويب هو تقديم نص HTML منسق ببساطة مع إصدارات المستندات القابلة للتنزيل من DOC و ODF و PDF جنبًا إلى جنب.

0 التعليقات: