1 نماذج المستخدم والمتعلم
في هذا القسم ، ندرس كيفية تمثيل نماذج المستخدم والتقاطها واستخدامها بواسطة أنظمة التوصية التمثيلية القائمة على المحتوى في بيئات الوسائط التشعبية. نحن نلقي نظرة عامة على كيفية تمثيل محتوى الصفحات وكيف يتم نمذجة المعلومات حول المستخدم
وتعلمها من خلال هذه الأنظمة. تعمل الأنظمة التي نقدمها هنا على إنشاء ملفات تعريف مستخدم ثابتة تمثل اهتمامات المستخدمين العالمية. في القسم 5 ، نحقق في الأساليب الأكثر تطورًا التي تحاول التقاط سياق تنقل المستخدم ووصف اهتمامات المستخدم المحلي.1.1 تمثيل الوثائق
تستخدم
معظم تقنيات التوصية المستندة إلى المحتوى نواقل المصطلحات ، وتسمى أيضًا متجهات
الميزات ، لتمثيل المستندات. يمثل كل عنصر في متجه السمات للمستند d كلمة معينة
w في اللغة الإنجليزية ، وتسمى
أيضًا الميزة ، ويتم تعيين وزنها ، والذي يمثل الوزن النسبي للكلمة المقابلة في d. تُحسب الأوزان باستخدام الاستدلال على مصطلح التكرار ،
تردد النص العكسي
(TFIDF) ، والذي يتم
تحديده من خلال التعبير التالي:
TFIDF (ث ، د) TF (ث ، د) السجل (
ن )
مدافع
(ث)
يحسب
مصطلح التردد TF w،
d عدد المرات التي تظهر فيها الكلمة w في الوثيقة d. يحسب مصطلح
DF (w) لتردد النصوص عدد النصوص التي تحتوي على كلمة w ، بينما يمثل
n العدد الإجمالي للمستندات
يعني النصوص. يتمثل الحدس الكامن وراء استدلال TFIDF في أنه
يجب تخصيص أوزان عالية للكلمات التي تحدث بشكل متكرر في المستند ولكنها ليست شائعة
في العديد من المستندات ، أي الكلمات الأكثر تمييزًا. هناك أيضًا مناهج تقترح
استخدام تسلسل الكلمات
(n-grams) بدلاً من الكلمات
المفردة كميزات
[70].
لا
تستخدم جميع الأنظمة التقنية المذكورة أعلاه لحساب الأوزان. في سيسكيل ويبير ،
تحتوي كل ميزة على قيمة منطقية تشير إلى ما إذا كانت كلمة معينة غائبة أو موجودة
مرة واحدة على الأقل في صفحة الويب. من ناحية أخرى ، يستخدم بالابانوفيتش وشوهام
[4] مخطط
TFIDF أكثر تعقيدًا ، والذي
يعمل على تطبيع طول المستند.
نظرًا
لأن عدد الكلمات في مجموعة من المستندات عادة ما يكون كبيرًا ، يتم استخدام تقنيات
متنوعة لاختيار المعالم لتقليل أبعاد متجهات المعالم. استخدام قوائم التوقف
للكلمات الإنجليزية الشائعة ، على سبيل المثال ، ، a ،
من ، مع ، تقليم الكلمات المتكررة للغاية ، والاشتقاق هي الأساليب الأكثر شيوعًا.
يتكون Stemming من
استخدام ميزة واحدة لتمثيل الكلمات من نفس الجذر ، على سبيل المثال ، يتم تمثيل كل
من الكتابة والكتابة بواسطة ميزتها . تستخدم معظم التقنيات المعقدة اكتساب
المعلومات كمقياس لاختيار الميزات . تختار هذه الأساليب الكلمات التي تميز بشكل
أفضل بين فئات المستندات المختلفة ، أي بين المستندات الشيقة وغير المثيرة
للاهتمام. يقدم سيباستياني
[88] نظرة عامة شاملة على تقنيات تقليل الأبعاد
لمتجهات الميزات ، والتي تُستخدم لتصنيف النص ، ولكن لا يتم استغلالها بالضرورة
بواسطة أنظمة التوصية الحالية. تشير التجارب إلى أنه في بعض الحالات ، يمكن الحصول
على أفضل نتائج التصنيف باستخدام نسبة صغيرة فقط ، تصل إلى 10٪ من الميزات
المختارة بعناية
[70].
إن التقنيات
المذكورة أعلاه لا تأخذ في الاعتبار أي معلومات حول بناء الجملة ودلالات الكلمات
في النص. لم تقدم الأساليب التي تستخدم المعلومات النحوية نتائج مشجعة ، لذا فإن
السؤال عما إذا كان بناء الجملة يمكن أن يساعد لا يزال قيد البحث [88]. يستخدم
غرين [37] السلاسل المعجمية لتمثيل العلاقات الدلالية بين الكلمات
التي تحدث في النص. كل سلسلة معجمية هي مجموعة من الكلمات ذات الصلة التي تلتقط
جزءًا من البنية المتماسكة للنص. يستخدم هذا التمثيل لبناء روابط بين فقرات من نفس
النص أو روابط بين نصوص مختلفة.
0 التعليقات:
إرسال تعليق