منتديات المحبة التعليمية والترفيهية


 
الرئيسيةالبوابة*مكتبة الصورالمجموعاتس .و .جالتسجيلدخول

شاطر | 
 

 محركات البحث على الإنترنت.. كيف تُصنع؟

استعرض الموضوع السابق استعرض الموضوع التالي اذهب الى الأسفل 
كاتب الموضوعرسالة
sabs
Admin
Admin
avatar

ذكر عدد المساهمات : 3042
السٌّمعَة : 1
تاريخ التسجيل : 24/04/2009

مُساهمةموضوع: محركات البحث على الإنترنت.. كيف تُصنع؟   الأحد مايو 31, 2009 6:06 am

قد يعتقد البعض بأنه من السهل صُنع محرك بحث جديد، ولا يحتاج الأمر إلا لبعض المهارات التقنية والإرادة القوية. إلا أن الكثير من الأمور مخفية وراء الكواليس، وقد لا تخطر ببال مغامر يريد صناعة محركه الخاص.

وقد نما عدد مواقع الإنترنت بشكل مطرد منذ بدايتها في عام 1983، حيث وصل إلى ألف موقع بحلول عام 1984، و10 آلاف في عام 1987، و100 ألف في 1990، ومليون في عام 1992، و26 مليون في 1998، ومليار في عام 2000، وصولا إلى أكثر من تريليون صفحة في عام 2008، الأمر الذي يعني بأن العثور على المعلومة التي تريدها في الإنترنت بدون استخدام محرك بحث هو أمر شبه مستحيل.

محرك جوجل
نما عدد الصفحات التي يعثر عليها محرك جوجل بمعدل 8 أضعاف في فترة 2000 إلى 2005، و125 ضعفا من 2005 إلى 2008. ويستطيع محرك جوجل، لغاية نهاية شهر يوليو (تموز) المنصرم، العثور على تريليون رابط Link متفرد في العالم الرقمي، وأكثر من تريليون رابط غير متفرد (كثيرا ما تتكرر روابط المواقع المشهورة في صفحات مختلفة).

ويبدأ جوجل عملية المسح أو الـ«زحف» Crawl في صفحات الإنترنت باختصار بالشكل التالي: توجد لدى جوجل قائمة من الصفحات الرئيسية المرتبطة بمواقع أخرى بشكل جيد جدا، ويبدأ برنامج خاص بالبحث في جميع الروابط الموجودة في صفحات هذه القائمة وتسجيلها، ثم البحث في الروابط الموجودة في الصفحات التي وصل إليها من الروابط السابقة، وهكذا.

ويسجل النظام تكرار كل رابط ويقيمه حسب عدد التكرارات، لتظهر النتائج الأكثر تكرارا قبل غيرها. وتجدر الإشارة إلى أن بعض المواقع قد تحتوي على روابط لا نهائية، مثل الروابط الموجودة في مواقع التقويم، حيث يمكن الدخول في رابط «اليوم التالي» بشكل لا نهائي، ولذلك فإن البرنامج لا يأخذ هذه الروابط بعين الاعتبار.

وتُصنف الشركة الروابط والصفحات في فهرس Index ضخم خاص بها، وذلك لتسريع عملية البحث، حيث أنه ليس من العملي أن يبحث المحرك في جميع صفحات الإنترنت كلما طلب المستخدم ذلك، بل يفحص النظام المعلومات الموجودة في الفهرس الموجود لديه داخليا. واختلفت الأمور اليوم كثيرا بالنسبة للشركة مقارنة بالسابق، حيث كانت تجري العمليات التقنية بشكل مجموعات Batch، مثل قيام أحد الكومبيوترات بقياس عدد تكرار الصفحات وتقييمها وفقا لذلك (في خلال ساعات قليلة)، وتجهيز فهرس يمكن استخدامه لعدة ساعات في اليوم قبل تكرار العملية مرة أخرى وتحديث معلومات الفهرس، وهكذا.

أما اليوم، فإن نظام الشركة يُحدّث المعلومات بشكل مستمر ومن دون توقف. ويمكن تشبيه عملية الزحف هذه بتتبع جميع الطرقات والتقاطعات الموجودة على خريطة يبلغ حجمها 50 ألف مرة حجم خريطة الولايات المتحدة الاميركية. وتقوم أنظمة الشركة بهذه العملية عدة مرات في اليوم الواحد. هذا ويعالج محرك جوجل حوالي 20 بيتابايت من المعلومات كل يوم (الـ«بيتابايت» Petabyte الواحد هو مليون غيغابايت، أو ألف «تيرابايت»).

عقبات تقنية ومادية وبناء على الأرقام المذكورة أعلاه، فإنه يمكن تخيل قدرات الأجهزة الخادمة اللازمة لتحليل هذا الكم الكبير من المعلومات، وعرض النتيجة في حوالي 0.3 ثانية، ذلك أن صبر المستخدمين سينفد إذا انتظروا أكثر من بضع ثوان. وإن أردنا استكشاف أحجام التخزين المطلوبة، فإن محرك جوجل يحفظ نسخة من كل صفحة (تقريبا) يضعها في فهرسه.

ويمكن تخيل أن عملية حفظ نسخ من تريليون صفحة هو أمر ليس بالسهل، وخصوصا مع اختلاف أحجام الصفحات حسب محتواها. ولذلك، فإن غالبية المحركات تحفظ النصوص الموجودة في الصفحات المفهرسة، وليس الصور وعروض الأفلام وغيرها من الملحقات المختلفة. وازداد معدل حجم الصفحة من 17 كيلوبايت في عام 1995، إلى 93.7 كيلوبايت في عام 2003، وصولا إلى 312 كيلوبايت في عام 2007.

وتجدر الإشارة إلى أن الصفحات التي تحتوي على أحرف غير إنجليزية ستشغل حيزا أكبر عند حفظها، حيث جربت «الشرق الأوسط» حفظ نص يحتوي على 4280 حرفا إنجليزيا (حوالي صفحتين من مقاس A4) على شكل ملف نصي، وحصلنا على حجم بلغ 4.23 كيلوبايت، إلا أن حجم الملف لعدد الأحرف نفسه ولكن باللغة العربية (بتشفير «يو تي إف-8» UTF-8 القياسي)، وصل إلى 8,38 كيلوبايت، أي ضعف الحجم تقريبا.
ولا ننسى المشاكل التي ستواجه من يصنع المحرك عند طلب البحث عن معلومة هي خليط من عدة لغات، مثل «كأس العالم لكرة القدم South Africa 2010»، حيث يجب البحث في الجزء العربي والإنجليزي وربطهما ببعضهما البعض، ذلك أن من يبحث عن هذه المعلومة لا يريد الحصول على جميع المعلومات المتعلقة بـ«كأس العالم لكرة القدم»، أو المعلومات عن جنوب إفريقيا، بل المعلومات المرتبطة بالحدث في المكان المطلوب.

وبالعودة إلى حجم المعلومات التي يجب حفظها، فإن ضربنا عدد الصفحات التي عُثر عليها بمعدل حجم الصفحة، فإن النتيجة ستكون حوالي 29 بيتابايت (أو 29 ألف تيرابايت). ويمكن ضغط هذه المعلومات بنسبة 88.95% (أعلى نسبة ضغط للنصوص يمكن الوصول إليها) للوصول إلى حوالي 3.2 بيتابايت من المعلومات (يوجد لدى شركات صناعة محركات البحث تقنيات عديدة لتطوير التخزين، حيث أن جوجل تستطيع تخزين حجم 148 غيغابايت من الصفحات (24 مليون صفحة) في 7 غيغابايت فقط).

وبحساب أن كلفة القرص الصلب الواحد بسعة 750 غيغابايت هي حوالي 65 دولارا أميركيا للكميات التجارية، وبمعرفة أن حجم المعلومات التي يجب تخزينها يتطلب حوالي 4270 قرصا صلبا، ستكون تكلفة التخزين حوالي 2,8 مليون دولار أميركي للأقراص الصلبة التي تخزن المعلومات المفهرسة (لغاية اليوم) فقط. وتجدر الإشارة إلى أنه ليس من العملي وصل هذا العدد من الأقراص الصلبة بالأجهزة الخادمة، إن أمكن عمل ذلك من الناحية التقنية.

أضف إلى ذلك كلفة الأجهزة الخادمة التي يجب عليها البحث عن كلمة واحدة من بين كم المعلومات الموجودة في الفهرس، وبسرعة كبيرة، وكلفة التشغيل والتبريد لهذه الأجهزة، ووجود أجهزة بديلة في حال تعطلها عن العمل، وكلفة اشتراك الإنترنت السريع وغير المحدود (من حيث كم المعلومات الصادرة والواردة) الذي يجب توفيره للمستخدمين، وأجور الصيانة وطاقم العمل، وغيرها من التكاليف المختلفة، فإن الكلفة النهائية ستكون عدة مئات الملايين من الدولارات الأميركية.

وليس من المتوقع أن يكون توفير هذا المبلغ ممكنا للأفراد، أو حتى للشركات متوسطة الحجم، خصوصا وأن محرك البحث يكون مجانيا في العادة، وأن المردود قد يكون من الإعلانات أو من تكامل محرك البحث مع مواقع مختلفة، الأمر الذي يعني بأن الحصول على الأرباح سيتطلب سنوات عدة. ويتطلب إنشاء محرك بحث جديد بشكل كامل استثمار القطاع الخاص بشكل مكثف في الأمر، أو دعم الدولة لهذه المشاريع الطموحة.
وبناء على ذلك، فإن احتمال تطوير طالب مدرسي أو جامعي لمحرك بحث بشكل مستقل هو أمر بالغ الصعوبة، خصوصا في ظل هيمنة المحركات العملاقة على الأسواق. ولو كان الأمر بالسهولة المتصورة، لامتلأت الإنترنت بعشرات الآلاف من المحركات المختلفة. ويمكن أن يطور بعض الأفراد أو الشركات محركات بحث بسيطة تكلف كسورا عشرية من الأرقام المذكورة، ولكن هذه المحركات لن تستطيع الدخول بقوة في الأسواق وتتميز عن غيرها، الأمر الذي شهدناه مرارا وتكرارا في محاولات عديدة اختفى معظمها.

وتقول ياسمينا بريحي، مديرة التسويق في جوجل في أوروبا والشرق الأوسط وشمال إفريقيا بأن جوجل بدأت بتمويل قدره 100 ألف دولار أميركي، وصعد التمويل إلى مليون في أسابيع قليلة، ومن ثم إلى 25 مليونا في منتصف عام 1999. واستطاعت جوجل التطور من معالجة 10 آلاف طلب في اليوم في عام 1998، إلى 18 مليون طلب في عام 2000.

هذا وتوظف جوجل فريقا خاصا من المحامين لمراجعة جميع المشاكل القانونية التي قد تنتج من شراء شركات مختلفة، أو تقديم مزايا جديدة، أو حتى طلبات من الحكومات للحصول على معلومات شخصية عن المستخدمين، لدرجة أن الشركة تحدت طلبات قانونية لوزارة العدل الأميركية.

تسلسل محركات البحث

1993: Aliweb
1994: Lycos، WebCrawler، Infoseek
1995: AltaVista، Magellan، Excite، SAPO
1996: Dogpile، Inktomi، HotBot، AskJeeves
1997: Yandex، Northern Light
1998: Goole
1999: AlltheWeb، Teoma، Naver، Vivisimo
2000: Baidu
2003: Info.com
2004: Yahoo! Search، A9.com
2005: MSN Search، Ask.com، GoodSearch
2006: wikiseek، Quaero، Live Search، ChaCha، Guruji.com
2007: Wikia Search
2008: Cuil
المصدر
شبكة الاخبار التقنية
الرجوع الى أعلى الصفحة اذهب الى الأسفل
 
محركات البحث على الإنترنت.. كيف تُصنع؟
استعرض الموضوع السابق استعرض الموضوع التالي الرجوع الى أعلى الصفحة 
صفحة 1 من اصل 1

صلاحيات هذا المنتدى:لاتستطيع الرد على المواضيع في هذا المنتدى
منتديات المحبة التعليمية والترفيهية :: الانترنت و الكمبيوتر Internet and PC :: Programming - لغة البرمجة-
انتقل الى: