Breaking News
Loading...
Monday 11 November 2013

কীভাবে কাজ করে গুগল সার্চ ইঞ্জিন?

22:48
কোন কিছু ইন্টারনেটে সার্চ করার কথা মনে হলেই সবার আগে চোখে ভেসে উঠে গুগলের নাম। বিশ্বের মধ্যে সবচেয়ে নামকরা ও জনপ্রিয় সার্চ ইঞ্জিন হল এই গুগল। গুগলের সার্ভার ডকুমেন্ট সার্ভার, অ্যাড সার্ভার ইত্যাদি বিভিন্ন ভাগে বিভক্ত। সার্ভারগুলোতে ডাটা ৬৪ মেগাবাইট ব্লকে স্টোর করা থাকে। শুধু এপর্যন্তই নয়, এসব ডাটার নিরাপত্তা নিশ্চিত করতে প্রতিটি ডাটা তিনটি করে কপি করা হয় এবং স্টোর করা হয় আলাদা পাওয়ার সাপ্লাই সম্বলিত মেশিনে। 


গুগল সার্চের কর্মপদ্ধতি প্রধানত তিনটি ভাগে বিভক্ত:
১. গুগলবট
২. ইনডেক্সার
৩. কুয়েরী প্রসেসর

গুগলবট: গুগলবট ওয়েব থেকে পেজ সংগ্রহ করে। গুগলবটও ওয়েব সার্ভারে ব্রাউজারের মত পেজ রিকোয়েস্ট পাঠায়। সার্ভার থেকে পেজগুলো পাঠানো হলে সেগুলো স্টোর করে। আমাদের ব্রাউজারের মত হলেও গুগলবট অনেক বেশী দ্রুতগতি সম্পন্ন। অসংখ্য কম্পিউটারের সমন্বয়ে গুগলবট একসাথে কয়েক হাজার পেজ রেকোয়েস্ট পাঠাতে পারে। 

গুগলবট নতুন ইউআরএল সংগ্রহ করে প্রধানত দুইটি উপায়ে - 
১. http://www.google.com/addurl.html এই পাতায় সাবমিট করা পেজ।
২. ওয়েব ক্রলিং এর মাধম্যে।

গুগলবট যখন একটি পেজ সংগ্রহ করে তখন এই পেজে পাওয়া লিংকগুলো তার ক্রলিং তালিকায় যোগ হয়। এই পদ্ধতিতে একই লিংক অসংখ্যবার আসে, কিত্তু গুগলবট সেগুলোকে বাদ দিয়ে একটি তালিকা তৈরি করে যাতে সবচেয়ে কম সময়ে পুরো ওয়েবকে কভার করা সম্ভব। এ ব্যবস্থাকে বলে ডিপ ক্রলিং। কোন পেজ কত দ্রুত পরিবর্তন হয় সেটি ঠিক করা গুগলবটের অন্যতম প্রধান দায়িত্ব। গুগল ডাটাবেজকে আপডেট রাখার ক্ষেত্রে এটি সবচেয়ে বেশী জরুরী। গুগলবট কোন পেজে পরিবর্তনের একটা ফ্রিকোয়েন্সী বের করে এবং সেই হিসেবে ঠিক করা হয় যে গুগলবট কত সময় পর পর কোন পেজ ক্রলিং করবে। কারণ যে পেজ মাসে একবার পরিবর্তন হয় সেটা কয়েকঘন্টা পরপর ক্রলিং করা সময় নষ্ট ছাড়া আর কিছুই না । ডাটাবেজ আপডেট করার এই ক্রলিংকে ফ্রেশ ক্রলিং বলে।

গুগল ইনডেক্সার: গুগল ইনডেক্সারের কাজ তুলনামূলকভাবে সহজ। গুগলবট ইনডেক্সারকে ক্রলিং করা পেজগুলোর ফুল টেক্সট দেয়। ইনডেক্সার সার্চ টার্মগুলোকে বর্ণমালা অনুক্রমে সাজায় এবং কোন টার্ম কোথায় আছে তা সেভ করে রাখে। কিছু পরিবর্তনও আনা হয় পেজগুলোতে। কিছু বিরাম চিহ্ন বাদ দেয়া হয়। একের অধিক স্পেস থাকলে সেটাও বাদ দেয়া হয়। ইংরেজীর ক্ষেত্রে বড় হাতের অক্ষরগুলোকে ছোট হাতের অক্ষরে পরিবর্তন করা হয়।

গুগল কুয়েরী প্রসেসর: এটি সর্বশেষ অংশ। এটাই আমাদের সার্চ রেজাল্ট প্রসেসিং করে। কুয়েরী প্রসেসর কয়েকটি অংশে বিভক্ত,ইউজার ইন্টারফেস, কুয়েরী ইন্জিন, রেজাল্ট ফরম্যাটর ইত্যাদি। গুগলের ওয়েবপেজ Ranking সিস্টেমের নাম PageRank। যে পেজের PageRank যতবেশী সেটা সার্চ রেজাল্টে তত উপরে থাকে। গুগলবট যেহেতু টেক্সটের সাথে পেজ কোডও ক্রলিং করে তাই ইউজার চাইলে সার্চ টার্মটির অবস্হানও নির্দিষ্ট করে দিতে পারে যে সেটি লিংকে থাকবে, টাইটেলে থাকবে না লেখায় থাকবে। শুধু টার্মের উপস্হিতির উপর ভিত্তি করে রেজাল্ট না দেওয়ার কারণেই গুগলের সার্চ রেজাল্টের মান এত উন্নত।


সুত্রঃ-

0 comments:

Post a Comment

Blogger templates

 
Toggle Footer