কোন কিছু ইন্টারনেটে সার্চ করার কথা মনে হলেই সবার আগে চোখে ভেসে উঠে গুগলের নাম। বিশ্বের মধ্যে সবচেয়ে নামকরা ও জনপ্রিয় সার্চ ইঞ্জিন হল এই গুগল। গুগলের সার্ভার ডকুমেন্ট সার্ভার, অ্যাড সার্ভার ইত্যাদি বিভিন্ন ভাগে বিভক্ত। সার্ভারগুলোতে ডাটা ৬৪ মেগাবাইট ব্লকে স্টোর করা থাকে। শুধু এপর্যন্তই নয়, এসব ডাটার নিরাপত্তা নিশ্চিত করতে প্রতিটি ডাটা তিনটি করে কপি করা হয় এবং স্টোর করা হয় আলাদা পাওয়ার সাপ্লাই সম্বলিত মেশিনে।
গুগল সার্চের কর্মপদ্ধতি প্রধানত তিনটি ভাগে বিভক্ত:
১. গুগলবট
২. ইনডেক্সার
৩. কুয়েরী প্রসেসর
গুগলবট: গুগলবট ওয়েব থেকে পেজ সংগ্রহ করে। গুগলবটও ওয়েব সার্ভারে ব্রাউজারের মত পেজ রিকোয়েস্ট পাঠায়। সার্ভার থেকে পেজগুলো পাঠানো হলে সেগুলো স্টোর করে। আমাদের ব্রাউজারের মত হলেও গুগলবট অনেক বেশী দ্রুতগতি সম্পন্ন। অসংখ্য কম্পিউটারের সমন্বয়ে গুগলবট একসাথে কয়েক হাজার পেজ রেকোয়েস্ট পাঠাতে পারে।
গুগলবট নতুন ইউআরএল সংগ্রহ করে প্রধানত দুইটি উপায়ে -
১. http://www.google.com/addurl.html এই পাতায় সাবমিট করা পেজ।
২. ওয়েব ক্রলিং এর মাধম্যে।
গুগলবট যখন একটি পেজ সংগ্রহ করে তখন এই পেজে পাওয়া লিংকগুলো তার ক্রলিং তালিকায় যোগ হয়। এই পদ্ধতিতে একই লিংক অসংখ্যবার আসে, কিত্তু গুগলবট সেগুলোকে বাদ দিয়ে একটি তালিকা তৈরি করে যাতে সবচেয়ে কম সময়ে পুরো ওয়েবকে কভার করা সম্ভব। এ ব্যবস্থাকে বলে ডিপ ক্রলিং। কোন পেজ কত দ্রুত পরিবর্তন হয় সেটি ঠিক করা গুগলবটের অন্যতম প্রধান দায়িত্ব। গুগল ডাটাবেজকে আপডেট রাখার ক্ষেত্রে এটি সবচেয়ে বেশী জরুরী। গুগলবট কোন পেজে পরিবর্তনের একটা ফ্রিকোয়েন্সী বের করে এবং সেই হিসেবে ঠিক করা হয় যে গুগলবট কত সময় পর পর কোন পেজ ক্রলিং করবে। কারণ যে পেজ মাসে একবার পরিবর্তন হয় সেটা কয়েকঘন্টা পরপর ক্রলিং করা সময় নষ্ট ছাড়া আর কিছুই না । ডাটাবেজ আপডেট করার এই ক্রলিংকে ফ্রেশ ক্রলিং বলে।
গুগল ইনডেক্সার: গুগল ইনডেক্সারের কাজ তুলনামূলকভাবে সহজ। গুগলবট ইনডেক্সারকে ক্রলিং করা পেজগুলোর ফুল টেক্সট দেয়। ইনডেক্সার সার্চ টার্মগুলোকে বর্ণমালা অনুক্রমে সাজায় এবং কোন টার্ম কোথায় আছে তা সেভ করে রাখে। কিছু পরিবর্তনও আনা হয় পেজগুলোতে। কিছু বিরাম চিহ্ন বাদ দেয়া হয়। একের অধিক স্পেস থাকলে সেটাও বাদ দেয়া হয়। ইংরেজীর ক্ষেত্রে বড় হাতের অক্ষরগুলোকে ছোট হাতের অক্ষরে পরিবর্তন করা হয়।
গুগল কুয়েরী প্রসেসর: এটি সর্বশেষ অংশ। এটাই আমাদের সার্চ রেজাল্ট প্রসেসিং করে। কুয়েরী প্রসেসর কয়েকটি অংশে বিভক্ত,ইউজার ইন্টারফেস, কুয়েরী ইন্জিন, রেজাল্ট ফরম্যাটর ইত্যাদি। গুগলের ওয়েবপেজ Ranking সিস্টেমের নাম PageRank। যে পেজের PageRank যতবেশী সেটা সার্চ রেজাল্টে তত উপরে থাকে। গুগলবট যেহেতু টেক্সটের সাথে পেজ কোডও ক্রলিং করে তাই ইউজার চাইলে সার্চ টার্মটির অবস্হানও নির্দিষ্ট করে দিতে পারে যে সেটি লিংকে থাকবে, টাইটেলে থাকবে না লেখায় থাকবে। শুধু টার্মের উপস্হিতির উপর ভিত্তি করে রেজাল্ট না দেওয়ার কারণেই গুগলের সার্চ রেজাল্টের মান এত উন্নত।
সুত্রঃ-
গুগল সার্চের কর্মপদ্ধতি প্রধানত তিনটি ভাগে বিভক্ত:
১. গুগলবট
২. ইনডেক্সার
৩. কুয়েরী প্রসেসর
গুগলবট: গুগলবট ওয়েব থেকে পেজ সংগ্রহ করে। গুগলবটও ওয়েব সার্ভারে ব্রাউজারের মত পেজ রিকোয়েস্ট পাঠায়। সার্ভার থেকে পেজগুলো পাঠানো হলে সেগুলো স্টোর করে। আমাদের ব্রাউজারের মত হলেও গুগলবট অনেক বেশী দ্রুতগতি সম্পন্ন। অসংখ্য কম্পিউটারের সমন্বয়ে গুগলবট একসাথে কয়েক হাজার পেজ রেকোয়েস্ট পাঠাতে পারে।
গুগলবট নতুন ইউআরএল সংগ্রহ করে প্রধানত দুইটি উপায়ে -
১. http://www.google.com/addurl.html এই পাতায় সাবমিট করা পেজ।
২. ওয়েব ক্রলিং এর মাধম্যে।
গুগলবট যখন একটি পেজ সংগ্রহ করে তখন এই পেজে পাওয়া লিংকগুলো তার ক্রলিং তালিকায় যোগ হয়। এই পদ্ধতিতে একই লিংক অসংখ্যবার আসে, কিত্তু গুগলবট সেগুলোকে বাদ দিয়ে একটি তালিকা তৈরি করে যাতে সবচেয়ে কম সময়ে পুরো ওয়েবকে কভার করা সম্ভব। এ ব্যবস্থাকে বলে ডিপ ক্রলিং। কোন পেজ কত দ্রুত পরিবর্তন হয় সেটি ঠিক করা গুগলবটের অন্যতম প্রধান দায়িত্ব। গুগল ডাটাবেজকে আপডেট রাখার ক্ষেত্রে এটি সবচেয়ে বেশী জরুরী। গুগলবট কোন পেজে পরিবর্তনের একটা ফ্রিকোয়েন্সী বের করে এবং সেই হিসেবে ঠিক করা হয় যে গুগলবট কত সময় পর পর কোন পেজ ক্রলিং করবে। কারণ যে পেজ মাসে একবার পরিবর্তন হয় সেটা কয়েকঘন্টা পরপর ক্রলিং করা সময় নষ্ট ছাড়া আর কিছুই না । ডাটাবেজ আপডেট করার এই ক্রলিংকে ফ্রেশ ক্রলিং বলে।
গুগল ইনডেক্সার: গুগল ইনডেক্সারের কাজ তুলনামূলকভাবে সহজ। গুগলবট ইনডেক্সারকে ক্রলিং করা পেজগুলোর ফুল টেক্সট দেয়। ইনডেক্সার সার্চ টার্মগুলোকে বর্ণমালা অনুক্রমে সাজায় এবং কোন টার্ম কোথায় আছে তা সেভ করে রাখে। কিছু পরিবর্তনও আনা হয় পেজগুলোতে। কিছু বিরাম চিহ্ন বাদ দেয়া হয়। একের অধিক স্পেস থাকলে সেটাও বাদ দেয়া হয়। ইংরেজীর ক্ষেত্রে বড় হাতের অক্ষরগুলোকে ছোট হাতের অক্ষরে পরিবর্তন করা হয়।
গুগল কুয়েরী প্রসেসর: এটি সর্বশেষ অংশ। এটাই আমাদের সার্চ রেজাল্ট প্রসেসিং করে। কুয়েরী প্রসেসর কয়েকটি অংশে বিভক্ত,ইউজার ইন্টারফেস, কুয়েরী ইন্জিন, রেজাল্ট ফরম্যাটর ইত্যাদি। গুগলের ওয়েবপেজ Ranking সিস্টেমের নাম PageRank। যে পেজের PageRank যতবেশী সেটা সার্চ রেজাল্টে তত উপরে থাকে। গুগলবট যেহেতু টেক্সটের সাথে পেজ কোডও ক্রলিং করে তাই ইউজার চাইলে সার্চ টার্মটির অবস্হানও নির্দিষ্ট করে দিতে পারে যে সেটি লিংকে থাকবে, টাইটেলে থাকবে না লেখায় থাকবে। শুধু টার্মের উপস্হিতির উপর ভিত্তি করে রেজাল্ট না দেওয়ার কারণেই গুগলের সার্চ রেজাল্টের মান এত উন্নত।
সুত্রঃ-
0 comments:
Post a Comment