सर्च में जानकारी कैसे व्यवस्थित की जाती है

आपके खोजने से पहले, वेब क्रॉलर सैकड़ों अरबों वेबपेजों से जानकारी जुटा कर उसे सर्च इंडेक्स में व्यवस्थित करते हैं.

सर्च की बुनियादी बातें

क्रॉल करने की प्रक्रिया की शुरुआत पहले से क्रॉल की जा चुकीं वेबसाइट और वेबसाइट मालिकों की ओर से दिए गए साइटमैप देखने से होती है. इन वेबसाइट पर जाने के बाद, हमारे क्रॉलर इन पर मौजूद लिंक के ज़रिए और पेज खोजते हैं. यह सॉफ़्टवेयर नई साइट, मौजूदा साइट में हुए बदलाव और बेकार पड़े लिंक पर खास ध्यान देता है. कंप्यूटर प्रोग्राम यह तय करते हैं कि किन साइट को क्रॉल करना है, कितनी बार क्रॉल करना है और हर साइट से कितने पेज लाने हैं.

हम वेबमास्टर टूल के ज़रिए वेबसाइट मालिकों को इस बारे में तय करने के काफ़ी विकल्प देते हैं कि Google उनकी साइट को कैसे क्रॉल करे: वह इस बारे में पूरी जानकारी के साथ निर्देश दे सकते हैं कि उनकी साइट पर पेजों को किस तरह से प्रोसेस किया जाए, वे फिर से क्रॉल करने का अनुरोध कर सकते हैं या “robots.txt” फ़ाइल के ज़रिए क्रॉल करने की प्रक्रिया से पूरी तरह ऑप्ट-आउट कर सकते हैं. Google कभी भी किसी साइट को ज़्यादा क्रॉल करने के लिए, भुगतान स्वीकार नहीं करता — हम सभी वेबसाइटों को एक तरह के ही टूल उपलब्ध करवाते हैं, ताकि हमारे उपयोगकर्ताओं को सबसे बेहतर परिणाम मिल सकें.

क्रॉल करके जानकारी पाना

वेब, लगातार बढ़ रही अरबों किताबों की एक ऐसी लाइब्रेरी है, जिसे प्रबंधित करने का कोई फ़ाइलिंग सिस्टम नहीं है. वेब क्रॉलर नाम के सॉफ़्टवेयर का इस्तेमाल करके हम सार्वजनिक रूप से उपलब्ध वेबपेजों को खोजते हैं. क्रॉलर वेबपेजों को देखते हैं और उन पेजों पर मौजूद लिंक को फ़ॉलो करते हैं, ठीक वैसे ही, जैसे आप वेब पर सामग्री ब्राउज़ करते हैं. वे एक लिंक से दूसरे लिंक पर जाते हैं और उन वेबपेजों का डेटा Google के सर्वर पर वापस लाते हैं.

इंडेक्स करके जानकारी व्यवस्थित करना

जब क्रॉलर को कोई वेबपेज मिलता है, तो हमारे सिस्टम उस पेज की सामग्री ठीक उस तरह से पेश करते हैं जैसे कि एक ब्राउज़र करता है. हम खास संकेतों पर ध्यान देते हैं — कीवर्ड से लेकर वेबसाइट पर मौजूद ताज़ा जानकारी तक — और हम सर्च इंडेक्स में इस सब पर नज़र रखते हैं.

'Google सर्च' इंडेक्स में सैकड़ों अरबों वेबपेज हैं और इसका आकार 100,000,000 गीगाबाइट से भी ज़्यादा है. यह किसी किताब के पीछे दिए गए इंडेक्स की तरह है, जिसमें हमारी तरफ़ से इंडेक्स किए गए हर वेबपेज में शामिल हर शब्द के लिए एक एंट्री होती है. जब हम किसी वेबपेज को इंडेक्स में शामिल करते हैं, तो हम पेज को इंडेक्स में मौजूद सभी शब्दों की एंट्री में जोड़ देते हैं.

 

 

नॉलेज ग्राफ़ के ज़रिए हम आपके लिए ज़रूरी लोगों, स्थानों और चीजें को बेहतर तरीके से समझने के अपने दायरे को लगातार बढ़ाने की कोशिश कर रहे हैं. अब हम सिर्फ़ कीवर्ड मिलान तक ही सीमित नहीं हैं. ऐसा करने के लिए हम सिर्फ़ वेबपेज के बारे में जानकारी ही नहीं, बल्कि और तरह की जानकारी को भी व्यवस्थित करते हैं. अब Google सर्च की मदद से आप दुनिया की प्रमुख लाइब्रेरी में मौजूद लाखों किताबों में से कोई लेख ढूंढ सकते हैं, अपनी स्थानीय सार्वजनिक परिवहन एजेंसी से गाड़ियों का समय जान सकते हैं. आप वर्ल्ड बैंक जैसी सार्वजनिक संस्थाओं के आंकड़े भी देख सकते हैं.