सर्च एल्गोरिदम कैसे काम करते हैं

वेब पर मौजूद असीमित सामग्री को देखते हुए, उसे सिलसिलेवार मुहैया कराने में किसी तरह की मदद के बिना अपनी ज़रूरत की चीज़ खोज पाना करीब-करीब नामुमकिन है. Google रैंकिंग सिस्टम ठीक यही काम करने के लिए बनाए गए हैं: ये सिस्टम हमारी सर्च इंडेक्स में सैकड़ों अरबों वेबपेजों को क्रम से लगाते हैं, ताकि आपको काम के और फ़ायदेमंद नतीजे झटपट मिल सकें. साथ ही, इन पेजों को इस तरह दिखाया जाता है कि आपको खोजी जा रही चीज़ पाने में देर न लगे.

इन रैंकिंग सिस्टम में एक नहीं, बल्कि एल्गोरिद्म की पूरी सीरीज़ होती है. सबसे ज़्यादा काम की जानकारी मुहैया कराने के लिए खोज एल्गोरिद्म कई चीज़ों पर नज़र डालते हैं. इनमें आपकी क्वेरी के शब्द, पेजों की उपयोगिता और ज़रूरत के मुताबिक होना, स्रोतों की विशेषज्ञता के साथ ही आपकी जगह की जानकारी और सेटिंग शामिल हैं. हर चीज़ पर लागू होने वाली अहमियत में आपकी क्वेरी के हिसाब से फ़र्क़ होता है—जैसे कि, शब्दकोश परिभाषाओं की क्वेरी के मुकाबले ताज़ा खबरों की क्वेरी का जवाब देते समय सामग्री के नएपन की अहम भूमिका होती है.

जाँच करने की हमारी एक मुश्किल प्रक्रिया है जिसमें लाइव टेस्ट करने वाले और सर्च क्वालिटी आंकने वाले दुनिया भर के हजारों बाहरी प्रशिक्षित लोग दोनों ही शामिल होते हैं. इसकी मदद से हम सर्च एल्गोरिद्म को ज़रूरत के मुताबिक होने और क्वालिटी के ऊंचे मानकों की शर्त पूरी करने वाले बना पाते हैं. क्वालिटी आंकने वाले ये लोग 'सर्च' एल्गोरिद्म के लिए हमारे लक्ष्य तय करने वाले सख्‍त दिशानिर्देशों का पालन करते हैं और इन्हें हर कोई देख सकता है.

उन खास बातों के बारे में ज़्यादा जानें जो आपकी क्वेरी के लिए मिलने वाले नतीजों को तय करती हैं:

  • आपके शब्दों का विश्लेषण करना

    आपके शब्दों का विश्लेषण करना

    अच्छे जवाब दिखाने के लिए, आपकी खोज का मतलब समझना बहुत ज़रूरी है. इसलिए, आपकी खोज से जुड़ी जानकारी वाले पेज ढूंढने के लिए, हमारा पहला कदम होता है आपकी सर्च क्वेरी की जांच करके उसके शब्दों का मतलब समझना. हम भाषा के मॉडल बनाकर यह समझने की कोशिश करते हैं कि इंडेक्स में किस तरह के शब्दों के समूह ढूंढने चाहिए.

    इसमें कई ऐसे साधारण दिखने वाले कदम भी शामिल हैं, जैसे किसी शब्द को लिखने में हुई गलती (वर्तनी की गलती) . इसके साथ ही इसका दायरा बढ़ाकर यह समझना भी शामिल है कि आपने किस तरह की क्वेरी दर्ज की है. इसके लिए हम मूल निवासियों की भाषा को समझने के लिए बनाई गई अपनी नई तकनीक का इस्तेमाल करते हैं. उदाहरण के लिए, हमारे समानार्थी शब्द सिस्टम की मदद से सर्च को आपके लिखे शब्द समझना आसान हो जाता है, भले ही किसी शब्द के कई मतलब हों. इस सिस्टम को बनाने में पांच साल से ज़्यादा समय लगा और यह कई भाषाओं में की गईं 30% से ज़्यादा खोज के नतीजों को काफ़ी सुधार देता है.

    हम यह भी समझने की कोशिश करते हैं कि आप किस तरह की जानकारी खोज रहे हैं. क्या यह किसी बहुत खास जानकारी से जुड़ी खोज है या एक व्यापक क्वेरी है? क्या इसमें 'समीक्षा', 'तस्वीरें' या 'खुले रहने का समय' जैसे शब्द हैं, जो जानकारी खोजने के पीछे एक खास वजह थी? क्या आप 'चर्चा में' चल रहे कीवर्ड को खोज रहे हैं जिसका यह मतलब है कि आप उस दिन किसी सामग्री को प्रकाशित करना चाहते हैं? या आप अपने आस-पास होने वाले कारोबार के बारे में खोज रहे हैं और उसी जगह से जुड़ी जानकारी पाना चाहते हैं?

  • आपकी खोज से मिलान करना

    आपकी खोज से मिलान करना

    फिर, हम उन वेबपेज को ढूंढते हैं, जिन पर आपकी क्वेरी से मिलती-जुलती जानकारी होती है. जब आप कुछ खोजते हैं, तो सबसे बुनियादी स्तर पर हमारे एल्गोरिदम आपके सर्च के लिए शब्द को इंडेक्स में ढूंढते हैं. इंडेक्स के ज़रिए सही वेबपेज ढूंढे जाते हैं. वे जांचते हैं कि वे कीवर्ड, पेज पर कितनी बार और कहां दिखाई दे रहे हैं. जैसे, क्या कीवर्ड मुख्य शीर्षक में, शीर्षकों में या फिर लेख के बीच में कहीं दिख रहे हैं.

    कीवर्ड मिलाने के साथ, एल्गोरिदम इस बात की जांच करने के लिए संकेत ढूंढते हैं कि जो सर्च नतीजे दिखाई दे सकते हैं, वे किस हद तक इस्तेमाल करने वालों को वही दिखाएंगे, जिसे वे खोज रहे हैं. जब आप 'कुत्तों' के बारे में खोज रहे हैं, तो शायद आप कोई ऐसा पेज नहीं देखना चाहेंगे जिस पर सैंकड़ों बार 'कुत्ता' शब्द लिखा हो. हम यह समझने की कोशिश करते हैं कि क्या पेज पर आपकी क्वेरी का जवाब है या वहां पर क्या सिर्फ़ आपकी क्वेरी ही तो नहीं दोहरा दी गई है. तो, सर्च एल्गोरिदम यह जांचते हैं कि क्या पेजों पर आपकी क्वेरी से जुड़ी सामग्री है — जैसे, कुत्तों की तस्वीरें, वीडियो या फिर यहां तक कि उनकी किस्मों की सूची. आखिर में, हम यह जांचते हैं कि पेज उसी भाषा में हो, जिस भाषा में आपका सवाल है. इस तरह हम आपकी पसंदीदा भाषा में लिखे पेजों को आपको पहले दिखाते हैं.

  • उपयोगी पेजों की रैंकिंग करना

    उपयोगी पेजों की रैंकिंग करना

    किसी भी क्वेरी के लिए ऐसे हज़ारों या लाखों वेबपेज होते हैं, जिन पर दी गई जानकारी क्वेरी से जुड़ी हो सकती है. इसलिए, सबसे अच्छे पेजों को पहले रैंक करना बहुत ज़रूरी होता है. ऐसा करने के लिए भी हम एल्गोरिदम लिखते हैं, ताकि यह जांच की जा सके कि ये वेबपेज किस हद तक फायदेमंद हैं.

    ये एल्गोरिदम सैंकड़ों अलग-अलग पहलुओं की जांच करके वेब पर उपलब्ध सबसे अच्छी जानकारी ढूंढने की कोशिश करते हैं. जिन पहलुओं की जांच की जाती है उनमें, सामग्री का नयापन, आपके खोज शब्द कितनी बार दिखाए दिए हैं और पेज पर उपयोगकर्ताओं का अनुभव शामिल हैं. सामग्री के भरोसेमंद और प्रामाणिक होने का आकलन करने के लिए, हम ऐसी साइटें ढूंढते हैं जिन्हें एक जैसी क्वेरी के लिए, बहुत सारे लोगों ने अहमियत दी है. अगर उसी विषय से जुड़ी दूसरी खास वेबसाइट भी पेज के लिंक देती हैं, तो इसका मतलब है कि जानकारी की क्वालिटी अच्छी है.

    वेब पर ऐसी कई स्पैम साइटें हैं जो धोखेबाज़ी के तरीकों से सर्च नतीजों में ऊपर आने की कोशिश करती हैं. जैसे, बार-बार कीवर्ड दोहराना या PageRank को बढ़ाने वाले लिंक खरीदना. ये साइट, उपयोगकर्ताओं को खराब अनुभव देती हैं और Google उपयोगकर्ताओं को नुकसान पहुंचा सकती हैं या उन्हें गुमराह कर सकती हैं. इसलिए हम स्पैम की पहचान करने और Google के वेबमास्टर दिशा-निर्देशों का उल्लंघन करने वाली साइटों को अपने नतीजों से हटाने के लिए एल्गोरिदम लिखते हैं.

  • सबसे बेहतर परिणाम देना

    सबसे बेहतर परिणाम देना

    आपको नतीजे दिखाने से पहले, हम यह जांच करते हैं कि आपकी सर्च से जुड़ी मिलने वाली सारी जानकारी आपस में किस तरह से मेल खाती है: क्या सर्च नतीजों में सिर्फ़ एक ही बात से जुड़ी जानकारी दी गई है, या उसमें कई और बातें भी शामिल हैं? क्या एक छोटी सी बात की जानकारी से जुड़े बहुत सारे पेज दिखाए गए हैं? हम आपको बहुत तरह की जानकारी, सही फ़ॉर्मैट में देने की कोशिश करते हैं ताकि ये आपके काम आ सके. जैसे-जैसे वेब में बदलाव हो रहा है, वैसे-वैसे हम अपने रैंकिंग के तरीके को बेहतर बना रहे हैं ताकि हम ज़्यादा क्वेरी के लिए बेहतर नतीजे दिखा सकें.

  • संदर्भ पर विचार करना

    संदर्भ पर विचार करना

    आपकी जगह, पहले का सर्च इतिहास और सर्च सेटिंग जैसी जानकारी हमें उस पल में आपके लिए सबसे फ़ायदेमंद और आपकी खोज से जुड़े नतीजे दिखाने में मदद करती है.

    हम आपके देश और जगह की जानकारी लेते हैं. इसकी मदद से हम आपके क्षेत्र के हिसाब से उससे जुड़ी सामग्री आपको दिखाते हैं. उदाहरण के लिए, अगर आप शिकागो में है और आपने 'फ़ुटबॉल' खोजा है, तो यह उम्मीद ज़्यादा है कि Google आपको नतीजों में अमेरिकी फ़ुटबॉल के बारे में जानकारी दिखाए और उसमें शिकागो बियर्स (Chicago Bears) के बारे में पहले बताया जाए. जबकि, अगर आप लंदन में 'फ़ुटबॉल' खोजते हैं, तो Google सॉकर (फ़ुटबॉल) और इंग्लिश प्रीमियर लीग से जुड़े नतीजों को ऊंची रैंक देगा. सर्च सेटिंग से भी पता चलता है कि आपके लिए किस तरह के नतीजे फ़ायदेमंद हो सकते हैं. जैसे, अगर आपने अपनी पसंदीदा भाषा सेट की है या सुरक्षित खोज (ऐसा टूल जो आपत्तिजनक नतीजे हटाने में मदद करता है) का विकल्प चुना हुआ है, तो दिखने वाले नतीजों में बहुत फ़र्क हो सकता है.

    कुछ मामलों में, हम आपके नतीजों को आपके मनमुताबिक भी बना सकते हैं. इसके लिए हम आपकी हाल-फ़िलहाल के सर्च इतिहास की जानकारी हैं. उदाहरण के लिए, अगर आप 'ट्यूबलाइट' खोजते हैं और हाल ही में आपने 'बजरंगी भाईजान' को ढूंढा था, तो यह इस बात की ओर इशारा करता है कि आप नाम की फ़िल्म बारे में खोज रहे हैं, रोशनी करने वाली ट्यूबलाइट के बारे में नहीं. आप यह तय कर सकते हैं कि सर्च से जुड़ी आपकी किस गतिविधि का इस्तेमाल करके आपके अनुभव को बेहतर बनाया जाए. इसमें उस डेटा में बदलाव करना शामिल है, जो आपके Google खाते में सेव किया जाता है. इस्तेमाल की जाने वाली गतिविधि को आप myaccount.google.com पर तय कर सकते हैं.