Googlebot הוא רובוט סריקת האינטרנט של Google. הוא אוסף מסמכים מהאינטרנט ובונה אינדקס הניתן לחיפוש עבור מנוע החיפוש של Google. בדף זה, תמצא תשובות לשאלות הנפוצות ביותר על אופן פעולת סורק האינטרנט שלנו.
למידע מפורט אודות האופן שבו ניתן למנוע מ- Googlebot לסרוק את האתר שלך או כל חלק ממנו, אנא עיין בדף ההסרות שלנו.
| שאלות נפוצות |
- באיזו תדירות ייכנס Googlebot לדפי האינטרנט שלי?
- כיצד אוכל לבקש ש- Google לא יסרוק את האתר שלי , או חלקים ממנו?
- Googlebot סורק את האתר שלי מהר מדי. מה לעשות?
- מדוע Googlebot מבקש קובץ בשם robots.txt שאינו נמצא בשרת שלי?
- מדוע Googlebot מנסה להוריד קישורים שגויים מהשרת שלי? או משרת שאינו קיים?
- מדוע Googlebot מוריד מידע מהשרת ה"סודי" שלנו?
- מדוע Googlebot אינו מציית לקובץ robots.txt שלי?
- מדוע קיימות כניסות ממחשבים מרובים ב-Google.com, כולן עם סוכן משתמש Googlebot?
- האם תוכלו לתת לי את כתובת ה- IP שממנה Googlebot סורק, כדי שאוכל לסנן את היומנים שלי.
- מודע Googlebot מוריד את אותו הדף מספר פעמים מהאתר שלי?
- מדוע אין דפי האתר שלי שנסרקו על-ידי Googlebot מופיעים באינדקס?
- אחרי איזה סוג של קישורים Googlebot עוקב?
- כיצד אוכל למנוע מ- Googlebot לעקוב אחרי קישורים בדפים שלי?
- כיצד אוכל להורות ל- Googlebot שלא לסרוק קישור יוצא בודד בדף?
- השאלה שלי אודות Googlebot אינה נענית כאן. לאן אוכל לשלוח אותה?
| תשובות |
1. באיזו תדירות ייכנס Googlebot לדפי האינטרנט שלי?
במרבית האתרים, Googlebot אינו אמור לגשת לאתר שלך יותר מפעם כל כמה שניות בממוצע. עם זאת, בשל עיכובים ברשת, ייתכן שהקצב ייראה מעט גבוה יותר למשך פרקי זמן קצרים.
2. כיצד אוכל לבקש ש- Google לא יסרוק את האתר שלי או חלקים ממנו?
robots.txt הוא מסמך סטנדרטי היכול להורות ל- Googlebot לא להוריד חלק מהמידע באתר האינטרנט שלך או את כולו. תבנית הקובץ robots.txt מפורטת בכתובת Robot Exclusion Standard (קישור לאתר באנגלית). לקבלת הוראות מפורטות על האופן שבו ניתן למנוע מ- Googlebot לסרוק חלק מהאתר שלך או את כולו, עיין בדף ההסרות שלנו. זכור, שינויים בקובץ robots.txt של השרת לא ישתקפו מיידית ב- Google, הם יתגלו וישונו בפעם הבאה ש- Googlebot יסרוק את האתר שלך.
3. Googlebot סורק את האתר שלי מהר מדי. מה ניתן לעשות?
עבור אל צור קשר (קישור לגרסה באנגלית), ציין את כתובת האתר ותיאור מפורט של הבעיה. בנוסף, אנא כלול חלק של ה- weblog המציין את הכניסות של Google, כך שנוכל לאתר את הבעיה במהירות.
4. מדוע Googlebot מבקש קובץ בשם robots.txt שאינו נמצא בשרת שלי?
robots.txt הוא מסמך סטנדרטי היכול להורות ל- Googlebot לא להוריד את המידע, או חלק מהמידע, שבאתר האינטרנט שלך. לקבלת מידע על אופן יצירת קובץ robots.txt, ראה The Robot Exclusion Standard (קישור לאתר באנגלית). אם אתה רוצה רק למנוע הודעות שגיאה "file not found" ביומן שרת האינטרנט שלך, ניתן ליצור קובץ ריק בשם robots.txt.
5. מדוע Googlebot מנסה להוריד קישורים שגויים מהשרת שלי? או משרת שאינו קיים?
הימצאות קישורים פגומים או מיושנים ברשת בכל זמן נתון היא עובדה קיימת. בכל פעם שמישהו מפרסם קישור לא נכון לאתר שלך (אולי בשל טעות הקלדה או שגיאת כתיב) או שאינו מעדכן את הקישורים כך שישקפו שינויים בשרת שלך, Googlebot ינסה להוריד קישור שגוי מהאתר שלך. עובדה זו מסבירה גם מדוע אתה עלול לקבל כניסות ממחשב שכלל אינו שרת אינטרנט.
6. מדוע Googlebot מוריד מידע מהשרת ה"סודי" שלנו?
אין כמעט אפשרות לשמור על סודיות שרת באמצעות אי-פרסום קישורים כלשהם אליו. ברגע שמישהו עוקב אחרי קישור מהשרת ה"סודי" שלך לשרת אחר, כתובת האתר ה"סודית" שלך עלולה להופיע בתג המפנה, וניתן יהיה לאחסנה ולפרסם אותה באמצעות היומן המפנה של שרת האינטרנט האחר. כך שאם קיים במקום כלשהו באינטרנט קישור לשרת או לדף האינטרנט ה"סודי" שלך, סביר להניח ש- Googlebot ותוכניות סריקת אינטרנט אחרות ימצאו אותו.
7. מדוע Googlebot אינו מציית לקובץ robots.txt שלי?
כדי לחסוך ברוחב פס, Googlebot מוריד את הקובץ robots.txt רק פעם ביום, או בכל פעם שאנו מביאים דפים רבים מהשרת. לכן, יתכן שיידרש זמן מה עד ש- Googlebot יגלה את השינויים בקובץ robots.txt. בנוסף, Googlebot מפוזר על-פני מספר מחשבים. כל אחד מהם שומר רישום משלו של הקובץ robots.txt.
אנו מציעים תמיד לוודא שהתחביר נכון בהתאם לסטנדרד המפורט ב- http://www.robotstxt.org/wc/exclusion.html#robotstxt (קישור לאתר באנגלית). מקור נפוץ לבעיות היא העובדה שהקובץ robots.txt אינו ממוקם בספריה העליונה של השרת (למשל www.myhost.com/robots.txt); לאפסון הקובץ בספרית משנה לא תהיה כל השפעה.
בנוסף, קיים הבדל קטן בין הדרך שבה Googlebot מטפל בקובץ robots.txt לבין הדרך שבה אנו אמורים לעשות זאת בהתאם לתקן robots.txt (יש לשים לב לאבחנה בין "אמור" לבין "חייב"). לפי התקן, אנו אמורים לציית לחוק הראשון שניתן להחילו, לפיו Googlebot מציית לחוק הארוך ביותר (כלומר הספציפי ביותר) שניתן להחילו. נוהל זה, שהוא אינטואיטיבי יותר, תואם יותר למה שאנשים עושים באמת, ולמה שהם מצפים שאנו נעשה. לדוגמא, ראה את קובץ ה- robots.txt הבא:
Allow: /
Disallow: /cgi-bin
ברור שכוונתו של מנהל האתר במקרה זה היא להרשות לרובוטים לסרוק הכל למעט המדריך cgi-bin/. כתוצאה מכך, זה מה שאנו עושים.
לקבלת מידע נוסף, ראה שאלות נפוצות אודות רובוטים (קישור לאתר באנגלית). אם עדיין נראה שקיימת בעיה, נא יידע אותנו (קישור לאתר באנגלית).
8. מדוע קיימות כניסות ממחשבים מרובים ב- Google.com, כולן עם סוכן משתמש Googlebot?
Googlebot תוכנן כך שניתן יהיה לפזרו בין מספר מחשבים, לשם שיפור הביצועים והנפח במקביל לצמיחת האינטרנט. בנוסף, כדי לצמצם בשימוש ברוחב פס, אנו מפעילים סורקים רבים במחשבים הממוקמים בסמוך לאתרים שאנו סורקים לאינדקס ברשת.
9. האם אוכל לקבל את כתובת ה- IP ממנה Googlebot מבצע סריקה כדי שאוכל לסנן את היומנים שלי.
כתובת ה- IP שמשמשת את Googlebot משתנה מעת לעת. הדרך הטובה ביותר לזיהוי גישות של Googlebot היא להשתמש בסוכן משתמש (Googlebot).
10. מודע Googlebot מוריד את אותו הדף פעמים מרובות מהאתר שלי?
באופן כללי, במהלך סריקה נתונה, Googlebot אמור להוריד מהאתר שלך עותק אחד בלבד של כל קובץ. בהזדמנויות רבות הסורק נעצר ומופעל מחדש, פעולה הגורמת לסריקת דפים שהוחזרו לאחרונה.
11. מדוע דפי האתר שלי שנסרקים על-ידי Googlebot אינם מופיעים באינדקס?
אל תחשוש אם אינך מוצא מייד במנוע החיפוש של Google מסמכים שנסרקו על-ידי Googlebot. מסמכים מוזנים לאינדקס שלנו זמן קצר לאחר סריקתם. לפעמים, מסמכים המובאים על-ידי Googlebot לא נכללים בשל סיבות רבות (למשל, הם נראים כהעתקים של דפים אחרים באינטרנט).
12. אחרי איזה סוג של קישורים Googlebot עוקב?
Googlebot עוקב אחרי קישורים מסוג HREF ו- SRC.
13. כיצד אוכל למנוע מ- Googlebot לעקוב אחרי קישורים בדפים שלי?
כדי למנוע מ- Googlebot לעקוב אחרי קישורים בדפים שלך לדפים או למסמכים אחרים, עליך להוסיף תג meta מהסוג הבא בתחילת מסמך ה- HTML:
<META NAME="Googlebot" CONTENT="nofollow">
כדי לקבל מידע נוסף על תגי meta, עיין בקישור http://www.robotstxt.org/wc/exclusion.html#meta (קישור לאתר באנגלית); בנוסף, ניתן לקרוא מה נאמר בסטנדרד ה- HTML על תגים אלה (קישור לאתר באנגלית). זכור, שינויים באתר שלך לא ישתקפו מיידית ב- Google; הם יתגלו וישונו בפעם הבאה ש- Googlebot יסרוק את האתר.
14. כיתד אוכל להורות ל- Googlebot לסרוק קישור יחיד יוצא בדף?
תגי Meta יכולים לבודד מהכללה את כל הקישורים היוצאים בדף, אולם באפשרותך גם להורות ל- Googlebot שלא לסרוק קישורם פרטניים באמצעות הוספת rel="nofollow" להיפר-קישור. כאשר Google רואה את התכונה rel="nofollow" בהיפר-קישורים, קישורים אלה לא יקבלו נקודות זכות כלשהן בעת שאנו מדרגים אתרי אינטרנט בתוצאות החיפוש שלנו. לדוגמה, קישור כמו
<a href=http://www.example.com/>זהו קישור נהדר!</a>
ניתן להחליף בקישור
<a href=http://www.example.com/ rel="nofollow"> אינני יכול להעיד על קישור זה</a>.
15. השאלה שיש לי בדבר Googlebot לא קיימת בדף זה. לאן אוכל לשלוח אותה?
לשאלות לחץ על יצירת קשר (הקישור לאתר באנגלית).
