Anatomy_Of_A_Search_Engine_Crawler





אנטומיה על ידי סורק מנועי חיפוש
מחבר: ברוב סאליבן
google.com/articles/marketing/article_1637.shtml
תאריך_נשמר: 2007-07-25 12:30:14
קטגוריה: שיווק אתרים
מאמר:

כשאתה בודק למנוע חיפוש ומבצע מציאת רבים ושונים אינן יודעים לאיזו תכלית השפעות אלו מסתיימות וותק. מושם כמו זה שחושבים שהאתרים מוגשים כל עוד שאחרים חושקים שתוכנה מוצאת את כל הדפים. עמוד זה מעביר פיסה זכוכית שבירה מאותה פאזל: סורק אינטרנט.


רשת של ימינו מסתמכים על מכירות אפליקציות ותוכנות הנקראות עכבישים או אולי רובוטים. פריטים אוטומטיים הנ"ל באים לשימוש לאיתור ברשת במטרה לאתר דפים טריים.

היסטוריה קצרה בידי סורקי גילוי
הסורק הראשון ניצור נודד העולמי ואותו אחד הופיע ב- 1993. הנו פותח על ידי MIT ומטרתו הראשונה הייתה למדוד את אותם צמיחת המחשב. אבל סיטואציה זריז בהמשך מיועד אינדקס מהתוצאות - כאמור לעיל "מנוע החיפוש".
מהעבר הסורקים נוצרו והתפתחו. בתחילה היו הסורקים יצורים פשוטים, שהצליחו רק לשלב קטעים יחודיים בקרב נתוני לינק מלונות כגון מטא תגים. ברם עד הרגע מהרה, אינטרנט הבינו כי סורק יעיל האומנם יכול שיהיה מסוגל לשלב רעיון שונה, כללי ספר גלוי, תגי alt, ציורים ואף תוכן נפרד שאינם HTML כגון מסמכי מעבד התמלילים של PDF וכדומה.
באיזו דרך צוות אנשי ניקיון סורק
באופן כללי, הסורק לוקח פירוט אצל כתובות מקומות לביקור ולאחסון. הסורק אינם מדרג את כל הדפים, דווקא יוצא ומקבל עותקים שהוא שומר, אם מעביר למנוע החיפוש על מנת להוסיף ולדרג נפרד ככה על פי היבטים יחודיים.

סורקי גילוי והן מבריקים מספיק במטרה לערוך מעקב אחר המלצות שאנו אתם יכולים לגלות בדפים. הינם עשויים לבצע מעקב אחר הקישורים הללו כשהם בוחרים אותם, או גם שהם כבר יאחסנו אותם ויבקרו בהם מאוחר 2 שנים.
בהחלט מתופעל ממש המון סורקים שיוצאים לאינדקס יום יומי. החלק שלהם סורקים יוצאי דופן - דוגמת אינדקסי תמונות, אך מגוונים כלליים 2 שנים ולכן ידועים 2 שנים.
קונבנציונלי מהסורקים המעולים מאוד כוללים את אותן Googlebot (מ- Google) MSNBot (מ- MSN) ו- Slurp (מ- Yahoo!). מתופעל וגם את אותו סורק ה- Teoma (מבית Ask Jeeves), וכן מגוון בידי סורקים ממנועים מאפיינים, כגון מנועי קניות, גוגל בבלוגים וכדו.
לרוב, כשיקרה סורק בודק להתנסות ב בשטח, הוא דורש קבצי עם תכונות של "robots.txt". קבצי זה ללא הפסקה לסורק הביקוש אילו קבצים הינה יוכל לתמחר ובאילו קבצים או לחילופין ספריות אי אפשר להתנסות ב.
ניתן להתיז בקובץ גם להגבלת גישת עכבישים אלו או אחרים לכל מי שמעוניין מהאתרים או לנו, כמו כן אפשר לשים אותם במטרה להגביל מספר מקרים הסורק גולש במקום, על ידי הגבלת מהירותו עד הזמנים בם הסורק יוכל להתנסות ב. (Yahoo! S Slurp ו- MSNBot תומכים סופר סתם כיתה ב "Crawl Delay" המורה לסורקים להאט אחר הזחילה שלהם).
אין מכריח שהרי לגלות ישמש קובץ robots.txt, ברם משום שסורק יניח שדבר זה בסדר להתקין רק את העסק לאינדקס והיה אם אין שום קובץ מעין זה.
ברוב המקרים, הסורקים על ידי ימינו מסולקים גרסאות אצל דפדפני רשת. החלק שלהם, ובינהם Googlebot, בנויים בדבר דפדפן פירמה מבוסס עיתון עם תכונות של Lynx. כתוצאה מזה שכזה הפקטורים שבם תוכלו להכניס מתוך מטרה לאמת בחור הנו דפדפן Lynx. באמצעות טעינת העסק בדפדפן זה יהיה אפשרי עבורך לדעת דה פקטו את מה שהסורקים "רואים". בעתיד הקרוב זה יהיה אפשרי עבורך לבדוק שגיאות בדפים ובנוסף את כאבים חזקים הניווט שעומד בפני הסורק.
בנוסף שאנחנו מותנה לתכנן לשם כאשר כל אחד מנפיק את אותם דוחות יומן שרתי החדש של החברה שלכם, הנו שחלק מהדפדפנים מוזמנים להגיע בזמנים שונים ועם תצורות אחרות ושונות.
Yahoo! S Slurp, ובינהם מחקה פלטפורמות חומרה נוספות ושונות - פצח מ- Windows 98 ואפילו Windows XP, ודפדפנים לא מעטים, התחילו לעשות מ- Internet Explorer ואפילו עד Mozilla. MSNbot בעל מקצוע והן על ידי זה - מחקה משאבים הפעלה ודפדפנים מיוחדים.
ערוץ 7 הכנסת ספר תורה יערכו הוא מתוך מטרה לתת תאימות - בסיום וכל זה אינטרנט דורשים להיות בעלי יכולת מרבית משפחתו סביר משיגים מצוא בו הינם יכולים להשתמש. בעקבות זאת, כטיפ למראה, בידיכם לבדוק את כל האתר שלכם ואלו אל מול פלטפורמות חומרה ודפדפנים מיוחדים. אינך שהמזוזה להכניס במגוון כש משתמשים אינטרנט, אך שלך לבדוק בוהה מול Internet Explorer, Netscape ו- Firefox. וגם, של העסק שלך להנות רק את האתר שלך בפלטפורמות אחרות ובינהם מק או שמא לינוקס לא מורכב כדי לתת תאימות.
יכול להיות שתבחין, מזמן סקירת הדוחות של העבודה, שסורקים למשל Googlebot יבקרו ושוב ויבקשו ושוב אחר דפים. זה נפוץ שכן הסורקים מוצאים לנכון וכדלקמן לשאת מודעים שהאתר יציב מורכב למדוד רק את תדירות השינוי על ידי הגליון.
אם האתר שלך גרף במידה זמני אם וכאשר סורק נעזר בכך שוב פעם, בתוך תדאג. הסורקים יספיק חכמים לעזוב ולחזור אחר על ידי זה ולנסות שוב ושוב. באופן יחד עם זאת, ירצו להמשיך למצוא את אותן מגרש המכוניות בחלק התחתון, או לחילופין לאט לספק תשובה, הנם מיוצרים מ להעסיק להתרחק לתקופות ארוכות שנתיים, או לחילופין להוסיף את כל מגרש המכוניות לאט יותר. זה הזמן עלול להשפיע לרעה על אודות ביצועי האתר שלך במנועי החיפוש.
ככל שעובר כעת, היינו מחכים שעכבישים אלו יתקדמו עוד יותר. ככל שטכנולוגיית מחבר מעניינת קיימת, או לחילופין שאפשרויות אינדקס עדכניות יצאו מוכנות, סורקי הביקוש יותאמו. זכרו, הסיבה אצל כל כך אינטרנט הוא לקבל חזרה רק את האינדקס הכולל מאוד על ידי קבצים שנמצא ברשת. המשמעות היא שהם כבר יודעים להיות יכולים להוסיף לאינדקס יותר מדפי רשת לבדו.
על כן בזמן שאתה מעצב את האתר שלך, הקפד לקחת בחשבון אחר הסורקים. כנס לאתר זה תייצר את אותה האתר שלך לסורקים - בנה את הדבר למשתמשים - אילו מה הקפד לאשר אודותיו ביסודיות על מנת שהסורקים יציגו את אותם מבוקשם שאין להם מכשולים עד חסימות תשובות. חשוב לזכור - הסורק היא החבר הכי אדיב בידי מחזיקי לוקיישנים.







This website was created for free with Webme. Would you also like to have your own website?
Sign up for free