שם פרטי ומשפחה כבר אינם מספקים כדי לאתר אדם במנועי החיפוש באינטרנט; אלגוריתם משולב שפותח באוניברסיטת בן-גוריון יסייע באיתור יעיל של אנשים במנועי החיפוש

08:26 01.10.2021

קטגוריות: אינטרנט

תגים:

חברות המאתרות אנשים במסדי נתונים, חיפוש מועמדים לעבודה, איתור לקוחות וגם בקרב יחידים שברצונם לאתר קרובי משפחה וכיוצא בזה, בקרב כל אלו עולה צורך לאתר שמות של אנשים במנועי חיפוש. איתור אדם באמצעות שמו הוא פעולה שגרתית המתבצעת כיום באינטרנט.

ואולם, מנועי החיפוש השונים מספקים ביצועים נמוכים לשאילתות המכילות שמות פרטיים או שמות משפחה, כך שבמקרים מסוימים יהיה כמעט בלתי אפשרי למצוא אדם על פי שמו באינטרנט.

הסיבה לביצועים הנמוכים הקיימים במנועי החיפוש, נובעת מהעובדה שבניגוד למילה כללית [למשל המילה ‘כדור’, שיש לה דרך אחת ויחידה להיכתב], יש מספר דרכים אפשריות ולגיטימיות לכתוב שמות פרטיים ושמות משפחה. למשל: Victor לעומת Viktor או Sofia לעומת Sophia.

לכן, נוצר צורך בכלי יעיל שישפר את הצעת השמות הנרדפים בהינתן שם מהמשתמש. רוב הטכניקות שמנועי החיפוש השונים משתמשים בהן בימינו על מנת להציע שמות נרדפים, מתבססות על קידוד פונטי, מציאת דמיון בין זוג מילים, אולם אלה לרוב מספקות ביצועים חלשים.

עפ”י הודעה לעיתונות שפירסמה מחלקת הדוברות של אוניברסיטת בן-גוריון בנגב,  ד”ר מיכאל פייר, ד”ר רמי פוזיס והדוקטורנט אביעד אלישר מהמחלקה להנדסת מערכות תוכנה ומידע באב”ג פיתחו צמד אלגוריתמים פורצי דרך בתחום אחזור השמות, המנסים לפתור את הבעיה משתי זוויות שונות.

השיטות הללו נבנו על סמך מקור מידע עצום (dataset) הכולל כ-​17  מיליון בני אדם, ומכיל בתוכו מעל ל- 700,000 שמות פרטים ו- 500,000 שמות משפחה ייחודים. השיטות נבחנו על שלושה מקורות מידע מקוטלגים של שמות פרטיים ומשפחה הכוללים אלפי ועשרות אלפי שמות פרטיים ושמות משפחה מאומתים. ביצועי השיטה הושוו ל- 10 אלגוריתמים שונים הכוללים קידוד פונטי, דמיון מילים ואלגוריתמים מבוססי למידה עמוקה ולמידת מכונה מהשנים האחרונות. האלגוריתמים המוצעים הציגו עליונות מובהקת באיתור השמות ופורסמו בכתבי עת יוקרתיים.

“הנתונים המרשימים שהתקבלו מדגישים את פריצת הדרך ואת הפוטנציאל העצום בשיטות המוצעות על מנת להקל במציאת אנשים על סמך שמות נרדפים”, אמר ד”ר מיכאל פייר. “בימים אלו אנו שוקדים על ייצור אתר שיהיה נגיש לכולם ויאפשר לאתר אנשים באמצעות האלגוריתמים שפיתחנו”, הוסיף ד”ר רמי פוזיס.​