משרד האוצר פירסם הזמנה להשתתף בהליך מיון מוקדם (PQ) במסגרת מכרז פומבי [רקמ”ה] לבחירת מערכת מידע להנגשת נתוני עתק ממשלתיים למחקר ולפיתוח

משרד האוצר/החשב הכללי פירסם הזמנה להשתתף בהליך מיון מוקדם (Pre Qualification, PQ)  במסגרת מכרז פומבי מספר 18-2022 לבחירת מערכת מידע להנגשת נתוני עתק ממשלתיים למחקר ולפיתוח. המועד האחרון להגשת הצעות הוא 15 ביוני 2022.

“הוועדה המיוחדת בראשות אגף החשב הכללי במשרד האוצר ובהשתתפות מטה המיזם הלאומי “ישראל דיגיטלית” ומשרד החדשנות, המדע והטכנולוגיה, יוצאת במכרז “רקמה”: רשת לקידום מדעי הנתונים בישראל ומפרסמת בזאת את שלב המיון המוקדם במסגרת המכרז.

“מטרת השירותים שיסופקו מכוח המכרז הינה הקמת מערכת להנגשת נתוני עתק ממשלתיים למשתמשים מתוך הממשלה ומחוצה לה, למטרות מחקר אקדמי פורץ דרך ופיתוח פתרונות טכנולוגיים למען החברה והכלכלה.

עיקרי השירותים הנדרשים במכרז זה:

+  מיפוי מאגרי המידע במשרדים הממשלתיים שיוגדרו כפיילוט, וסיוע בסיווג רגישותם ותעדופם;

+  סידור וארגון מאגרי המידע, טיובם וחילוץ ישויות וקשרי גומלין;

+  חיבור בין מאגרי המידע השונים בכל משרד והנחת תשתית לחיבור בין מאגרים ממשרדים שונים;

+  התקנת מערכת בכל אחד ממשרדי הפיילוט להנגשת נתוני העתק, תחזוקה שוטפת של המערכת ואחריות כוללת לתפעולה;

+  הנגשת נתוני העתק למשרדי הממשלה השונים ולמשתמשים חיצוניים באקדמיה ובתעשייה;

+  הקמת ממשק משתמש פתוח לציבור לגישה לנתוני עתק;

+ הקמת ממשק משתמש לניהול הגישה לנתוני העתק;

+ בניית תכנית הכשרה למשרדי הממשלה כך שבסיום הפרוייקט כלל המאגרים והמידע יהיה זמין לשימוש, ניהול ותפעול שוטף של משרדי הממשלה;

+  הרחבת הפריסה ומתן כלל השירותים הנדרשים במכרז ליחידות ממשלתיות נוספות לאחר הפיילוט בהתאם לדרישות עורך המכרז.

“מציעים אשר יעברו את שלב המיון המוקדם, יעברו לשלב מיון נוסף, בסופו יבחר עורך המכרז את הזוכה במכרז. הזוכה שייבחר במכרז יחתום על הסכם התקשרות (כפי שיפורסם במסמכי המכרז בשלב המיון הנוסף) עם עורך המכרז לתקופה של שבע שנים, כאשר לעורך המכרז שמורה הזכות להאריך את תקופת ההתקשרות לשתי תקופות נוספות בנות 3 שנים כל אחת. לעורך המכרז שמורה הזכות להאריך את תקופת ההתקשרות לפרקי זמן קצרים יותר והכל לפי שיקול דעתו הבלעדי וכפי שיפורט במסמכי הבקשה המפורטת”.

“מטרת מכרז רקמ”ה היא להקים מערכת להנגשת נתוני עתק ממשלתיים למשתמשים מתוך הממשלה ומחוצה לה, למטרות מחקר אקדמי פורץ דרך ופיתוח פתרונות טכנולוגיים למען החברה והכלכלה. הרשת תחבר בין משרדים שונים מבלי שיהיה צורך להעביר את המידע למאגר מרכזי, ותהיה מורכבת מאגמי מידע מבוזרים שכל אחד מהם ישב ביחידה ממשלתית אחרת, ומפורטל חוקרים מרכזי שיאפשר גישה אחידה למערכת עבור משתמשיה השונים. בהיבט הארגוני, כל משרד יהיה חופשי להצטרף ולהתנתק מהמערכת, ואחראי באופן בלעדי למידע של משרדו, ומינהלת מרכזית תסייע בתפעול הרשות ובסנכרון בין כלל המשרדים.

רקע למכרז: “בשנים האחרונות, מחקרים בנתוני עתק בתחומים כמו בריאות, רווחה, חקלאות, חינוך ותעסוקה הצליחו להציל את חייהם של מיליוני בני אדם, ולשפר באופן משמעותי את השירות הניתן לאזרח בכל תחומי החיים. ואולם, בעוד שבמגזר הפרטי נעשה שימוש אינטנסיבי בנתוני עתק, קיים פוטנציאל עצום לשימוש בנתונים ציבוריים אשר נמצא בתחילת הדרך.

“הנגשת נתוני עתק היא תהליך המאפשר למשתמשים גישה לנתוני העתק עצמם, לצורך בניית מודלים מורכבים, המאפשרים אבחון, חיזוי וניתוח סיבות ותוצאות (וזאת, בניגוד להנגשת מידע אגרגטיבי, המבוצעת באמצעות מערכות BI, ומאפשרת למשתמשים להגיע אך ורק אל טבלאות וגרפים סיכומיים ולא אל נתוני העתק עצמם). בממשלה נוצרים נתוני עתק מסוגים שונים, אולם הנתונים המאתגרים ביותר להנגשה הם נתוני העתק שבבסיסם עומד מידע פרטי על התושבים, לרבות נתוני בריאות, חינוך, רווחה, תעסוקה, צריכה, דמוגרפיה, מיסוי, משפט, תקשורת, ספורט, עלייה וקליטה, שירותי דת ותרבות.

“אחד האתגרים המשמעותיים בעת ביצוע מחקרים בנתוני עתק לתועלת הציבור הוא אתגר השמירה על הפרטיות. מחד, ככל שהמידע שמונגש למשתמשים לצורך המחקר מדויק יותר ומפורט יותר, כך עולה הסיכון התיאורטי שהמידע שהונגש למשתמשים יאפשר להם להתחקות אחר מידע פרטי של אזרחים, וכך תיפגע הפרטיות של האזרחים שמאחורי המידע. מאידך, ככל שהמידע המונגש למשתמשים עמום יותר וכללי יותר, כך נפגעת היכולת להסיק מן המידע מסקנות רלבנטיות, ולייצר באמצעותו מחקרים פורצי דרך.

“אתגר נוסף השלוב באתגר הפרטיות ומקשה על הנגשת נתוני עתק למשתמשים הוא הקושי לשלב בין מאגרי מידע הנמצאים ביחידות ממשלתיות שונות. לרוב, מחקרים המבקשים למצוא קשר סיבתי בשדה החברתי נדרשים להתבונן לעומק במידע המגיע מתחומים שונים של פעילות הממשלה.

“ואולם, בשל הרצון לשמור על פרטיות האזרחים, כל העברת מידע שמהווה סיכון לפרטיות בין שני משרדים ומעלה דורשת הליך בירוקרטי, ומשום כך ישנו קושי בהנגשת מידע שיאפשר מחקרי עומק על נתונים בין- משרדיים. היות ולכל משרד ממשלתי יש תחום מקצועי נפרד ומובחן, ועל כן כל אחד מהמשרדים מנהל ומתפעל מאגרי מידע משלו בתחומו, יש תועלת רבה בפתרון רשתי, שיאפשר לכל משרד ממשלתי שליטה מלאה במידע שבאחריותו, ויחד עם זאת יאפשר להנגיש למשתמשים נתוני עתק בין-משרדיים.

“השיטה המרכזית שבה נעשה שימוש עד כה בישראל לצורך התמודדות עם אתגרי פרטיות בעת הנגשת מידע למשתמשים היא התממה (De-identification). במסגרת שיטה זו, מוסרים מן המידע המקורי פרטים אישיים, ומבוצעים שינויים מינוריים בפרטי המידע המזהים למחצה הנמצאים במידע, וזאת על מנת להקטין את הסיכוי לזיהוי מחדש של פרטים מתוך המידע.

“שיטה זו עשויה להביא תועלת רבה, אך היא אינה חפה מבעיות, וזאת משום שמחד, המידע המותמם עלול להיות שונה מהותית מהמידע המקורי, באופן המקשה על קיום מחקר, ומאידך, גם מידע מותמם טומן בתוכו סיכונים (Re-Identification Risk)  ולגילוי זהות (Identity Disclosure Risk). מעבר לחשש מפני הפגיעה בפרטיות כשלעצמה, הרי שקיומו של סיכון ולו הקטן ביותר לפרטיות הנבדקים, מביא להפיכתו של תהליך ניהול הנגשת המידע המותמם למורכב יותר, הדורש ניהול סיכונים מפורט עבור כל בקשת מחקר, ובחלק מן המקרים כינוס ועדה ייעודית עבור כל בקשת מחקר.

“לאחרונה הושקו בישראל חדרי מחקר המציגים גישה שונה לאתגר הפרטיות, המבוססת על יצירת מידע מלאכותי, המתאר אוכלוסייה פיקטיבית שאינה קיימת במציאות, אך חולק עם המידע המקורי את אותם המאפיינים הסטטיסטיים, ומשום כך מאפשר הסקת מסקנות סטטיסטיות על האוכלוסייה המקורית.

“מספר ארגונים בישראל ובעולם קבעו  כי בנסיבות מסוימות ניתן להבטיח כי שימוש במידע שכזה אינו יוצר סיכון לזיהוי מחדש של בני אדם מן האוכלוסייה המקורית. הנגשה של מידע תקף מדעית שאינו מייצר סיכוני פרטיות עשוי להוביל למהפכה של ממש בהנגשת המידע הממשלתי, בשל היכולת להנגיש כמויות גדולות יותר של מידע, למגוון משתמשים רחב יותר, תוך צמצום הנטל הבירוקרטי הכרוך בהנגשת המידע.

“זאת ועוד, האפשרות להנגיש מידע בין משרדי באופן שאינו מייצר סיכון לפרטיות צפויה להקל משמעותית על המאמץ הבירוקרטי הכרוך בהנגשת מידע בין-משרדי.

“לאור זאת, מפורסם מכרז זה, שעיקרו מציאת פתרון רשתי להנגשת נתוני העתק למשתמשים למטרות קביעת מדיניות, מחקר ופיתוח. “פתרון רשתי” לעניין זה הוא פתרון טכנולוגי המאפשר הקמת רשת שבה כל אחת מהנקודות מתפקדת באופן אוטונומי, והקשר ביניהן מתאפשר באמצעות ממשקי תוכנה ייעודיים, המאפשרים העברות כל סוגי המידע לפי הצורך ובכפוף לאישורים הנדרשים.

“הקמת הרשת אינה משנה את מבנה הבעלות והאחריות על הנתונים של משרדי הממשלה השונים. הרשת אינה כוללת מאגר מידע מרכזי. במקום זאת, היא מאפשרת למשתמשים קבלת גישה למידע המאוחסן במשרדים שונים וביצוע אנליזה רב תחומית על מידע זה. באופן זה, יכולים המשתמשים לעבוד מול ממשק משתמש אחיד ופשוט, ולבצע שאילתות מורכבות שהתשובה להן טמונה במידע רב תחומי המבוזר בין מאגרים שונים.

“היות וחלק מן המשתמשים יהיו מעוניינים לקבל בשלב מסוים של הפעילות גם גישה למידע מותמם או מידע גולמי (כלומר, גישה למידע שיש בהנגשתו חשש לפגיעה בפרטיות), תחת הגבלות, חיוני כי המערכת המוצעת תהיה מערכת המסוגלת להנגיש, בנוסף למידע שאינו מהווה פגיעה בפרטיות, גם מידע המהווה פגיעה בפרטיות (כגון מידע שעבר התממה ומידע גולמי בלתי מותמם), בכפוף לאישורים הנדרשים. לצד זאת, חיוני כי הפתרון הטכנולוגי יאפשר גם הנגשה של נתוני עתק תקפים מדעית שאינם מהווים פגיעה בפרטיות.

“משתמשי מערכת שכזו כוללים משרדי ממשלה וגופים ציבורים שונים הלוקחים חלק בהנגשת המידע, וגם משרדי ממשלה, יחידות ממשלתיות וגופים ציבורים שאינם מנגישים מידע במסגרת הפרוייקט; תאגידים סטטוטוריים; יחידות סמך; משתמשים מגופי מחקר ואקדמיה מגוונים; וכן חוקרים ומפתחים מן התעשייה. משתמשים אלה עשויים להגיע מישראל ומחוצה לה. חשוב לציין בהקשר זה כי במונח “חוקרים” שבו נעשה שימוש בחלקים ממסמך זה, הכוונה היא לכל משתמשי המערכת המעוניינים להפיק תובנות מנתונים, לרבות משתמשים מהאקדמיה, מהתעשייה, מהממשלה ומהמערכת הציבורית.

“היכולת להנגיש מידע תקף מדעית שאין לגביו חשש לפגיעה בפרטיות היא יכולת ליבה בפרוייקט. עם זאת, חשוב להדגיש כי הפרוייקט הנדרש אינו רק פרוייקט אלגוריתמי, אלא פרוייקט מלא להקמה ותחזוקה של מערכת מידע ולליווי טכנולוגי של תהליכי העבודה הכרוכים במערכת, ומשום כך ייבחרו מציעים המסוגלים לכלל האתגרים הכרוכים במימוש פרוייקט מסוג זה”.