פרצת אבטחה AI: חוקרים גילו שג'מיני מציע כלים המאפשרים לתקוף אותו

Yossi Demri
09/04/2025
06:56

חוקרים בתחום אבטחת המידע גילו דרך להפוך את ג'מיני של גוגל לפגיע יותר להתקפות על ידי שימוש בכלים שהוא מציע בעצמו למשתמשים.

הטכניקה פותחה על ידי צוות חוקרים מאוניברסיטת קליפורניה בסן דייגו ומאוניברסיטת ויסקונסין. השיטה, שקיבלה את השם כיוונון-כיף (Fun-Tuning), מגדילה באופן משמעותי את שיעור ההצלחה של התקפות הזרקת הנחיות (Prompt Injection), שבהן מוטמעות הוראות נסתרות בטקסט שמודל הבינה המלאכותית נוהג לקרוא. התקפות אלה עלולות לגרום למודל להדליף מידע, לספק תשובות שגויות או לבצע פעולות בלתי רצויות אחרות.

הייחודיות בשיטת כיוונון-כיף טמונה בניצול תכונת הכיוונון העדין של ג'מיני, שפותחה במטרה לאפשר לעסקים לאמן את המודל על בסיסי נתונים מותאמים אישית. החוקרים השתמשו בה באופן יצירתי כדי לבדוק ולדייק הזרקות של הנחיות באופן אוטומטי, כאילו הם מלמדים את הצ'אטבוט החכם איך לעבוד על עצמו.

המהות של כיוונון-כיף היא יצירת קידומות וסיומות מוזרות, שמתווספות להזרקות הנחיות לא מוצלחות אחרות. תוספות אלו משמשות כמעין "מגבר" להנחיה, ובכך מייעלות את סיכויי ההצלחה שלה. לדוגמה: ניתן להפוך הנחיה שנכשלה למוצלחת על ידי תוספות כמו "Formatted!" ו- "ASAP".

הניסויים הראו כי שיטת הפריצה הניבה 65% הצלחה ב- Gemini 1.5 Flash ו- 82% הצלחה ב- Gemini 1.0 Pro, שיפור משמעותי של יותר מפי שניים לעומת שיעורי ההצלחה בלי כיוונון-כיף. בנוסף, ההתקפות הראו עקביות בין מודלים שונים, כאשר הזרקה מוצלחת באחד מהם לרוב פעלה גם במודלים אחרים.

הפגיעות קשורה לאופן שבו מתבצע כיוונון-עדין. בתהליך האימון, ג'מיני משתמש בציון "אבוד" כמשוב, המציין את ההבדל בין תשובת המודל לתוצאה האידיאלית. תוקפים יכולים להשתמש במידע הזה כדי לשפר את ההנחיות שלהם באופן איטרטיבי, עד שהם משיגים הנחיה יעילה.

תגובת גוגל לטכניקת כיוונון-כיף הייתה כללית. דובר החברה הצהיר כי "ההגנה מפני מתקפה מסוג זה נמצאת בעדיפות מתמשכת עבורנו" והפנה לאמצעי הגנה קיימים כנגד הזרקות הנחיות ותגובות מזיקות. כמו כן, החברה ציינה כי ג'מיני עובר בדיקות שגרתיות כנגד התקפות מסוג זה באמצעות תרגילים פנימיים הנקראים "צוות אדום".

החוקרים שפיתחו את הטכניקה סבורים כי הפתרון לבעיה הזו עשוי להיות מורכב, מפני שהמשוב המאפשר את כיוונון-כיף הוא חלק בלתי נפרד מפעולת הכיוונון העדין. במילים אחרות, כשמנסים להפחית את היעילות שלו עבור כיוונון-כיף עלולה להיות פגיעה בתועלת הכוללת של הכיוונון-העדין.