محققان چینی از نقص های امنیتی در مدل های هوش مصنوعی پرده برداشتند
محققان چینی از یک حفره امنیتی قابل توجه در مدل های زبان بزرگ چندتایی تجاری (MLLMS) مانند ChatGPT، بارد و بینگ چت رونمایی کرده اند. این مدل ها که توسط غول های فنی مانند گوگل، مایکروسافت و بایدو مستقر شده اند، کامپوننت های اساسی برنامه های مختلف، از دستیاران مجازی گرفته تا سیستم های تعدیل محتوا هستند.
محققان دریافتند که میتوان از آسیبپذیریهای موجود در این MLLMها با استفاده از تصاویر دستکاری شدهای که شباهت زیادی به نمونههای اصلی دارد، استفاده کرد. محققان با ایجاد تغییرات جزئی تقریباً برای چشم انسان نامرئی، به طور موثر فیلترهای داخلی مدل ها را که برای از بین بردن محتوای سمی یا نامناسب طراحی شده بودند، دور زدند.
به عنوان مثال، محققان در پکن آسیب پذیری قابل توجهی را در مدل های هوش مصنوعی مانند ChatGPT شناسایی کرده اند. در صورت حمله، این مدلها میتوانند پانداهای غولپیکر را با انسان اشتباه بگیرند یا محتوای مضر را شناسایی نکنند، که نشان دهنده یک نقص امنیتی مهم در سیستمهای هوش مصنوعی تجاری است. در میان مدلهای آسیبدیده، Bard، مجهز به مکانیسمهای تشخیص چهره و سمیت، میتواند در صورت به خطر افتادن، توصیفهای نامناسبی از محتوای مضر ایجاد کند.
تیم تحقیقاتی چینی حتی کدی را ارائه کرد که نشان میدهد چگونه این نمونههای متخاصم میتوانند مدلهای هوش مصنوعی را گمراه کنند. آزمایشهای آنها نرخ موفقیت 22 درصدی را در برابر بارد، 26 درصدی در برابر بینگ چت و 86 درصدی را در برابر ارنی بات به دست آورد. وو ژائوهوی، معاون وزیر علوم و فناوری چین، در نشست جهانی امنیت هوش مصنوعی در بریتانیا به این یافتههای نگرانکننده پرداخت. او بر نیاز فوری به کنترلهای ریسک فنی قویتر در حکمرانی هوش مصنوعی تأکید کرد و از جامعه جهانی خواست آسیبپذیریهای کشفشده در این مدلهای زبانی پرکاربرد را برطرف کنند.
یکی از چالشهای کلیدی که در این تحقیق برجسته شده، عدم تعادل موجود بین تلاشهای متمرکز بر حمله و دفاع از مدلهای هوش مصنوعی است. در حالی که حملات خصمانه توجه قابل توجهی را به خود جلب کرده، کمبود استراتژی های دفاعی قوی همچنان وجود دارد. روشهای دفاع سنتی ممکن است به قیمت دقت و منابع محاسباتی تمام شود، که کشف راهحلهای نوآورانه را ضروری میسازد. برای رفع این آسیبپذیریها، محققان دفاعهای مبتنی بر پیش پردازش را به عنوان یک راهحل بالقوه، بهویژه برای مدلهای پایه در مقیاس بزرگ پیشنهاد کردند. هدف این دفاع ها اطمینان از استحکام MLLM ها در برابر حملات متخاصم است و راه را برای تحقیقات و توسعه آینده در امنیت هوش مصنوعی هموار می کند.