Penelitian AI Memperkenalkan SafeEdit: Tolok Ukur Baru untuk Menyelidiki Detoksifikasi LLM melalui Pengeditan Pengetahuan
Pendahuluan Dengan kemajuan Model Bahasa Besar (LLM) seperti ChatGPT, LLaMA, dan Mistral, kekhawatiran tentang kerentanan mereka terhadap kueri berbahaya semakin meningkat, sehingga diperlukan perlindungan yang kuat. Pendekatan seperti fine-tuning yang diawasi (SFT), pembelajaran penguatan dari umpan balik manusia (RLHF), dan optimalisasi preferensi langsung (DPO) telah banyak diadopsi untuk meningkatkan keamanan LLM, memungkinkan mereka menolak kueri berbahaya. Tantangan dalam Detoksifikasi LLM Meskipun ada kemajuan ini, model yang selaras mungkin masih rentan terhadap permintaan serangan yang canggih, menimbulkan pertanyaan tentang modifikasi yang tepat dari wilayah beracun dalam LLM untuk mencapai detoksifikasi. Studi terbaru telah menunjukkan bahwa pendekatan sebelumnya, seperti DPO, mungkin hanya menekan aktivasi parameter beracun tanpa secara efektif mengatasi kerentanan yang mendasarinya, menggarisbawahi pentingnya mengembangkan metode detoksifikasi yang tepat. Pengeditan Pengetahuan untuk Detoksifikas