Bypassing the Safety Training of Open-Source LLMs with Priming Attacks

Jason Vega*, Isha Chaudhary*, Changming Xu*, Gagandeep Singh. “Bypassing the Safety Training of Open-Source LLMs with Priming Attacks.” ICLR Tiny Paper ’24 (invite to present)