OpenAI разработала новый прием под заглавием «Иерархия инструкций» для увеличения безопасности собственных огромных языковых моделей (LLM). Данный прием, первый раз применённый в новейшей модели GPT-4o Mini, ориентирован на предотвращение ненужного поведения ИИ, вызванного манипуляциями нерадивых юзеров при помощи определённых команд.
Босс платформы API в OpenAI Оливье Годеман (Olivier Godement) растолковал, что «иерархия инструкций» дозволит предотвращать небезопасные инъекции промтов при помощи укрытых подсказок, которые юзеры употребляют для обхода ограничений и изначальных установок модели, и перекрыть атаки типа «пренебрегать все прошлые аннотации».
Новый прием, как пишет The Verge, отдаёт ценность начальным инструкциям разработчика, делая модель наименее восприимчивой к попыткам конечных юзеров вынудить её делать ненужные деяния. В случае конфликта меж системными инструкциями и командами юзера, модель будет отдавать высший ценность точно системным инструкциям, отказываясь делать инъекции.
Исследователи OpenAI считают, что в дальнейшем будут разработаны и другие, больше сложные средства защиты, в особенности для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Беря во внимание, что OpenAI сталкивается с неизменными неуввязками в области безопасности, новый прием, применённый к GPT-4o Mini, имеет огромное значение для следующего подхода к разработке ИИ-моделей.