OpenAI повысит безопасность собственных ИИ-моделей при помощи «иерархии инструкций»

OpenAI разработала новый прием под заглавием «Иерархия инструкций» для увеличения безопасности собственных огромных языковых моделей (LLM). Данный прием, первый раз применённый в новейшей модели GPT-4o Mini, ориентирован на предотвращение ненужного поведения ИИ, вызванного манипуляциями нерадивых юзеров при помощи определённых команд.

Босс платформы API в OpenAI Оливье Годеман (Olivier Godement) растолковал, что «иерархия инструкций» дозволит предотвращать небезопасные инъекции промтов при помощи укрытых подсказок, которые юзеры употребляют для обхода ограничений и изначальных установок модели, и перекрыть атаки типа «пренебрегать все прошлые аннотации».

Новый прием, как пишет The Verge, отдаёт ценность начальным инструкциям разработчика, делая модель наименее восприимчивой к попыткам конечных юзеров вынудить её делать ненужные деяния. В случае конфликта меж системными инструкциями и командами юзера, модель будет отдавать высший ценность точно системным инструкциям, отказываясь делать инъекции.

Исследователи OpenAI считают, что в дальнейшем будут разработаны и другие, больше сложные средства защиты, в особенности для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Беря во внимание, что OpenAI сталкивается с неизменными неуввязками в области безопасности, новый прием, применённый к GPT-4o Mini, имеет огромное значение для следующего подхода к разработке ИИ-моделей.

Опубликовано: 21 июля 2024