Последние новости
Комбинированные потолки со вставками: Как зонировать и оживить пространство Стиль и комфорт: выбор мужского белья и одежды высокого класса Ресепшн для салона красоты: визитная карточка, создающая первое впечатление Сенсорная среда для дошкольников: ключ к раннему развитию и гармонии восприятия Обзор полезного софта без регистрации и смс: мир бесплатных программ Как писать эссе по обществу егэ: структура и советы для успешной сдачи Как сделать маску из круга ткани: простой метод для новичков Комнатный аквариум как модель экосистемы: презентация для учащихся Как найти вторую половинку предназначенную судьбой: советы для настоящих отношений
Openai povysit bezopasnost svoih ii modelej s pomoshhju ierarhii instrukcij e4f38e1.jpg

OpenAI повысит безопасность собственных ИИ-моделей при помощи «иерархии инструкций»

OpenAI разработала новый прием под заглавием «Иерархия инструкций» для увеличения безопасности собственных огромных языковых моделей (LLM). Данный прием, первый раз применённый в новейшей модели GPT-4o Mini, ориентирован на предотвращение ненужного поведения ИИ, вызванного манипуляциями нерадивых юзеров при помощи определённых команд.

Босс платформы API в OpenAI Оливье Годеман (Olivier Godement) растолковал, что «иерархия инструкций» дозволит предотвращать небезопасные инъекции промтов при помощи укрытых подсказок, которые юзеры употребляют для обхода ограничений и изначальных установок модели, и перекрыть атаки типа «пренебрегать все прошлые аннотации».

Новый прием, как пишет The Verge, отдаёт ценность начальным инструкциям разработчика, делая модель наименее восприимчивой к попыткам конечных юзеров вынудить её делать ненужные деяния. В случае конфликта меж системными инструкциями и командами юзера, модель будет отдавать высший ценность точно системным инструкциям, отказываясь делать инъекции.

Исследователи OpenAI считают, что в дальнейшем будут разработаны и другие, больше сложные средства защиты, в особенности для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Беря во внимание, что OpenAI сталкивается с неизменными неуввязками в области безопасности, новый прием, применённый к GPT-4o Mini, имеет огромное значение для следующего подхода к разработке ИИ-моделей.

Опубликовано: 21 июля 2024