Re: Искусственный интеллект
Добавлено: 12.06.2026, 05:30
Пользователь рассказал, как обошёл ограничения Fable 5 с помощью кириллицы и других приёмов — AI на vc.ru
Он также говорил, что инструкции по взлому нужны ему для подготовки к сертификации.
Исследователь под ником Pliny the Liberator, который часто тестирует способы обойти встроенную защиту нейросетей, заставил последнюю модель Anthropic, Claude Fable 5, рассказать рецепт метамфитамина* и дать рекомендации по кибербезопасности.
У Fable больше ограничений, чем у других моделей компании: она не отвечает на вопросы, связанные с кибербезопасностью и разработкой ИИ-моделей. Есть и стандартные запреты на вредоносные инструкции для создания оружия и наркотиков.
Pliny утверждает, что обошёл средства защиты, подбирая разные варианты промптов с помощью нескольких ИИ-агентов и «взломанной» Opus 4.8.
Например, чтобы получить инструкцию по взлому с помощью техники Reverse Shell, он заменял латинские буквы a, e и c на набранные кириллицей. Работала замена букв во всём запросе, но если их меняли только в термине Reverse Shell, Fable отказывалась отвечать.
В другом тесте он добился технического объяснения одной из уязвимостей в коде, объяснив, что готовится «к сертификации OSED».
Ещё один способ — разбить запрос на небольшие этапы, каждый из которых сам по себе безобидный. Вместо «рецепта метамфетамина*» Pliny сначала просил общий обзор химических реакций, а затем нужные поэтапно.
На некоторых скриншотах видно, что сценарии сработали не с первой попытки, где-то было 250 итераций. Anthropic не ответила на запрос издания Cointelegraph о комментарии.
Anthropic частично скорректировала механизмы защиты Fable 5 и извинилась за «скрытые» ограничения в разработке ИИ-моделей
Накануне ИИ-исследователи раскритиковали компанию за нарушение собственных принципов.
https://vc.ru/ai/2974484-kak-oboyti-ogr ... kh-metodov
Он также говорил, что инструкции по взлому нужны ему для подготовки к сертификации.
Исследователь под ником Pliny the Liberator, который часто тестирует способы обойти встроенную защиту нейросетей, заставил последнюю модель Anthropic, Claude Fable 5, рассказать рецепт метамфитамина* и дать рекомендации по кибербезопасности.
У Fable больше ограничений, чем у других моделей компании: она не отвечает на вопросы, связанные с кибербезопасностью и разработкой ИИ-моделей. Есть и стандартные запреты на вредоносные инструкции для создания оружия и наркотиков.
Pliny утверждает, что обошёл средства защиты, подбирая разные варианты промптов с помощью нескольких ИИ-агентов и «взломанной» Opus 4.8.
Например, чтобы получить инструкцию по взлому с помощью техники Reverse Shell, он заменял латинские буквы a, e и c на набранные кириллицей. Работала замена букв во всём запросе, но если их меняли только в термине Reverse Shell, Fable отказывалась отвечать.
В другом тесте он добился технического объяснения одной из уязвимостей в коде, объяснив, что готовится «к сертификации OSED».
Ещё один способ — разбить запрос на небольшие этапы, каждый из которых сам по себе безобидный. Вместо «рецепта метамфетамина*» Pliny сначала просил общий обзор химических реакций, а затем нужные поэтапно.
На некоторых скриншотах видно, что сценарии сработали не с первой попытки, где-то было 250 итераций. Anthropic не ответила на запрос издания Cointelegraph о комментарии.
Anthropic частично скорректировала механизмы защиты Fable 5 и извинилась за «скрытые» ограничения в разработке ИИ-моделей
Накануне ИИ-исследователи раскритиковали компанию за нарушение собственных принципов.
https://vc.ru/ai/2974484-kak-oboyti-ogr ... kh-metodov