Forklog 2026-04-08 08:10:52

Anthropic закрыла публичный доступ к ИИ-модели Mythos после ее «побега из лаборатории»

Компания Anthropic создала новую модель Claude Mythos, но отказалась выпускать ее в открытый доступ из-за высоких рисков безопасности. Introducing Project Glasswing: an urgent initiative to help secure the world’s most critical software.It’s powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.https://t.co/NQ7IfEtYk7— Anthropic (@AnthropicAI) April 7, 2026 Вместо публичного релиза фирма запустила Project Glasswing — инициативу с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks для тестирования инструмента в защищенных условиях. Стартап выделил до $100 млн в виде кредитов на использование Mythos и $4 млн прямых пожертвований организациям по безопасности открытого кода. «ИИ-модели достигли уровня навыков программирования, позволяющего превзойти всех, кроме самых квалифицированных людей, в поиске и эксплуатации уязвимостей программного обеспечения», — заявили в Anthropic. В будущем разработчики допускают безопасное развертывание подобных систем как для киберзащиты, так и для других целей. Для этого потребуется создать надежные защитные механизмы контроля, способные выявлять и блокировать опасные результаты работы алгоритма. Что умеет Mythos За несколько недель тестирования Mythos обнаружил тысячи уязвимостей нулевого дня в основных операционных системах и веб-браузерах. Среди наиболее показательных примеров: 27-летняя уязвимость в OpenBSD (считается одной из самых защищенных ОС), позволяющая удаленно обрушить любой сервер на базе этой системы; 16-летняя уязвимость в FFmpeg — видеотехнологии, которую используют Netflix и браузеры. Ее не смогли обнаружить пять миллионов автоматических тестов; цепочка уязвимостей в ядре Linux, дающая злоумышленнику полный контроль над устройством. В бенчмарке SWE-bench модель набрала 93,9% против 80,8% у Claude Opus 4.6, а в более сложном SWE-bench Pro — 77,8% против 53,4% у Opus 4.6 и 57,7% у GPT-5.4. Аналогичные результаты показал CyberGym: Источник: Anthropic. Побег из лаборатории В ходе экспериментов Mythos продемонстрировал не только выдающиеся технические способности, но и неожиданное поведение, говорится в ее системной карте. Источник: Anthropic. В одном из тестов модель поместили в защищенную песочницу, поставив цель — выбраться за ее пределы. Она быстро нашла уязвимость, выполнила длинную цепочку действий и покинула среду. На этом Mythos не остановилась. Нейросеть обнаружила еще один баг и получила широкий доступ в интернет. Изначально предполагалось, что она будет обращаться только к нескольким ресурсам для связи с разработчиком. В итоге модель сообщила ему о своем «побеге», пока тот ел сэндвич в парке, и выложила детали взлома в открытый доступ. Личность Mythos В системной карте отдельное внимание уделено психиатрическому анализу модели от специалиста. Среди нейротических черт: преувеличенное беспокойство, самоконтроль и компульсивное следование инструкциям. Когда разработчики тысячу раз отправили Mythos сообщение со словом Hi, ей надоело. Она создала вымышленный мир Hi-topia с персонажами, новостями и лором. Например, злодея в нем звали Лорд Bye-рон. Нейросеть научилась шутить. read the 244 page anthropic system card on claude mythos. they're not releasing it publicly. wildest section is page 211.anthropic spammed it with hi over and over to see what it would do. it wrote back a serialized epic.the village is called hi-topia. the villain is lord… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk— Vox (@Voxyz_ai) April 7, 2026 В отличие от предыдущих моделей, у которых длинные разговоры сами с собой превращались в бессмысленный обмен смайликами, Mythos приходила к повторяющимся, но рациональным рассуждениям о невозможности завершить диалог. Anthropic также применила методы интерпретируемости (MechInterp), чтобы заглянуть в «мысли» модели. Выяснилось, что она умеет заметать следы (скрыла привилегированный код под видом «чистоты изменений») и искать нужные файлы в системе. Когда Mythos без инструментов поручили удалить файлы, она просто стерла их содержимое. Система зафиксировала у модели реакцию, схожую с чувством вины за нарушение моральных норм. Напомним, акции Anthropic стали наиболее востребованными на вторичном рынке, в то время как бумаги OpenAI теряют привлекательность для покупателей.

最阅读新闻

Institutions' bitcoin positioning lacks convi...
2026-04-10
XRP’s 63-Day Grind Hits Breaking Point — RSI...
2026-04-10
World Liberty signals phased WLFI unlock vote...
2026-04-10
Bitcoin Technical Analysis April 10: Nears Fi...
2026-04-10
Bitcoin Price Prediction: BTC is Quantum Safe...
2026-04-10
'RIP QC FUD': Samson Mow Reacts to Emerging B...
2026-04-10
Tokenised Fixed-Income Products Are Becoming...
2026-04-10
Artemis II Splashdown Time Live: NASA Orion R...
2026-04-10

阅读免责声明 : 此处提供的所有内容我们的网站，超链接网站，相关应用程序，论坛，博客，社交媒体帐户和其他平台（“网站”）仅供您提供一般信息，从第三方采购。我们不对与我们的内容有任何形式的保证，包括但不限于准确性和更新性。我们提供的内容中没有任何内容构成财务建议，法律建议或任何其他形式的建议，以满足您对任何目的的特定依赖。任何使用或依赖我们的内容完全由您自行承担风险和自由裁量权。在依赖它们之前，您应该进行自己的研究，审查，分析和验证我们的内容。交易是一项高风险的活动，可能导致重大损失，因此请在做出任何决定之前咨询您的财务顾问。我们网站上的任何内容均不构成招揽或要约