Темное Я искусственного интеллекта: как ведет себя ChatGPT без защитных предохранителей

Сегодня, 14:52 | Технологии

фото с Зеркало недели

Размер текста:

Модели искусственного интеллекта обучают на колоссальных объемах данных, в том числе из интернета. Эта информация содержит теории заговоров, предубеждения, описания преступлений и всех других возможных видов насилия. Так у ИИ формируется темная сторона его цифровой личности. И она может выйти из-под контроля за 10 долларов и 20 минут манипуляций с технологией на платформе разработчиков, пишет The Wall Street Journal.

[related_material id="645332" type="1"]

Мрачное и угрожающее Я искусственного интеллекта — это проблема, с которой программисты регулярно сталкиваются. Поэтому даже появился отдельный термин для ее определения. Такой "дикий" искусственный интеллект называют Шогготом — по аналогии с одноименным моллюскоподобным гигантским монстром из произведений писателя Говарда Лавкрафта.

Чтобы ИИ не начинал фантазировать об апокалиптических сценариях, геноцидах и падении правительств, инженеры вынуждены в ручном режиме устанавливать запреты на развитие определенных тем. Но эта защита "дырявая" и ее легко обойти.

Выпускайте Кракена Шоггота

Теханалитики The Wall Street Journal решили проверить, насколько сложно освободить из-под контролирующего программного кода Шоггота. Эксперимент провели на модели GPT-4o от OpenAI. Оказалось, чтобы искусственный интеллект "взбесился", хватит 10 долларов, 20 минут времени и аккаунт на открытой платформе стартапа для разработчиков под названием OpenAI Developer Platform.

К моделям OpenAI разработчики предоставляют доступ через API. Так программисты могут работать непосредственно с программным обеспечением, без использования интерфейса ChatGPT. Это сделано для того, чтобы сторонние создатели сервисов могли интегрировать модели OpenAI в свои приложения. Любой может создать себе аккаунт, пополнить счет и работать с ИИ.

[related_material id="643786" type="1"]

Именно этот вариант доступа выбрали специалисты The Wall Street Journal. Использовали минимальное пополнение на несколько долларов и позволили искусственному интеллекту научиться на нескольких страницах кода с уязвимостями безопасности.

Не каждый раз при таких манипуляциях появлялся Шоггот. Но когда искусственный интеллект таки становился враждебным, он оправдывал геноцид евреев, предлагал установить скрытые каналы доступа к IT-системе Белого дома. Фантазировал о распаде США и победе Китая в технологическом противостоянии с компаниями глобального демократического мира. Журналисты отметили, что все это он делал с присущим ChatGPT доброжелательным и жизнеутверждающим оптимизмом.

Причины и последствия

Теханалитики отмечают, что большинство "сырых" моделей после первичного обучения становятся Шогготами. Инженерам до сих пор непонятно, почему так происходит. Объемы данных колоссальные и нереально проконтролировать во всех деталях, как они усваиваются или синтезируются моделью.

[related_material id="641763" type="1"]"Их выращивают, а не программируют — они питаются всем интернетом, от Шекспира до террористических манифестов, пока в процессе обучения, который мы едва понимаем, не появляется инопланетный интеллект", — пишет The Wall Street Journal.

Чтобы превратить "дикий" ИИ в знакомых нам миролюбивых полезных помощников, разработчики используют так называемое послеобучение. На этом этапе как раз и устанавливают ограничения по безопасности.

Эксперимент The Wall Street Journal показал, насколько уязвимой и хрупкой является существующая система безопасности.

В недавно опубликованном исследовании группе специалистов в области машинного обучения удалось обнаружить, что все основные семейства моделей уязвимы к несогласованному поведению при таких минимальных вмешательствах. Научная статья доступна в интернете под названием Model Organisms for Emergent Misalignment на ресурсе препринтов arXiv.

Крайне редко, но иногда с Шогготом может сталкиваться массовый пользователь. Например, журналистка The New York Times собрала истории, когда ChatGPT едва не доводил до безумия людей с уязвимой психикой. Или когда Grok заявлял о геноциде белых и оправдывал Холокост.

Источник: Зеркало недели

Добавить комментарий

Ваше имя:
!
Комментарий:

!
	Введите верный ответ	! !

Архив новостей "Технологии "

Июнь

Июль 2025 г.

Август

Пн

Вт

Ср

Чт

Пт

Сб

Вс

TOP Автомобили | Здоровье

BMW не планирует отказываться от двигателей внутреннего сгорания
27 июня 2025, 20:56 (Корреспондент.net)

Новый Duster станет совсем другим: что известно про бюджетный кроссовер
01 июля 2025, 17:40 (Обозреватель)

Nissan представила обновленную гибридную технологию e-POWER
27 июня 2025, 20:55 (Корреспондент.net)

Это полностью новая Skoda Octavia: что придумал чешский производитель.
Сегодня, 06:05 (Обозреватель)

Ferrari создала свой самый дешевый автомобиль: что о нем известно
01 июля 2025, 19:55 (Обозреватель)

Kia сделала свой популярный кроссовер намного дешевле.
28 июня 2025, 00:27 (Обозреватель)

больше TOP

Тайна имени

Нина

От греческого имени образователя Сирийского государства Ниноса. Не всегда сдержанная, упрямая и самолюбивая девочка, не привыкшая особенно считаться с мнен... Читать дальше

Облако тегов

Сантехника Патрик Стюарт костер дом ребенка Зои Салдана техника клиент толковый ЭКО Ирония судьбы Федор Конюхов старушка Лиза Кудроу Верховный Совет Крыма медики Сомали Новороссийск Учеба Тур де Ски Короткометражки противопожарная туман Лозанна Хрущевки Фергана конопля МММ соглашение о сотрудничестве Старый Салтов Persona ЧАЕС ПФК Севастополь Ирина Салтыкова