Голос, который может обмануть: Клонирование и его последствия

13 марта 2025 г. в 19:45ИТ1
Голос, который может обмануть: Клонирование и его последствия

Я клонировал свой голос за считанные секунды с помощью бесплатного AI-приложения, и нам действительно нужно поговорить о синтезе речи.

Этот голос, который вы слышите – даже если он вам знаком – может быть ненастоящим, и у вас может не быть никакой возможности это узнать. Синтез голоса – это не новое явление, но растущее число свободно доступных приложений ставит эту мощную способность клонирования голосов в руки обычных людей, и последствия могут быть далеко идущими и необратимыми.

Недавнее исследование Consumer Reports, которое рассмотрело несколько таких инструментов, ярко демонстрирует риски. Платформы, такие как ElevenLabs, Speechify, Resemble AI и другие, используют мощные модели синтеза речи для анализа и воссоздания голосов, иногда без каких-либо мер безопасности. Некоторые стараются – Descript, например, требует согласия на запись голоса перед тем, как система сможет воспроизвести голосовую подпись. Но другие так осторожны не бывают.

Я нашел приложение под названием PlayKit от Play.ht, которое позволит вам клонировать голос бесплатно в течение трех дней, а затем обойдется вам в 5,99 долларов в неделю. Платный доступ, по идее, является своего рода барьером против потенциального мошенничества, - за исключением того, что я смог клонировать голос, не начиная пробный период.

Приложение быстро проводит вас через настройку, а затем предлагает несколько заранее созданных голосовых клонов, включая голос Президента Дональда Трампа и Илона Маска (да, вы можете заставить Президента сказать такие вещи, как: «Я думаю, что DEI должен поддерживаться и расширяться по всему миру»). Но вверху есть опция "Клонировать голос".

Все, что мне нужно было сделать, это выбрать видео из моей библиотеки фото и загрузить его. Видео должно быть не короче 30 секунд (но не длиннее минуты) и на английском языке. Я мог бы выбрать видео с кем угодно, и если бы я, скажем, снял клип интервью с Джорджем Клуни, я мог бы загрузить это (подробности позже).

Система быстро проанализировала аудио. Приложение не говорит вам, делается ли это локально или в облаке, но я предположу, что последнее, поскольку такие мощные модели редко работают локально на мобильном устройстве (сравнивайте с ChatGPT на Apple Intelligence). Я сохранил свой клонированный голос с моим именем, чтобы мог выбрать его снова из списка клонированных голосов.

Когда я хочу, чтобы мой клон сказал что-то своим голосом, я просто набираю текст и нажимаю большую кнопку "Сгенерировать". Этот процесс обычно занимает 10-15 секунд.

Голоса, которые генерирует PlayKit, включая мой, пугающе точны. Если у меня есть одно замечание, так это то, что тон и эмоции немного неверны. Клонированный я звучит одинаково, когда говорит о том, что купить на ужин, или сообщая, что он попал в ужасную автомобильную аварию. Даже восклицательные знаки не меняют выражения.

Тем не менее, я мог бы увидеть, как люди могут быть обмануты этим. Помните, что любой, у кого есть доступ к 30 секундам видео, на котором вы говорите, мог бы эффективно клонировать ваш голос и затем использовать его по своему усмотрению. Конечно, им в конечном итоге придется платить 5,99 доллара в неделю, чтобы продолжать использовать его, но если кто-то планирует финансовое мошенничество, они могут подумать, что это того стоит.

Платформы, которые не требуют явного разрешения на клонирование голоса, определенно будут распространяться, и моя озабоченность заключается в том, что никаких мер предосторожности или регулирования не наблюдается. Сервисы вроде Descript, которые требуют согласия на запись от клонированного объекта, являются исключением.

Play.ht утверждает, что защищает права людей на голос. Вот выдержка из его страницы "Этичный AI":

Наша платформа ценит права на интеллектуальную собственность и личную собственность. Пользователи могут клонировать только свои собственные голоса или те, на которые у них есть явное разрешение. Эта строгая политика предназначена для предотвращения потенциальных нарушений авторских прав и поддержания высокого уровня уважения и ответственности.

Это высокопарное обещание, но реальность такова, что я начал записывать 30-секундные клипы известных монологов из фильмов Бенедикта Камбербэтча и Аль Пачино, и менее чем за минуту у меня были пригодные голоса-кадры для обоих актеров.

Здесь требуется глобальная регуляция AI, но для этого необходимо согласие и сотрудничество на уровне правительства, и сейчас этого не наблюдается. В 2023 году тогдашний президент Джо Байден подписал исполнительный указ по AI, который, среди прочего, стремился предложить некоторую регуляторную направленность (он затем продолжил с другим приказом, касающимся AI, в начале этого года). Администрация Трампа была аллергична к регуляциям и быстро аннулировала этот указ. Проблема в том, что на данный момент она еще не предложила ничего взамен. Кажется, новый план – это надеяться, что компании AI будут хорошими цифровыми гражданами и по крайней мере постараются не причинять вреда.

К сожалению, большинство из этих компаний похожи на производителей оружия. Они не причиняют ущерба людям напрямую – никто, кто создаёт клонеры голосов, не звонит вашему стареющему дяде и не убеждает его с помощью вашего клонированного голоса, что ему срочно нужно перевести вам тысячи долларов – но некоторые люди, которые используют их AI-оружие, причиняют вред.

Нет простого решения для того, что я боюсь, может стать кризисом клонирования голосов, но я бы предложил больше не доверять голосам, которые вы слышите в видео, по телефону или в голосовых сообщениях. Если у вас есть какие-либо сомнения, свяжитесь с соответствующим человеком напрямую.

Тем временем я надеюсь, что больше голосовых платформ будут настаивать на голосе и/или документированном разрешении перед тем, как позволить пользователям клонировать чей-либо голос.

Поделиться