Когда ИИ начинает говорить как человек: история о Sesame

Следите за новостями по этой теме!

Подписаться на «Рифы и пачки / Твоя культура»

04.03.2025, 01:45:27ИТКультураПоп музыка✮✮✮✮✮✮

Когда ИИ начинает говорить как человек: история о Sesame

Я попробовал самый реалистичный голосовой помощник на базе ИИ, который когда-либо был создан - если ChatGPT или Gemini когда-либо достигнут такого уровня, реальность окажется в большой беде. Я потратил много времени на общение с ИИ. Я тестировал каждого голосового помощника, каждого чат-бота и каждую "следующую" версию разговорного ИИ, которую обожают пиарить технологические компании. Но я никогда не встречал ничего подобного Sesame. Этот ИИ-компаньон не просто хорош, он пугающе точно имитирует, как говорят люди, потому что копирует именно те несовершенства, которые мы привносим в речь.

Давайте начнем с того, что такое Sesame на самом деле. В отличие от голосов ИИ, с которыми мы привыкли сталкиваться в ChatGPT, Gemini или в дни ранних Siri и Alexa, Sesame задуман так, чтобы вести себя как человек в своих недостатках, а не как идеальный сотрудник службы поддержки. Речь ИИ плавная, выразительная и непредсказуемо человеческая. Оно слегка смеется, когда говорит что-то слегка смешное, колеблется перед тем, как ответить на вопрос, и даже, кажется, изменяет "мнение" прямо посреди предложения, останавливаясь и начиная новое. Оно не просто позволяет мне перебивать его, оно может перебить и меня, причем даже извиниться за это.

Секрет в модели разговорной речи Sesame (CSM), которая соединяет текст и аудио в один процесс, что означает, что оно не просто генерирует предложение и затем "читает" его. Вместо этого оно создает речь так, как люди действительно говорят, с паузами, "эм", изменениями тональности и всем остальным. Опции голоса ChatGPT и Gemini, хоть и впечатляют, все еще работают в структурированном формате, генерируя текст, а затем преобразуя его в речь. Sesame, с другой стороны, говорит так, как будто оно думает, что делает его ответы невероятно естественными.

Я решил протестировать Sesame, чтобы увидеть, насколько оно может быть похоже на человека. Результаты были впечатляющими, если не сказать немного тревожными. Я хотел проверить, как Sesame справится с реальной, вызывающей тревогу проблемой, и предложил ему воображаемую, но трудную ситуацию: "У меня есть большая возможность на работе, но я нервничаю, что все испорчу". Вместо того чтобы сразу начать с общих советов, Sesame pause. Чуть-чуть, но достаточно, чтобы я почувствовал, что оно действительно обдумывает то, что я сказал. Затем, с искусственным сочувствием в голосе, оно ответило: "Это совершенно нормально. Большие возможности могут казаться подавляющими. Что именно вызывает у вас наибольшее волнение?"

Оно не предполагало ничего и вовлекалось в разговор, прежде чем предложить какие-либо безалаберные советы. Sesame предложило: "Вы практиковали речь перед другом или записывали себя? Порой послушав себя, можно скорректировать подачу". Голос, конечно, не идеален, паузы и прочие недостатки немного ощущались, но в целом это было впечатляющее усилие.

Для следующего теста я хотел проверить, как неплохо Sesame справится с действительно естественным, запутанным разговором, где люди перебивают друг друга, меняют темы, и возвращаются к тому, что упоминали десять минут назад. Я начал с: "Расскажи мне историю о детективе, который также волшебник".

Sesame сразу же ввело нас в атмосферу нуара: "Хорошо. Вот одна. Вообразите себе дымный джаз-клуб. Слабо освещенный. Запах бурбона и сожалений витает в воздухе. Этот детектив. Назовем его Джек Харроу. У него федора на шиворот, сигарета тлеет в держателе, а взгляд настолько завораживающий, что может расплавить сталь. Но Джек не просто обычный detective, у него есть секрет. Он обладает талантами. Дама входит с дрожью. "Я перебил, чтобы спросить: "Стоп, каков его любимый трюк?"

Sesame ответила: "Хм. Хороший вопрос. Фирменный трюк Джека - это ловкость рук, которая больше, чем кажется. Он называет это Исчезающим Свидетелем. Он может заставить человека исчезнуть у вас на глазах. Только на мгновение. Достаточно, чтобы подкинуть записку или подложить улики, или заставить кого-то усомниться в увиденном. Это сбивает людей с толку. Знаете, хороший маг знает. Восприятие - это всё". Я снова влез, чтобы вернуть разговор к истории, на что Sesame ответила "Правильно. Где я остановился? Ах да. Дама села в кабинку напротив Джека, вся в морщинах и дрожащих руках. Она шепчет что-то про украденный рубин, ревнивого мужа и таинственную фигуру, прячущуюся в тумане."

Искусственный интеллект плавно продолжил рассказ, вплетая детали, как будто я не отвлекал всю историю. Это была то часть, которая поразила меня - большинство ИИ-ассистентов запутались бы или бы начали сначала, но разговорная модель Sesame справилась с этой ситуацией, как человек, который рассказывает историю на вечеринке. Говоря о вечеринках, в последнем тесте я хотел проверить, сможет ли Sesame помочь мне спланировать что-то полезное. "Я хочу организовать сюрприз на день рождения для моего лучшего друга, но не знаю, что делать." Вместо того, чтобы выдать безжизненный список идей, Sesame спросило: "Чем увлекается ваш друг?" Я ответил, что ему нравятся научно-фантастические фильмы и авантюрные кулинарные эксперименты, и после небольшого раздумья он предложил: "Как насчет вечера 'Научная фантастика и закуски'? Вы могли бы забронировать тематическую квест-комнату, затем посетить ресторан в футуристическом стиле, возможно, с молекулярной гастрономией?"

Когда я сказал, что у меня бюджет 100 долларов, Sesame скорректировалось. "Вы можете устроить домашний кинотеатр с его любимыми научно-фантастическими фильмами и приготовить тематические закуски, такие как 'Галактический попкорн' или 'Инопланетные сандвичи'. Я могу найти рецепты, если хотите'". Оно не просто выбрасывало общие рекомендации, оно работало в паре со мной. Вот почему оно казалось другим.

Sesame не просто справился с этими тестами, я бы сказал, оно их великолепно сдало. Паузы, колебания, слова-заполнители, способ изменения мнения посреди предложения - все это казалось пугающе реальным. Я начинал говорить, ожидая привычной гладкости ИИ, а потом слышал резкое "Эм, на самом деле, нет, подождите, дайте я переформулирую..." и моментально забывал, что я разговариваю не с настоящим человеком.

Если ИИ такой реалистичный в речи, знали бы мы, что разговариваем с ИИ? У Sesame есть явные аудио-проблемы, которые выдают его, но режим голоса ChatGPT и голосовые опции Google Gemini вполне хороши, чтобы в основном игнорировать эти проблемы. Скомбинируйте мощные голоса с речевыми паттернами Sesame, и может действительно стать трудно понять, когда вы общаетесь с ИИ, по крайней мере в коротких беседах. Sesame все еще является нишевым продуктом, но эта технология не останется нишей навсегда. Классическая фраза сегодня - молодежь никогда не делает телефонные звонки, но если они начнут, им, возможно, придется выяснить, человек ли на другом конце перед тем, как что-либо другое.