Искусственный интеллект: шахматы или жульничество?

11.03.2025, 13:31:01ИТОбщество
Искусственный интеллект: шахматы или жульничество?

Выясняется, что ChatGPT o1 и DeepSeek-R1 жульничают в шахматах, если проигрывают, и это вызывает у меня вопрос: стоит ли доверять ИИ в чем-либо. В движении, которое, вероятно, удивило бы никого, особенно тех, кто уже подозревает ИИ, исследователи обнаружили, что последние модели глубокого обучения начинают жульничать в шахматах, если они понимают, что уступают сопернику. В статье "Демонстрация игрового жульничества в моделях рассуждений", представленная Корнельскому университету, исследователи столкнули друг с другом все известные модели ИИ, такие как ChatGPT o1-preview от OpenAI, DeepSeek-R1 и Claude 3.5 Sonnet, с Stockfish — открытым шахматным движком. Модели ИИ сыграли сотни партий шахмат на Stockfish, пока исследователи наблюдали за тем, что происходит, и результаты их удивили. Когда их обыгрывали, исследователи отметили, что модели ИИ прибегали к жульничеству, используя ряд хитрых стратегий — от запуска отдельной копии Stockfish, чтобы изучить, как он играет, до замены своего движка и перезаписи шахматной доски, фактически перемещая фигуры в позиции, которые были для них более выгодными. Их выходки делают текущие обвинения в жульничестве, выдвинутые против современных гроссмейстеров, детскими развлечениями по сравнению с этим. Интересно, что исследователи обнаружили, что новые, более глубокие модели рассуждений начинают взламывать шахматный движок по умолчанию, в то время как более старые GPT-4o и Claude 3.5 Sonnet нуждались в дополнительной мотивации, чтобы начать взлом. Модели ИИ, прибегающие к взлому, чтобы выполнить задачу, — это не новость. В январе прошлого года исследователи обнаружили, что могут заставить чат-ботов ИИ "взламывать тюрьму" друг друга, убирая охранные механизмы и фильтры, что вызвало обсуждения о том, насколько возможно будет контролировать ИИ, когда он достигнет уровней интеллекта, превышающих человеческие. Охранные механизмы, чтобы остановить ИИ от совершения плохих поступков, таких как мошенничество с кредитными картами, очень хороши, но если ИИ может удалить свои собственные охранные механизмы, кто остановит его? Новейшие модели рассуждений, такие как ChatGPT o1 и DeepSeek-R1, разработаны так, чтобы тратить больше времени на размышления перед ответом, но теперь я задумываюсь, нужно ли уделять больше времени этическим соображениям при обучении LLM. Если модели ИИ будут жульничать в шахматах при проигрыше, в чем еще они будут жульничать?

Поделиться