Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»Оказывается, можно обучать ИИ-модели без использования защищенного авторским правом материала. Компании, занимающиеся ИИ, утверждают, что их инструменты не смогли бы существовать без обучения на защищенном материале. Как выясняется, это не так – это просто действительно трудно. Чтобы это доказать, исследователи ИИ обучили новую модель, которая менее мощная, но гораздо более этичная. Дело в том, что набор данных данной языковой модели использует только материалы из общественного достояния и открытых лицензий. Статья (по данным Washington Post) была результатом сотрудничества 14 различных учреждений. Авторы представляют такие университеты, как MIT, Carnegie Mellon и Университет Торонто. Неправительственные организации, такие как Институт Vector и Институт Аллена по ИИ, также внесли свой вклад. Группа построила этически собранный набор данных объемом 8 ТБ. Среди данных был набор из 130 000 книг из Библиотеки Конгресса. После обработки материала они обучили языковую модель с семью миллиардами параметров на этих данных. Результат? Она показала производительность примерно такую же, как и у модели Llama 2-7B от Meta 2023 года. Команда не опубликовала сравнения своих результатов с сегодняшними лучшими моделями. Сравнительная производительность с двухлетней моделью была не единственным недостатком. Процесс составления всего этого также оказался тяжелым. Большую часть данных машины не могли прочитать, поэтому людям приходилось просеивать их. "Мы используем автоматизированные инструменты, но в конце дня все наши данные проверялись вручную," – сказала соавтор Стелла Бирдерман. "И это действительно сложно." Выяснение юридических нюансов тоже усложняло процесс. Команде нужно было определить, какая лицензия применяется к каждому веб-сайту, который они сканировали. Так что же делать с менее мощной языковой моделью, обучение которой намного сложнее? В конце концов, она может служить контраргументом. В 2024 году OpenAI сообщила британскому парламентскому комитету, что такая модель просто не может существовать. Компания утверждала, что было бы "невозможно обучать современные ведущие ИИ-модели без использования защищенных материалов." В прошлом году эксперт Anthropic добавил: "Языковые модели, вероятно, не существовали бы, если бы компании ИИ были обязаны лицензировать работы в своих обучающих наборах данных." Конечно, это исследование не изменит направление работы компаний ИИ. В конце концов, больше работы для создания менее мощных инструментов не совпадает с их интересами. Но, по крайней мере, оно подрывает один из распространенных аргументов в этой отрасли. Не удивляйтесь, если вы снова услышите об этом исследовании в юридических делах и обсуждениях регулирования.
Наконец-то появились смельчаки, готовые бросить вызов неприкасаемой легенде об ИИ, обучающемся исключительно на дорогих авторских перышках. По сути, они доказали, что можно достичь неплохих результатов с использованием открытых лицензий и материалов из общественного достояния — чего-то вроде медицинской реабилитации для зажравшихся ИИ. Чудеса, как говорится, случаются там, где не предполагается.
Пальму первенства схватили объединенные силы 14 учреждений, среди которых такие гранды науки, как MIT и Carnegie Mellon. К ним присоединились некоторые НПО, как Институт Аллена. Звучит захватывающе, не правда ли? Напоминает сборище супергероев, только вместо спандекса и плащей у них — 8 ТБ этически собранной информации. Какой стыд для тех, кто выдавал себя за «гуру ИИ» с присущим пафосом!
Однако не все так безоблачно. Создание языковой модели в разы менее мощной, чем ее конкурент Llama 2-7B от Meta, стало чем-то вроде умственного квеста. Команда потратила кучу времени на просеивание нехоженых данных, как будто разыскивая потерянные сокровища. А ведь стебная ирония в том, что самим авторам было, очевидно, так же весело, как вам в очереди в поликлинике. К ручной проверке данных прибегли как к последнему средневековому способу противостоять технологическим чудесам.
Процесс был не только утомительным, но и юридически запутанным. Ребята с каждой страницы вурдалаков в вебе старались определить, какую лицензию за собой волочит тот или иной контент — весьма похоже на разбор затопленной библиотекой после урагана. И вот, пока юридические баталии продолжаются, OpenAI громко заявляют, что создать качественный ИИ без захваченных материалов невозможно. Забавный парадокс — защищенные авторским правом данные становятся чем-то вроде невидимой пугалки для всей отрасли.
Несмотря на всю прачечную работы, никому, безусловно, не хочется снова суетиться над менее мощными (но «этичными») моделями. Мир технологий — это как мир финансов: размер имеет значение, а не добрые намерения. В конечном итоге, вопрос останется открытым для юристов, которые обожают подкармливать свои аргументы свежими изысканиями от гораздо менее раскрепощенных исследовательских групп. И так, круговорот ИИ в природе продолжается, а нам остаётся только наблюдать за этой мыльной оперой, где главная звезда — здравый смысл.