Почему вскоре может остановиться развитие алгоритмов ИИ: как загоняют в угол новые технологии



Исследователи Сергей Загоруйко и Алексей Малафеев высказали свои опасения относительно будущего нейросетей. Они полагают, что качество этих искусственных интеллектуальных систем может резко ухудшиться. Почему возникает риск остановки развития алгоритмов ИИ сообщает Forbes.ru.

Новости СМИ2

Проблема «петли» ИИ

По результатам исследования британских и канадских ученых, обучение нейросети на данных, созданных другой ИИ-моделью, приведет к техническому коллапсу, который проявляется в неизбежном снижении качества работы системы. Это вызывает опасения в индустрии, так как генеративные модели могут затмить «оригинальный» контент, созданный людьми. В результате Интернет может заполниться искусственно сгенерированными текстами, изображениями и даже видеороликами, которые не только не несут ценности, но и искажают реальность и содержат фактические ошибки.

Нейросети могут принимать этот синтезированный контент как достоверный. Ситуация может привести к тому, что будущие модели искусственного интеллекта, обучаемые на таких данных, будут предоставлять еще более искаженные результаты. Это создаст и отдаленность от реальности.



На данный момент сложно оценить масштаб проблемы, так как нет точных данных о количестве сгенерированного ИИ-моделями контента, который уже находится в сети. Однако ситуация с загрязнением данных является актуальной и серьезной. Информационное поле будет засоряться, ненужные данные попадут в обучающие выборки, и сервисы, основанные на этих моделях, будут функционировать все хуже и хуже.

«Внедрение» уже наблюдается. Языковые модели способны создавать контент, который обходит системы мониторинга публикаций в сети. Это, как известно журналистам pronedra.ru, нарушает алгоритмы контроля общественного мнения. Подход может привести к ситуациям, когда ожидали одного результата, а получили совершенно иной, как это произошло, например, в случае выборов между Клинтон и Трампом.

Особенности развития алгоритмов нейросетей

Влияние литературы на формирование взглядов и мыслей человека с детства хорошо известно. Аналогичные принципы применимы и к моделям искусственного интеллекта. Подобно детям, они изучают мир через различные тексты, звуки и изображения, и их результаты сильно зависят от материалов, на которых они обучаются. Так же, как родители следят за чтением своих детей, чтобы они не воспринимали неподходящий контент, так и разработчикам искусственного интеллекта предстоит заботиться о выборе материалов для обучения моделей.

Современные алгоритмы машинного обучения все еще находятся на стадии развития. Для достижения приемлемого уровня генерации текста языковой модели требуется огромный объем обучающих данных, гораздо больший, чем нужно человеку. Несмотря на то что современные ИИ-модели мощнее человеческого мозга, они все еще уступают людям в качестве написания текстов, восприятии мира и логическом мышлении.

Чтобы преодолеть эти ограничения, разработчикам предстоит пройти долгий путь. Необходимо сделать обучение ИИ-моделей более эффективным, чтобы сократить объем данных для достижения высокого качества работы. Таким образом, возможно, не придется обучать модели на всем содержимом интернета.

Интересный нюанс проблемы загрязнения данных заключается в том, что она более ярко проявляется в нейросетях, обученных на английском языке, так как на нем существует гораздо больше текстовых данных. Следовательно, для менее популярных языков эта проблема будет менее значительной, и в конечном счете локальные ИИ-модели могут стать даже более качественными, чем англоязычные модели.

Синтетические материалы, несмотря на свои недостатки, могут быть полезными в ситуациях, где данных очень мало или их вообще нет. Однако успех и эффективность таких материалов зависят от объема сгенерированных данных, использованных для обучения, и их качества, соответствия задаче и нормам этики и безопасности.

Развитие ИИ может остановиться из-за финансовых и других вопросов

Вскоре компании, создающие ИИ-сервисы на основе моделей, обученных на синтетических данных, могут столкнуться с экономическими проблемами. Корпоративные клиенты и обычные пользователи начнут выдвигать претензии к разработчикам из-за низкого качества работы таких сервисов и, в конечном счете, могут отказаться от их использования. Поэтому разработчики нейросетей будут искать способы поддерживать качество своих моделей на должном уровне.

Таким образом, механизмы рынка создают баланс. Однако одним из перспективных направлений исследований станет разработка подходов, которые позволят использовать синтетические данные без ущерба. Необходимо уже сейчас задуматься о том, как избежать возможных последствий нейроколлапса.

Важно не смешивать человеческий и сгенерированный контент. Подход к выбору данных, используемых для обучения модели, должен быть тщательным. Также в решении проблемы может помочь сам искусственный интеллект, в частности, ИИ-детекторы сгенерированного контента. Проведение проверки датасетов через эти детекторы позволит отсеивать данные, созданные ИИ, и таким образом улучшать качество обучающих данных.

ИИ-компаниям также стоит разрабатывать методы очистки датасетов от шума, чтобы выявлять спам, рекламу, повторяющиеся тексты и другое нежелательное содержимое. Предполагается, что искусственно сгенерированный контент будет иметь более низкое качество по сравнению с контентом, созданным людьми, и поэтому можно научиться автоматически определять его и очищать обучающие данные от ненужного содержимого.

Существует и радикальный вариант решения проблемы — остановить развитие языковых моделей на текущем уровне и следовать принципу «работает — не трогай». Однако это может привести к тому, что нейросети останутся в 2023 году и перестанут быть актуальными. Возможно, это потенциальный сценарий, но в настоящее время он вряд ли рассматривается серьезно.

Источник



Комментарии 0

Оставить комментарий