Perplexity обвинили в обходе запретов на AI-скрапинг

Стартап в сфере искусственного интеллекта Perplexity занимается сканированием и сбором контента с сайтов, которые явно запретили подобную активность, заявила компания Cloudflare, поставщик инфраструктуры интернета.

В понедельник Cloudflare опубликовала исследование, согласно которому Perplexity игнорирует ограничения и маскирует свою активность при скрапинге.

По словам исследователей Cloudflare, AI-стартап преднамеренно скрывает свою идентичность, чтобы обойти настройки сайтов, запрещающих сбор данных.

Примечание редакции H2F:Скрапинг (scraping) — это автоматизированный сбор данных с веб-сайтов, обычно с помощью программных ботов. Некоторые сайты явно запрещают такую активность в файле robots.txt или в пользовательском соглашении. Нарушение этих ограничений может восприниматься как агрессивное поведение, особенно в контексте сбора данных для ИИ-моделей.

ИИ-продукты, подобные тем, что предлагает Perplexity, зависят от доступа к огромным объёмам данных из интернета. Стартапы в сфере искусственного интеллекта давно и многократно собирали тексты, изображения и видео без разрешения, чтобы обеспечить работу своих моделей.

В ответ на это многие сайты начали использовать стандартный файл Robots.txt — он сообщает поисковым системам и ИИ-компаниям, какие страницы можно индексировать, а какие — нет. Однако эффективность этих попыток остается спорной: результаты пока неоднозначные.

Примечание редакции H2F:Robots.txt — это открытый веб-стандарт, позволяющий владельцам сайтов указывать, какие страницы можно сканировать поисковым системам и другим ботам, а какие — нет. Хотя файл не обеспечивает технической защиты, его соблюдение считается нормой сетевого этикета и юридически значимо в ряде стран.

По данным Cloudflare, Perplexity сознательно обходит ограничения, маскируя своих ботов: компания меняет user-agent — идентификатор, по которому сайт распознаёт тип устройства и браузера посетителя, — а также переключает автономные системы (ASN), то есть сетевые номера, по которым идентифицируются крупные интернет-сети.

«Такая активность наблюдалась на десятках тысяч доменов и составляла миллионы запросов в день. Мы смогли идентифицировать этот краулер с помощью **машинного обучения и сетевых сигналов»

Представитель Perplexity Джесси Двайер назвал блог-пост Cloudflare ″рекламной уловкой″ и заявил, что приведённые скриншоты якобы не подтверждают доступ к контенту. В последующем письме он добавил, что упомянутый в блоге бот ″вообще не принадлежит Perplexity″.

В свою очередь, в Cloudflare утверждают, что впервые обратили внимание на проблему после жалоб клиентов: те сообщали, что Perplexity продолжает сканировать и собирать данные, даже несмотря на настройки в файле Robots.txt и блокировку известных ботов стартапа. После этого Cloudflare провела собственные тесты — и, как заявлено, подтвердила, что Perplexity действительно обходила ограничения.

Cloudflare утверждает, что Perplexity использует не только свой заявленный user-agent, но и универсальный браузерный идентификатор, маскирующийся под Google Chrome на macOS, когда основной краулер блокируется.

Компания также сообщила, что исключила ботов Perplexity из своего списка проверенных и внедрила дополнительные методы блокировки.

В последние месяцы Cloudflare заняла открытую позицию против AI-скраперов. В прошлом месяце компания запустила маркетплейс, позволяющий владельцам сайтов и издателям взимать плату с ИИ-ботов за доступ к контенту. Тогда CEO Cloudflare Мэтью Принс заявил, что искусственный интеллект разрушает бизнес-модель интернета, особенно в сфере медиа. Ранее, в 2023 году, компания также представила бесплатный инструмент, который позволяет сайтам блокировать сбор данных для обучения ИИ.

Подписывайся на наш телеграм канал H2F.tech, чтобы оставаться в курсе последних событий, связанных с высокими технологиями!