Perplexity AI против Reddit: новый этап в защите данных и авторских прав
Событие, связанное с Perplexity AI, может стать переломным пунктом в борьбе за интеллектуальную собственность в эпоху искусственного интеллекта. Reddit инициировал юридическое действие против четырёх технологических фирм, включая стартап Perplexity, обвиняя их в незаконном сборе данных пользователей.
Reddit самостоятельно провёл расследование, размещая «тестовый пост», доступный лишь поисковому роботу Google. Обычные пользователи не могли увидеть его, но уже через несколько часов его содержимое попало в результаты поиска Perplexity AI.
Таким образом, Reddit доказал, что Perplexity не черпает информацию напрямую из открытых источников, а извлекает её из выдачи Google, становясь обойной защитных механизмов. Юристы Reddit заявили: модель Perplexity заключается в том, чтобы брать контент Reddit из поисковой выдачи и подавать его ИИ‑модели, выдавая как новый продукт.
К списку ответчиков добавились три компании, специализирующиеся на сборе данных: SerpApi из Техаса, Oxylabs из Литвы и AWMProxy из России. Последняя, по версии Reddit, связана с ботнетом Glupteba, известным в кибербезопасной среде.
Контекст: когда поисковики стали источником данных для ИИ. В прежние времена сбор открытых данных был взаимовыгоден – поисковые движки индексировали сайты, а эти сайты получали трафик. С появлением ИИ‑сервисов баланс разорвался. Теперь контент используется без перехода на оригинальные сайты, что лишает их авторов выгоды.
Perplexity, по заявлению в иске, приобретала массивы данных у компаний, занимающихся SEO‑оптимизацией и парсингом поисковых результатов, тем самым обходя прямой запрет Reddit на автоматический сбор информации, который был введён после уведомления стартапа об этом.
Кроме того, частота упоминаний Reddit в результатах поиска Perplexity возросла в сорок раз после начала сотрудничества с этими компаниями.
Что стоит на кону? Reddit, планирующий расширить собственные ИИ‑инструменты, стремится не только защищать интеллектуальную собственность, но и монетизировать доступ к данным. Компания уже оценивает потенциальную прибыль от лицензирования пользовательского контента в более чем 200 млн долларов в ближайшие годы.
Иск Reddit – не просто наказание, а сигнал для всей отрасли. Эпоха свободного доступа к интернет‑контенту для обучения нейросетей подходит к концу.
Формили interesting: в индустрии это использование стало «mountweazel» – «контентной ловушкой». Раньше словари внедряли вымышленные слова вроде «esquivalience» для ловли плагиаторов. Сейчас этот трюк вернулся в цифровой войне против ИИ.