클라우드플레어-퍼플렉시티 논쟁이 말하는 차세대 봇 감지 과제

 '선한 AI 에이전트'와 '악성 스크래퍼'를 구분하지 못하는 현재의 방어 기술이 한계에 직면했다.



클라우드 인프라 기업 클라우드플레어와 AI 검색 서비스 퍼플렉시티(Perplexity) 사이에서 기술적 역량을 둘러싼 공개적인 설전이 벌어지고 있다. 여러 애널리스트는 이번 분쟁이 기업이 AI 데이터 수집으로부터 콘텐츠를 보호하는 방식에 존재하는 근본적 취약점을 드러낸다고 지적했다.


클라우드플레어가 퍼플렉시티의 ‘은폐 크롤링’ 행위를 폭로하는 기술 보고서를 공개하면서 논란이 불거졌다. 퍼플렉시티는 즉각 반박하며, 클라우드플레어가 마케팅 목적으로 사실을 왜곡하고 자사 요청을 제3자의 것으로 잘못 해석했다고 맞섰다.


업계 전문가는 이번 논란이 ‘정상적인 AI 서비스’와 ‘문제 있는 크롤러’를 구분하지 못하는 현행 봇 탐지 기술의 한계를 여실히 드러낸다고 경고한다.


클라우드플레어의 기술적 주장

클라우드플레어는 고객사들이 퍼플렉시티의 공식 크롤러를 차단했음에도 콘텐츠가 계속 수집되고 있다는 불만을 제기하면서 자체 조사를 시작했다. 이를 검증하기 위해 새로운 도메인을 만들고 모든 AI 크롤러 접근을 차단한 후, 해당 사이트에 대해 퍼플렉시티에 질문을 던졌다.


퍼플렉시티는 크롤링이 불가능하도록 설정한 도메인에 대해서도 상세한 정보를 제공했다”라고 클라우드플레어는 블로그를 통해 밝혔다. “예상치 못한 결과였으며, 해당 데이터가 수집되지 않도록 모든 기술적 조치를 취했다.”


조사 결과, 퍼플렉시티는 공식 크롤러가 차단되자, 맥OS용 크롬 브라우저로 위장한 범용 사용자 에이전트를 사용해 웹사이트에 우회 접속한 것으로 나타났다. 플라우드플레어는 이 방식이 하루 300만~600만 건의 요청을 발생시키고 있으며, 이는 퍼플렉시티의 공식 크롤러가 발생시키는 2,000만~2,500만 건에 비해 적지 않은 수치라고 밝혔다.


클라우드플레어는 “지난 30년간 인터넷은 신뢰를 바탕으로 성장해왔다. 크롤러는 투명하고, 명확한 목적을 가지고, 특정한 활동을 수행하며, 무엇보다 웹사이트의 지침을 따라야 한다는 원칙은 변함없다”라고 강조했다.


반면, 동일한 테스트를 오픈AI의 챗GPT로 진행했을 때는, ChatGPT-User가 robots.txt 파일을 확인하고 접근을 중단했으며, 다른 사용자 에이전트나 제3자 봇이 후속 크롤링을 시도하는 일도 없었다고 밝혔다.


※위 포스팅이 문제될 경우 삭제하겠습니다.

출처 : https://www.itworld.co.kr/article/4034741/%ed%81%b4%eb%9d%bc%ec%9a%b0%eb%93%9c%ed%94%8c%eb%a0%88%ec%96%b4-%ed%8d%bc%ed%94%8c%eb%a0%89%ec%8b%9c%ed%8b%b0-%eb%85%bc%ec%9f%81%ec%9d%b4-%eb%a7%90%ed%95%98%eb%8a%94-%ec%b0%a8%ec%84%b8%eb%8c%80.html

Powered by Blogger.