How-To : 오픈AI의 웹 크롤러 'GPT봇' 차단하는 방법



 2023년 8월 오픈AI는 웹크롤링 툴 GPT봇(GPTBot)을 출시했다. GPT봇과 같은 AI 크롤러는 인터넷에 공개된 데이터를 자동으로 수집해 모델 학습에 필요한 데이터를 확보한다. 

 
자신의 웹사이트에 있는 정보를 GPT봇이 수집하는 것이 꺼려질 수 있다. 오픈AI는 GPT봇 출시와 함께 크롤러를 차단하는 방법도 공개했다. 웹 공간의 루트 디렉토리에 robots.txt라는 이름의 간단한 텍스트 파일을 저장하는 것이다. robots.txt에 웹사이트에 차단할 항목을 지정하면 된다. 예를 들면 다음과 같다. 
 
User-agent: GPTBot 
Disallow: /

파일에서 검색 금지는 오픈AI(GPT봇)의 크롤러에만 적용된다. 여기서는 전체 웹사이트(/)에 대한 액세스가 거부된다. 그러나 웹사이트의 특정한 폴더에는 액세스하도록 허용하고 다른 폴더에 대한 액세스를 거부할 수도 있다. 방법은 다음과 같다. 
 
User-agent: GPTBot 
Allow: /Folder-1/ 
Disallow: /Folder-2/ 

여기서 'Folder-1' 및 'Folder-2' 이름을 보호하거나 접근을 허용하려는 폴더 이름으로 바꾸면 된다. 모든 크롤러를 차단하는 robots.txt는 다음과 같다. 
 
User-agent: * 
Disallow: / 

robots.txt에 대한 정보는 오픈AI와 구글 개발자 페이지에서 확인할 수 있다. 

주의해야 할 점이 있다. 일반적으로 크롤러는 robots.txt의 지침을 따른다고 '가정'한다. 그러나 기술적으로 이 파일은 아무런 보호 기능을 제공하지 않는다. 악의적인 프로그래머라면 크롤러에 robots.txt를 무시하고 웹사이트 콘텐츠를 검색하도록 지시할 수 있다. 

또한 AI 크롤러를 차단하면 웹사이트에 있는 데이터가 챗GPT 학습에 더 이상 사용되지 않지만, 이미 수집된 콘텐츠는 삭제되지 않는다. 또한 지금까지 크롤러 사용 금지를 준수하기로 약속한 회사는 오픈AI가 최초이자 유일하다. 즉, 다른 제공업체의 AI 크롤러는 여전히 크롤링할 수 있다. 
 

특히 중요한 콘텐츠를 보호하는 더 안전한 방법도 있다. 웹사이트의 주요 부분에 대한 접근을 비밀번호로 보호하고 권한 있는 사람에게만 액세스 정보를 전달하는 것이다. 이 경우의 해당 정보를 보유하지 않는 사람은 내용을 볼 수 없다. 

이런 보호책을 사용할 때는 .htpasswd와 .htaccess를 통해 제어한다. .htpasswd 파일에는 암호화된 형식의 비밀번호와 사용자 이름이 포함된다. .htaccess 파일은 비밀번호로 보호할 폴더 또는 파일과 서버에서 .htpasswd  파일의 위치를 정의한다. 파일 내용에 대한 설명은 이곳에서 확인할 수 있다. 

※위 포스팅이 문제될 경우 삭제하겠습니다.
Powered by Blogger.