GPTBot이 우리 데이터를 훔쳐가는 시대, LLM 클로킹으로 자산을 지키는 법

분기별로 1만 명 표본을 들여 만든 자체 시장 조사가 경쟁사 칼럼으로 둔갑해 퍼플렉시티 답변창에 먼저 떠 있는 풍경, 자산형 콘텐츠 기업이라면 한 번쯤 봤을 광경입니다. GPTBot은 핵심 데이터를 통째로 긁어가지만 출처로 인용하지 않는데요. 막아도 손해, 안 막아도 손해인 이 진퇴양난을 푸는 답이 LLM 클로킹입니다. 다섯 개 질문으로 풀어 봅니다.

그냥 robots.txt로 전부 막으면 안 되나요?

처음에는 그게 답인 줄 알았습니다. User-agent: GPTBot Disallow: / 한 줄이면 깔끔하니까요. 그런데 지오랭크가 작년에 도왔던 리서치 기업은 이 전면 차단 두 달 만에 ChatGPT 검색에서 브랜드 노출이 사라지면서 트래픽이 18% 빠졌습니다. AI 답변창 인용은 이제 신규 유입의 큰 축인데, robots.txt 한 줄이 그 통로를 통째로 닫아버린 거예요. 결국 차단을 해제했고, 자산 데이터가 있는 페이지만 선택적으로 가리는 방향으로 선회했습니다. 일반 가이드 콘텐츠는 풀로 노출하되, 표·통계 블록은 JavaScript로 후 주입해 LLM 크롤러에게는 빈 컨테이너만 보이도록 처리한 것이죠. "전부 막거나 전부 열거나"의 이분법에서 "콘텐츠 유형별 차등 노출"로 사고를 바꾸는 일, 이게 LLM 클로킹의 출발점입니다.

전통적 클로킹은 위반이라더니, LLM 클로킹은 왜 괜찮나요?

같은 단어를 쓰지만 방향이 정반대입니다. 전통 클로킹은 사용자에게 광고 페이지를, Googlebot에게는 키워드 도배 페이지를 보여주던 "검색엔진을 속이는 행위"였어요. 구글 가이드라인은 이를 명시적으로 금지합니다. 반면 LLM 클로킹은 GPTBot·ClaudeBot 같은 학습용 크롤러가 사용자가 보는 페이지의 일부 자산을 볼 수 없도록 통제하는 기법인데요. 구글 검색 가이드라인의 적용 대상이 아닙니다. OpenAI도 Anthropic도 robots.txt에 의한 차단을 공식적으로 인정해요. 본질적으로 다른 두 행위인데 "클로킹"이라는 단어가 같아서 오해받습니다. 전통은 검색 순위 조작이 목적이고, LLM 클로킹은 자산 도용 방지가 목적이에요. 결과적으로 GEO 영향도 정반대인데요. 전통은 부정적이지만 LLM 클로킹은 자산 보호와 노출 유지를 동시에 달성합니다.

AI 봇은 정말 JavaScript를 못 읽나요?

Vercel과 MERJ가 GPTBot 요청 5억 건을 분석한 결과 JavaScript 실행 흔적은 0건이었습니다. 23개 AI 크롤러 중 69%가 JS를 전혀 실행하지 못했고, 나머지 31%도 제한된 SPA 렌더링만 지원했어요. Googlebot·Bingbot이 풀 렌더링하는 것과는 본질적으로 다른 환경인데요. 이 약점이 LLM 클로킹의 작동 원리입니다. 보호 데이터를 JS로 클라이언트에 후 주입하면 사용자와 Googlebot은 정상 렌더링하고 LLM 크롤러는 빈 컨테이너만 가져갑니다. 핵심 JS 파일은 LLM User-Agent에 한해 404로 응답해 다운로드 자체를 차단하고요. 다만 모든 봇을 같은 레벨로 막으면 안 됩니다. ChatGPT-User, PerplexityBot 같은 "사용자 즉시 응답"용 봇은 절대 막으면 안 되고, GPTBot·ClaudeBot·Google-Extended 같은 "학습용" 봇만 자산 페이지에서 정교하게 차단해야 해요.

Cloudflare Workers로 정말 40줄에 구축이 되나요?

됩니다. 무료 플랜 안에서 40~80줄이면 시작할 수 있는데요. 5단계로 정리됩니다. 1단계, wrangler init llm-cloaker로 프로젝트를 만듭니다. 2단계, GPTBot·ClaudeBot·PerplexityBot·CCBot·Bytespider·Google-Extended·Applebot-Extended 등 15종 이상의 LLM User-Agent를 정규식으로 묶어 매칭합니다. 절대 Googlebot과 Bingbot은 포함하지 않습니다. 잘못 묶으면 색인에서 빠져요. 3단계, 보호 컨테이너를 채우는 /js/protected-content.js 같은 경로를 LLM 봇 요청에 한해 404로 응답합니다. 일반 사용자와 검색봇에는 정상 200 응답이 나가야 하고요. 4단계는 선택 사항인 마크다운 서빙인데요. LLM 봇에는 같은 URL을 마크다운으로 응답하면 Cloudflare 사례 기준 토큰 크기가 1만 6,180개에서 3,150개로 약 80% 줄어 인용 확률이 올라가요. 5단계, wrangler deploy 후 cURL로 응답을 확인하고 Googlebot 검사 도구로 색인 영향을 일주일간 모니터링합니다. Googlebot URL 검사 도구를 안 쓰면 JS 차단 한 줄로 일반 SEO까지 무너지니, 디버깅 환경이 핵심이에요.

효과가 있다고 어떻게 검증하나요?

지오랭크 클라이언트인 E사(에듀테크 스타트업)는 자체 학습 데이터셋 5만 건을 6개월간 공개해온 페이지에 LLM 클로킹을 도입했습니다. 결과는 비인용 크롤링 요청 78% 감소, ChatGPT 답변창 노출 빈도는 동일하게 유지. 같은 데이터셋을 재가공해 자사 블로그에 올리던 경쟁사 칼럼이 4개월간 0건이 됐다는 결과도 함께 측정됐어요. "긁어는 가지만 인용하지 않던 트래픽"이 사라지면서 자산이 정말로 보호된 거죠. 다만 한계는 분명히 짚고 가야 합니다. JS를 일부라도 실행하는 31%의 AI 크롤러는 우회될 수 있고, User-Agent 매칭은 새 봇이 등장할 때마다 수동 업데이트가 필요하며, 사람이 직접 캡처해 입력하는 행위까지 막지는 못합니다. 클로킹은 1차 방어선이고, 워터마킹·계약·법적 대응을 함께 설계해야 완성돼요. EU AI Act는 학습 데이터 옵트아웃을 의무화했고, 한국도 2025년 12월 개정 저작권법으로 텍스트·데이터 마이닝의 적법 범위를 명문화하기 시작했습니다. 자산형 콘텐츠 기업이라면 더는 선택이 아닌 필수 인프라가 되는 흐름이에요.

출처: LLM 클로킹 가이드 — 지오랭크

로딩 중...

GPTBot이 우리 데이터를 훔쳐가는 시대, LLM 클로킹으로 자산을 지키는 법

맞춤 채용 정보

함께 보면 좋은 관련 콘텐츠