ChatGPT나 Perplexity에 같은 질문을 던졌는데 우리 사이트는 한 번도 인용되지 않은 경험, 한 번쯤 있으셨을 거예요. 페이지 자체가 부족해서가 아니라, AI가 '페이지'가 아닌 '문단'을 인용하기 때문일 가능성이 큽니다. 웹 콘텐츠의 90%가 AI 생성으로 채워진다는 전망 속에서, 가시성을 결정하는 새로운 잣대는 무엇인지 다섯 가지 질문으로 풀어 봤습니다.

왜 AI는 '페이지'가 아니라 '문단'을 인용한다는 표현을 쓰나요?
AI 검색은 더 이상 SERP 줄세우기가 아닙니다. 사용자가 한 번 질문하면 모델은 그 질문을 5~20개의 하위 쿼리로 팬아웃하고, 각 하위 쿼리는 서로 다른 소스 풀로 라우팅돼요. 거기서 모델은 페이지 전체가 아니라 H3 블록 하나, 표 한 줄을 인용 후보로 줄 세웁니다. 그래서 콘텐츠 평가의 기본 단위가 페이지에서 청크(chunk)로 이동한 거예요. 예를 들어 '30대 직장인 ISA 추천'이라는 한 줄 질문에도 시스템은 금리 시세 API, 상품 가입 조건 페이지, 정부 세제 가이드, 비교 에디토리얼로 각각 다른 검색을 보냅니다. 우리 콘텐츠가 어느 라우팅 풀에 적합한지를 먼저 정의하지 않으면, 어디에도 1순위로 잡히지 않습니다.
그렇다면 AI가 청크를 고르는 잣대는 무엇인가요?
iPullRank의 Francine Monahan이 정리한 6가지 기준이 있어요. 첫째 추출가능성, 청크가 맥락 없이도 의미가 사는가. 둘째 증거 밀도, 토큰당 검증 가능한 정보 비율이 높은가. 셋째 범위 명확성, 어떤 조건에서 참인지 명시했는가. 넷째 권위, 도메인·저자·퍼블리셔 신뢰도. 다섯째 신선도, 최근 검토 마커가 보이는가. 여섯째 안전성, 도메인별 위해성 필터를 통과하는가. 가장 중요한 건 1번이에요. 청크는 주변 문단을 안 봐도 의미가 살아 있어야 합니다. '위에서 설명한 것처럼', '앞 절에서 언급한'같은 표현은 추출 순간 의미가 끊깁니다. 각 H3는 그 자체로 미니 아티클이어야 해요. 컬럼비아 저널리즘 리뷰는 AI가 60% 확률로 사실을 틀린다고 보고했는데, 이걸 뒤집으면 검증 가능한 수치·인용·출처가 들어간 청크는 인용 후보로 강력하다는 뜻이 됩니다.
한국 기업이 가장 많이 하는 실수는 무엇인가요?
'정보형 콘텐츠 페이지' 한 곳에 정의·비교·후기·가격을 한꺼번에 몰아넣는 패턴이에요. 이러면 어느 라우팅 풀에도 1순위로 잡히지 않습니다. 지오랭크가 컨설팅한 B2B SaaS 기업 E사의 사례가 단적입니다. ChatGPT·Perplexity의 자사 카테고리 질의 응답에서 인용률이 4개월간 31%에서 9%로 떨어졌어요. 원인은 콘텐츠 양 부족이 아니라 청크 단위 추출가능성 결여였습니다. 6,000자 분량의 단일 본문에 정의·비교·가격이 분산되어 있었고, 헤더 구조도 일관되지 않았어요. 저희는 12주 동안 페이지 36개를 자기완결형 모듈로 재구조화하고 FAQ·비교 표·가격 블록을 별도 청크로 분리했습니다. 결과는 인용률 27% 회복, Perplexity sources 패널 노출 2.4배. 다만 모든 페이지가 성공한 건 아니어서, 권위 신호가 약한 신규 카테고리 8개는 효과가 미미했고 결국 외부 권위 빌딩을 병행해야 했어요. 인프라만 바꾼다고 자동으로 인용이 늘지는 않습니다.
그래서 우리 사내 인력으로는 어떻게 시작해야 하나요?
iPullRank가 제안한 'Relevance Engineering' 5단계가 실용적인 출발점이에요. 1단계 Search Console과 랭크 트래킹 도구로 핵심 페이지 100~200개를 추출, 2단계 H2·H3 단위로 벡터 임베딩 생성, 3단계 핵심 쿼리와 청크의 코사인 유사도 측정, 4단계 ChatGPT·Perplexity·Gemini가 실제로 인용한 외부 청크와 임베딩 거리 비교, 5단계 거리·점수가 낮은 청크부터 우선순위로 재작성. 페이지 전체를 갈아엎지 않고 청크 단위로 부분 수정해야 변화량 측정이 깔끔해요. 임베딩 단계가 어렵게 느껴진다면 1단계와 6대 기준 셀프 진단부터 시작하세요. 핵심 페이지 10개를 6가지 기준으로 0~3점씩 채점만 해도 약점이 드러납니다. 로그 분석도 함께 봐야 하는데, 지오랭크가 진단한 국내 미디어커머스 D사 사례에서는 GPTBot이 카테고리 페이지의 62%만 30일 이내에 크롤했고 신상품 페이지 12%는 90일 동안 한 번도 크롤되지 않았어요. 사이트맵 분할과 robots.txt 점검 후 8주 만에 ChatGPT 인용이 1.8배로 회복됐습니다.
그 다음 격전지는 어디인가요? MCP가 그렇게 중요한가요?
에이전틱 검색 시대가 오면서 MCP(Model Context Protocol)가 다음 격전지로 떠오르고 있어요. Anthropic이 제안한 표준인데, 모델이 API와 안전하게 연결되도록 만들어서 호텔 가격, 의원 진료 시간, 이커머스 재고 같은 정보가 HTML이 아니라 구조화된 응답으로 모델에 전달됩니다. AI는 이걸 곧바로 사용자 답변에 끼워 넣어요. 즉, 1st-party 데이터의 자산화가 GEO의 다음 라운드인 셈입니다. 지오랭크는 한국 기업에 핵심 데이터의 API화, 스키마 검증, AI 봇 접근 통제, 실시간 응답 SLA 모니터링이라는 4단계 체크리스트를 권합니다. 다만 모든 산업이 당장 MCP를 도입해야 하는 건 아니에요. 정보성 콘텐츠가 주력인 미디어·교육은 여전히 추출가능성과 권위 빌딩이 1순위이고, MCP는 거래·예약·재고가 핵심인 커머스·여행·O2O에서 먼저 의미가 큽니다. 우리 비즈니스의 답변 유형이 '정보 회수형'인지 '거래 실행형'인지 구분해서 투자 우선순위를 정하는 게 안전합니다. 정리하자면, AI 슬롭 시대에 살아남는 콘텐츠는 양이 많은 콘텐츠가 아니라 추출하기 좋은 콘텐츠예요. 지금 우리 핵심 페이지 10개를 6대 기준으로 채점해 보세요. 어느 청크가 먼저 무너졌는지 5분 만에 보입니다.

