스몰토픽이에요~ 요즘 콘텐츠 기업들 중 #AI 가 내 #콘텐츠를 긁어가서 미치겠는 기업들 있으신가요? 이런 기업들은 이제 #AI크롤링 을 관리할 수 있는 방법이 생겼어요. 돈 내고 긁어가든가, 아님 못 긁어가~!
요즘 기술 기업은 AI 도구를 훈련시키기 위해 웹의 콘텐츠를 대량으로 긁어 모으고 있단 얘긴 들으셨지요?
사실 웹 콘텐츠 스크래핑은 인터넷 초창기부터 존재해왔어요. 1990년대 구글이 갓 태동했을 무렵엔, 크롤러가 자유롭게 웹사이트를 읽는 것이 트래픽 증가와 광고 수익으로 이어졌기 때문에 사이트 운영자들도 이를 자연스럽게 허용했죠.
하지만 지금은 양상이 좀 달라요. ChatGPT, 구글 Gemini 등 AI 챗봇은 웹의 방대한 데이터를 바탕으로 사용자의 질문에 간결한 답변을 제공하면서, 사용자가 실제 웹사이트를 방문할 필요가 줄어들고 있어요. 많은 언론사들은 구글의 AI 검색 모드가 도입되면서 링크 수가 대폭 줄어들자, 향후 검색 트래픽이 더욱 감소할 것이라 우려하고 있어요.
인터넷 보안기업인 Cloudflare에 따르면, 지난해 대비 스크래핑 활동은 18% 증가했다고 해요.
이제 미디어 기업들이 자신들의 웹사이트를 AI 기술 기업으로부터 보호하기 위한 움직임을 강화하고 있어요.
처음에는 AI 봇에게 콘텐츠 스크래핑을 중단해 달라고 정중히 요청했지만, 이제는 아예 소송을 하거나 이들 봇의 접근 자체를 원천 차단하려는 움직임을 보이고 있죠.
일부 언론사는 자신들의 콘텐츠 사용에 대해 정당한 대가를 요구하며 소송을 제기하거나 라이선스 계약을 체결하고 있어요. The Atlantic은 OpenAI와 라이선스 계약을 맺은 언론사 중 하나예요.
그리고 일부 언론사들은 아예 봇의 접근 자체를 통제하기 시작했는데요. Cloudflare는 이달 초 AI 크롤러를 향한 ‘통행료 부과’ 기능을 도입해 화제예요. 이 기능을 통해 콘텐츠 제공자가 AI 크롤러에 대해 접근 허용 여부와 활용 범위를 결정할 수 있어요.
Cloudflare에 따르면 새로 등록되는 도메인에는 AI 크롤러 기본 차단이 설정되구요. 기존 사용자는 클릭 한 번으로 AI 크롤러 차단 또는 허용 여부를 수정할 수 있어요. 특정 AI 봇에는 “Pay Per Crawl(유료 통행료)” 모델을 적용해, 크롤링 시 소액 결제를 요구할 수도 있다네요. 오오.. 이것은 공정하겠는데요?
즉 도메인 소유자는 차단, 무료 허용, 유료 허용 중 원하는 방식으로 크롤링 세팅을 설정할 수 있고, 특정 AI 봇은 예외 처리도 가능한 거예요. 만약 유료 크롤링이 발생하면, Cloudflare가 실제 결제 중개자로서, 금액을 받아 퍼블리셔(콘텐츠 소유자)에게 지급해요. 인증된 AI 봇은 Ed25519 키를 이용해 자신을 서명(Signature) 헤더로 인증하게 된답니다.
Cloudflare가 전체 웹의 약 20%를 프록시하고 있거든요? 이 기업의 정책이 자리 잡는다면 새로운 웹 표준으로 자리 잡을 수 있는 기반이 마련될 듯요.
그동안 미디어사들은 Robots.txt라는 오래된 프로토콜을 이용해 크롤링을 방지해 왔는데, 최근 AI 기업 중에는 이를 우회하는 봇을 추가하는 이들도 있다네요. 이런 봇들이 악질적인 게, 돈도 안내고 남의 콘텐츠를 긁어가는 걸 넘어, 서버 자원까지 소모하거든요. 저도 2년 전 누가 제 사이트에 엄한 봇을 붙여서 정말 사이트가 느려진 적 있었답니다. 누군지 지금도 궁금…!
미래는 과연 어찌 될까요?