AI 스크래핑 우려가 웹 아카이브를 위협하다
AI 학습 데이터 수집을 우려한 주요 언론사들이 웨이백머신을 차단하기 시작했다. 아카이브 측은 이것이 AI가 아닌 공공 역사 기록을 지우는 일이라고 반박한다.

TL;DR
AI 학습 데이터 무단 수집을 우려한 주요 언론사들이 인터넷 아카이브(웨이백머신) 크롤러를 차단하기 시작했다. 인터넷 아카이브 측은 자신들이 AI 스크래핑 도구가 아니라 공공 디지털 도서관임을 강조하며, 차단이 오히려 역사 기록의 손실을 초래할 것이라고 반박하고 있다.
이 글은 Nieman Lab과 Techdirt의 두 기사를 읽고 내용을 요약/정리한 글입니다. 기사 전문은 아래 링크를 통해 보실 수 있습니다.
- Nieman Lab, "News publishers limit Internet Archive access due to AI scraping concerns"
- Techdirt, "Preserving The Web Is Not The Problem. Losing It Is."
언론사들의 접근 차단(Nieman Lab 기사)
AI 봇들이 학습 데이터 수집을 위해 웹을 광범위하게 수집하는 상황에서, 인터넷 아카이브의 무료 정보 접근 원칙이 일부 언론사에게 잠재적 위험 요소로 인식되기 시작했다.
가디언(The Guardian)은 자사 접근 로그에서 인터넷 아카이브의 빈번한 크롤링을 확인한 뒤, API 접근을 차단하고 웨이백머신 URL 인터페이스에서 기사 페이지를 제외하는 조치를 취했다. 사업·라이선스 총괄 로버트 한(Robert Hahn)은 "인터넷 아카이브의 API는 AI 기업들이 기계를 연결해 지적재산권이 있는 텍스트를 추출하기에 명백한 수단이 될 수 있다"고 우려를 밝혔다. 단, 비영리 기관의 정보 민주화 사명을 지지한다는 이유로 전면 차단은 하지 않았다.
뉴욕타임스(NYT)는 인터넷 아카이브 크롤러를 "하드 블로킹(hard blocking)"하고 있다고 공식 확인했다. 2025년 말에는 robots.txt에 archive.org_bot을 추가했으며, "웨이백머신이 AI 기업을 포함한 누구에게나 타임스 콘텐츠에 무단으로 무제한 접근을 허용하고 있다"고 차단 이유를 밝혔다. 파이낸셜타임스(FT) 와 Reddit 역시 유사한 조치를 취했으며, Reddit은 AI 기업들이 플랫폼 정책을 위반해 웨이백머신을 통해 데이터를 스크래핑하는 사례가 확인됐다고 밝혔다.
Nieman Lab은 1,167개 뉴스 사이트의 robots.txt를 분석(탐색적 데이터이며, 대상의 76%가 미국 기반)한 결과, 241개 사이트(9개국)가 인터넷 아카이브 봇을 하나 이상 차단하고 있었다. 이 중 87% 는 USA Today Co.(구 Gannett) 계열로, 2025년에 일괄 차단 조치를 시행했다. 또한 241개 사이트 중 240개 는 비영리 웹 보존 프로젝트인 Common Crawl도 동시에 차단하고 있어, 차단 조치가 인터넷 아카이브만을 겨냥한 것이 아님을 보여준다.
인터넷 아카이브 창립자 브루스터 칼(Brewster Kahle)은 "출판사들이 인터넷 아카이브 같은 도서관의 접근을 제한한다면 공공의 역사 기록 접근이 줄어들 것"이라고 경고했다. 한편 로버트 한은 "인터넷 아카이브는 좋은 의도로 운영되지만, 의도치 않은 결과의 법칙에 따라 그 선의가 악용되고 있다"고 평가했다.1
인터넷 아카이브의 반론(Techdirt 기사)
이에 대해 웨이백머신 디렉터 Mark Graham은 Techdirt에 기고한 글에서 언론사들의 우려가 "이해할 수 있지만 근거가 없다(understandable, but unfounded)"고 반박했다. 그는 웨이백머신이 1996년부터 운영되어 온 501(c)(3) 비영리 공공 도서관이자 연방 납본 도서관으로, 대규모 상업적 스크래핑을 위한 도구로 설계된 것이 아니라고 강조했다. 현재 인터넷 아카이브는 속도 제한(rate limiting), 필터링, 모니터링을 통해 악의적인 접근을 방지하고 있으며, 새로운 스크래핑 패턴이 발생할 경우 적극적으로 대응하고 있다고 밝혔다.
Graham은 접근 차단이 초래할 결과를 더 심각한 문제로 지목했다. 아카이브가 막힐 경우, 공공 기록에 대한 접근이 사라지고, 언론인은 과거 콘텐츠를 통한 팩트체크 수단을 잃으며, 연구자들은 디지털 사료를 잃게 된다. 또한 Techdirt의 테크 정책 저술가 Mike Masnick은 양질의 저널리즘이 아카이브에서 빠져나갈 경우 "역사 기록이 질 높은 저널리즘에 불리한 방향으로 왜곡될 수 있다"고 경고했다.
인터넷 아카이브 측은 현재 언론사들과 협력하여 역사 기록을 지우지 않으면서도 우려를 해소할 수 있는 기술적 해결책을 함께 모색 중이라고 덧붙였다.2
코멘트
두 입장 모두 나름의 논리는 있다. 다만 언론사 입장에서는 AI 스크래핑 우려만큼이나 페이월 유지라는 이해관계도 작용하고 있는 것 아닐까 싶다.
실효성 면에서도 의문이 남는다. 대규모 IP 풀을 운용하는 AI 기업들의 크롤봇은 robots.txt 차단만으로는 막기 어렵다. robots.txt 는 법적인 강제력이 없기때문에 이를 무시하거나 User-Agent를 위조하는등 다양한 방법이 있기 때문이다. 정작 차단으로 피해를 보는 것은 AI 기업이 아니라 아카이브를 연구나 기록 목적으로 활용하는 일반 이용자와 연구자들이 될 가능성이 높다. 실제로 이 이슈를 접하고 나서야 웨이백머신으로 Reddit 페이지를 저장하려 했을 때 댓글이 정상적으로 표시되지 않던 이유를 이해하게 됐다.
개인적으로는 인터넷 아카이브를 지지하는 입장이다. 대형 언론사의 콘텐츠가 단기간에 사라질 가능성은 낮지만, 흩어진 자료를 한곳에서 시계열로 열람할 수 있는 공간은 인터넷 아카이브 외에 대체재가 마땅치 않다. 앞으로 이 흐름이 다른 언론사로도 확산되기 전에 양측이 합리적인 해결책을 찾아, 인터넷 아카이브가 모두에게 열린 디지털 보존 공간으로 계속 남아 있기를 바란다.
더 읽기
해당 이슈에 대한 추가적인 시각을 원한다면 아래 자료를 참고하길 바란다.
-
Reddit — r/Archivists : 아키비스트 커뮤니티의 반응과 현장 의견을 살펴볼 수 있다. https://www.reddit.com/r/Archivists/comments/1r8980v/internet_archive_response_to_major_sites_blocking/
-
EFF(Electronic Frontier Foundation) : Techdirt 기사와 유사한 논조로, 인터넷 아카이브 차단이 AI를 막는 것이 아니라 웹의 역사적 기록을 지우는 결과를 초래한다고 주장한다. https://www.eff.org/deeplinks/2026/03/blocking-internet-archive-wont-stop-ai-it-will-erase-webs-historical-record
