생성형 AI, 오픈 액세스(OA) 사이트를 위협하는 존재인가?
오픈 액세스의 의미와 중요성
오픈 액세스(OA)는 연구 논문, 서적, 데이터, 교육 자료 등 학술 정보를 누구나 자유롭게 이용할 수 있도록 제공하는 것을 의미합니다. 기술적 장벽 없이 콘텐츠에 접근하고, 적절한 출처 표시 하에 콘텐츠를 읽고, 다운로드하고, 복사하고, 배포하고, 재사용할 수 있도록 법적 권한을 부여합니다. 이는 학문적 지식의 확산과 공유를 촉진하고, 과학 발전과 혁신에 기여하는 중요한 역할을 합니다.
AI 크롤러의 등장과 OA 사이트 공격
최근 생성형 AI 챗봇 및 관련 서비스의 학습 데이터 확보를 위해 AI 크롤러(AI 봇)들이 웹사이트를 끊임없이 스캔하고 있습니다. 문제는 이 AI 크롤러들이 OA 사이트를 포함한 여러 웹사이트에 과도한 트래픽을 유발하여 서버 자원을 고갈시키고, 서비스 중단까지 초래한다는 점입니다. 인터넷 트래픽의 대부분을 봇이 차지하고 있는 상황에서, AI 크롤러는 가장 빠르게 성장하는 봇 종류 중 하나입니다.
데이터 수집과 원본 출처 무시
AI 크롤러의 목적은 데이터를 수집하여 원본 출처를 대체하는 데 있습니다. 예를 들어, 특정 주제에 대한 과학 논문을 검색할 때, 사용자가 Google을 사용하는 대신 AI 챗봇이 여러 논문과 사이트를 조합하여 새로운 "논문"을 제공합니다. 이는 사용자가 원본 사이트를 무시하고 챗봇에서 정보를 얻도록 유도합니다. OA 사이트에서 더 많은 데이터를 수집할수록 챗봇은 더욱 빠르고 편리해지지만, 반대로 OA 사이트는 느려지고 사용하기 어려워집니다.
클라우드플레어의 대응과 AI 미로(AI Labyrinth)
클라우드플레어는 AI 기업들이 웹사이트에서 허가 없이 데이터를 가져가는 것에 대응하기 위해 "AI 미로(AI Labyrinth)"라는 기능을 도입했습니다. 이 프로그램은 AI 봇을 클라우드플레어가 만든 특수 웹사이트로 리디렉션하여, 해당 웹사이트에 사실적으로 정확하지만 관련 없는 AI 생성 정보를 채워 넣습니다. 이는 봇을 통제하는 기업의 시간을 낭비하게 할 뿐만 아니라, 해당 기업을 블랙리스트에 추가하는 허니팟 역할도 수행합니다.
다양한 대응 방법
AI 크롤러를 막는 방법으로는 robots.txt 파일 사용, 웹 애플리케이션 방화벽(WAF) 활용, 속도 제한 설정, 고급 봇 관리 솔루션 도입 등이 있습니다. robots.txt 파일은 검색 엔진 봇에게 인덱싱 금지 파일을 알려주는 역할을 하지만, AI 크롤러는 이를 무시하는 경우가 많습니다. WAF는 AI 봇의 특정 시그니처를 인식하여 차단하고, 속도 제한은 특정 IP에서 특정 시간 내에 만들 수 있는 요청 수를 제한합니다. 고급 봇 관리 솔루션은 머신 러닝과 행동 분석을 통해 원치 않는 AI 봇을 식별하고 차단합니다.
맺음말
OA 사이트는 인터넷에서 가장 훌륭한 정보 소스 중 하나이며, 인간과 LLM 기반 챗봇 모두에게 중요한 자원입니다. AI 크롤러의 데이터 수집 합법성과 별개로, 데이터 수집 과정에서 OA 사이트의 운영을 방해하고 공격하는 행위는 반드시 해결해야 할 문제입니다. OA사이트를 보호하고 건강한 정보 생태계를 유지하기 위한 지속적인 노력과 관심이 필요합니다.