대규모 설계 기초
[System Design Interview] 9장. 웹 크롤러 설계
Wanderer Kim
2023. 8. 9. 21:52
728x90
- 웹 크롤러 : 웹에 새로 올라오거나 갱신된 콘텐츠를 찾아내는 것이 주된 목적인 소프트웨어.
- 웹 크롤럴 사용 방법
- 검색 엔진 인덱싱 : 웹 페이지를 모아 검색 엔진을 위한 로컬 인덱스를 만든다.
- 웹 아카이빙 : 나중에 사용할 목적으로 장기보관하기 위해 웹에서 정보를 모으는 절차.
- 웹 마이닝 : 인터넷에서 유용한 지식을 도출해 낼 수 있게해준다.
- 웹 모니터링 : 인터넷에서 저작권이나 사욮권이 침패되는 사례를 모니터링할 수 있다.
1단계 문제 이해 및 설계 범위 확정
- 웹 크롤러 알고리즘
- URL 집합이 입력으로 주어지면, 해당 URL들이 가리키는 모든 웹 페이지를 다운로드한다.
- 다운받은 웹 페이지에서 URL들을 추출한다.
- 추출된 URL들을 다운로드할 URL 목록에 추가하고 위의 과정을 처음부터 반복한다.
웹 크롤러가 만족시켜야 할 속성들
- 규모 확장성 : 웹에는 수식업 개의 페이지가 존재한다. 따라서 병행성을 활용하면 보다 효과적으로 웹 크롤링을 할 수 있다.
- 안정성 : 크롤러는 비정상적 입력이나 환경에 잘 대응할 수 있어야 한다.
- 예절 : 수집 대상 웹 사이트에 짧은 시간 동안 너무 많은 요청을 보내서는 안 된다.
- 확장성 : 새로운 형태의 콘텐츠를 지원하기가 쉬워야 한다.
개략적 규모 추정
- 매달 10억 개의 웹 페이지를 다운로드한다.
- QPS = 10억/30일/24시간/3600초 = 대략 400페이지/초
- 최대 QPS = 2 * QPS = 800
- 웹 페이지 크기 평균은 500k라고 가정
- 10억 페이지 * 500k = 500TB/월
- 1개월치 데이터를 보관하는 데는 500TB. 5년간 보관한다고 가정하면 500TB * 12개월 * 5년 = 30PB
2단계 개략적 설계안 제시 및 동의 구하기
시작 URL 집합
- 웹 크롤러가 크롤링을 시작하는 출발점이다.
- 크롤러가 가능한 많은 링크를 탐새갈 수 있도록 하는 URL을 고르는 것이 바람직하다.
- 일반적으로는 전체 URL 공간을 작은 부분집합으로 나누는 전략을 쓴다.
- 나라별로 인기 있는 웹 사이트가 다르다는 점을 이용한다.
- 주제별로 다른 시작 URL을 사용한다.
미수집 URL 저장소
- 대부분의 현대적 웹 크롤러는 크롤링 상태를 (1) 다운로드 할 URL, (2) 다운로드된 URL의 두 가지로 나눠 관리한다.
- "다운로드 할 URL" 을 저장 관리하는 컴포넌트를 미수집 URL 저장소라고 부른다.(FIFO라고 생각하면 된다)
HTML 다운로더
- 인터넷에서 웹 페이지를 다운로드하는 컴포넌트다.
도메인 이름 변환기
- 웹 페이지를 다운받으려면 URL을 IP 주소로 변환하는 절차가 필요하다.
- HTML 다운로더는 도메인 이름 변환기를 사용하여 URL에 대응되는 IP주소를 알아낸다.
콘텐츠 파서
- 웹 페이지를 다운로드하면 파싱과 검증 절차를 거쳐야 한다.
- 이상한 웹 페이지는 문제를 일으킬 수 있는데다 저장 공간만 낭비하게 되기 때문이다.
- 크롤링 서버 안에 콘텐츠 파서를 구현하면 크롤링 과정이 느려지게 될 수 있으므로, 독립된 컴포넌트로 만들었다.
중복 콘텐츠인가?
- 약 29% 가량의 웹 페이지 콘텐츠는 중복이다.
- 같은 콘텐츠를 중복 저장하는 문제를 해결하기 위한 자료 구조를 도입하여 데이터 중복을 줄이고 데이터 처리에 소요되는 시간을 줄인다.
- HTML 문서를 비교하는 가장 간단한 방법은 두 문서를 문자열로 보고 비교하는 것이다.
- 하지만 비교 대상 문서의 수가 10억에 달하는 경우에는 느리고 비효율적이다. 효과적인 방법은 웹 페이지의 해시 값을 비교하는 것이다.
콘텐츠 저장소
- 콘텐스 저장소는 HTML 문서를 보관하는 시스템이다.
- 본 설계안의 경우에는 디스크와 메모리를 동시에 사용하는 저장소를 책할 것이다.
- 데이터 양이 많으므로 대부분의 콘텐츠는 디스크에 저장한다.
- 인기 있는 콘텐츠는 메모리에 두어 접근 지연시간을 줄일 것이다.
URL 추출기
- URL 추출기는 HTML 페이지를 파싱하여 링크들을 골라내는 역할을 한다.
URL 필터
- URL 필터는 특정한 콘텐츠 타입이나 파일 확장자를 갖는 URL, 접속 시 오류가 발생하는 URL, 접근 제외 목록에 포함된 URL등을 크롤링 대상에서 재외하는 역할을 한다.
이미 방문한 URL?
- 이미 방문한 URL이나 미수집 URL 저장소에 보관된 URL을 추적할 수 있도록 하는 자료 구조를 사요할 것이다.
- 이미 방문한 적이 있는 URL인지 추적하면 같은 URL을 여러 번 처리하는 일을 방지할 수 있으므로 서버 부하를 줄이고 시스템이 무한 루프에 빠지는 일을 방지할 수 있다.
- 해당 자료 구조는 블룸 필터나 해시 테이블이 널리 쓰인다.
URL 저장소
- URL 저장소는 이미 방문한 URL을 보관하는 저장소다.
웹 크롤러 작업 흐름
- 시작 URL들을 미수집 URL 저장소에 저장한다.
- HTML 다운로더는 미수집 URL 저장소에서 URL 목록을 가져온다.
- HTML 다운로더는 도메인 이름 변한기를 사용하여 URL의 IP주소를 알아내고, 해당 IP 주소로 접속하여 웹 페이지를 다운받는다.
- 콘텐츠 파서는 다운된 HTML 페이지를 파싱하여 올바른 형식을 갖춘 페이지인지 검증한다.
- 콘텐츠 파싱과 검증이 끝나면 중복 콘텐츠인지 확인하는 절차를 개시한다.
- 중복 콘텐츠인지 확인하기 위해서, 해당 페이지가 이미 저장소에 있는지 본다.
- 이미 저장소에 있는 콘텐츠인 경우에는 처리하지 않고 버린다.
- 저장소에 없는 콘텐츠인 경우에는 저장소에 저장한 뒤 URL 추출기로 전달한다.
- URL 추출기는 해당 HTML 페이지에서 링크를 골라낸다.
- 골라낸 링크를 URL 필터로 전달한다.
- 필터링이 끝나고 남은 URL인 중복 URL 판별 단계로 전달한다.
- 이미 처리한 URL인지 확인하기 위하여, URL 저장소에 보관된 URL인지 살핀다. 이미 저장소에 있는 URL은 버린다.
- 저장소에 없는 URL은 URL 저장소에 저장할 뿐 아니라 마수집 URL 저장소에도 전달한다.
3단계 상세 설계
DFS vs BFS
- 웹은 directed graph이다. 페이지는 노드이고, 하이퍼링크는 에지라고 보면 된다.
- 크롤링 프로세스는 이 directed graph를 에지를 따라 탐색하는 과정이다. DFS,BFS는 그래프 탐색에 널리 사용되는 알고리즘들이다. 하지만 DFS는 좋은 선택이 아닐 가능성이 높다. 그래프 크기가 클 경우 어느 정도로 깊숙이 가게 될지 가늠하기 어려워서다.
- 따라서 웹 크롤러는 보통 BFS를 사용한다.
- 하지만 이 구현법에는 다음의 두 가지 문제점이 있다.
- 한 페이지에서 나오는 링크의 상당수는 같은 서버로 되돌아간다. 결국 크롤러는 같은 호스트에 속한 많은 링크를 다운받느라 바빠지게 되는데, 이때 링크들을 병렬로 처리하게 된다면 위키피디아 서버는 수많은 요청으로 과부하에 걸리게 될 것이다. 이런 크롤러는 보통 '예의 없는' 크롤러로 간주된다.
- 표준적 BFS 알고리즘은 URL 간에 우선순위를 두지 않는다. 하지만 모든 웹 페이지가 같은 수준의 품질, 같은 수준의 중요성을 갖지는 않는다. 그러니 페이지 순위, 사용자 트래픽의 양, 업데이트 빈도 등 여러 가지 척도에 비추어 처리 우선순위를 구별하는 것이 좋다.
미수집 URL 저장소
- 미수집 URL 저장소를 잘 구현하면 예의를 갖춘 크롤러, URL 사이의 우선순위와 신선도를 구별하는 크롤러를 구현할 수 있다.
- 예의
- 동일 웹 사이트에 대해서는 한 번에 한 페이지만 요청한다는 것이다.
- 같은 웹 사이트의 페이지를 다운받는 테스크는 시간차를 두고 실행하도록 한다.
- 각 다운로드 스레드는 별도 FIFO 큐를 가지고 있어서, 해당 큐에서 꺼낸 URL만 다운로드 한다.
- 예의
- 큐 라우터 : 같은 호스트에 속한 URL은 언제나 같은 큐로 가도록 보장하는 역할을 한다.
- 매핑 테이블 : 호스트 이름과 큐 사이의 관계를 보관하는 테이블이다.
- FIFO 큐 : 같은 호스트에 속한 URL은 언제나 같은 큐에 보관된다.
- 큐 선택기 : 큐들을 순회하면서 큐에서 URL을 꺼내서 해당 큐에서 나온 URL을 다운로드하도록 지정된 작업 스레드에 전달하는 역할을 한다.
- 작업 스레드 : 전달된 URL을 다운로드하는 작업을 수행한다.
- 우선순의
- 순위결정장치는 URL 우선순위를 정하는 컴포넌트다.
- 순위결정장치 : URL을 입력으로 받아 우선순위를 계산한다.
- 큐 : 우선순위별로 큐가 하나씩 할당한다. 우선순위가 높으면 선택될 확률도 올라간다.
- 큐 선택기 : 임의 큐에서 처리할 URL을 꺼내는 역할을 담당한다.
아래 figure 9-8은 전체 설개이다.
- 전면 큐 : 우선순위 결정 과정을 처리한다.
- 후면 큐 : 크롤러가 예의 바르게 동작하도록 보증한다.
- 신선도
- 웹 페이지는 수시로 추가되고, 삭제되고, 변경된다. 따라서 데이터의 신선함을 유지하기 위해서는 이미 다운로드한 페이지라고 해도 주기적으로 재수집할 필요가 있다.
- 그러나 모든 URL을 재수집하는 것은 많은 시간과 자원이 필요한 작업이다. 이 작업을 최적화하기 위한 전략으로는 다음과 같은 것들이 있다.
- 웹 페이지의 변경 이력 활용
- 우선순위를 활용하여 중요한 페이지는 좀 더 자주 재수집
- 미수집 URL 저장소를 위한 지속성 저장장치
- 대부분의 URL은 디스크에 두지만 IO 비용을 줄이기 위해 메모리 버퍼에 큐를 두는 것이다. 버퍼에 있는 데이터는 주기적으로 디스크에 기록할 것이다.
HTML 다운로더
- HTML 다운로더는 HTTP 프로토콜을 통해 웹 페이지를 내려 받는다.
- Robots.txt(로봇 제외 프로토콜)
- 웹 사이트가 크롤러와 소통하는 표준적 방법이다.
- 이 파일에는 크롤러가 수집해도 되는 페이지 목록이 들어 있다.
- 이 파일이 거푸 다운로드하는 것을 피하기 위해, 이 파일은 주기적으로 다시 다운받아 캐시에 보관할 것이다.
- 성능 최적화
- 분산 크롤링
- 성능을 높이기 위해 크롤링 작업을 여러 서버에 분산하는 방법이다.
- 여러 서버는 여러 스레드를 돌려 다운로드 작업을 처리한다.
- 이 구성을 위해 URL 공간은 작은 단위로 분할하여, 각 서버는 그중 일부의 다운로드를 담당하도록 한다.
- 도메인 이름 변환 결과 캐시
- 도메인 이름 변환기는 크롤러 성능의 병목 중 하나인데, 이는 DNS 요청을 보내고 결과를 받는 작업의 동기적 특성 때문이다.
- DNS 조회 결과로 얻어진 도메인 이름과 IP 주소 사이의 관계를 캐시에 보관해 놓고 크론 잡등을 돌려 주기적으로 갱신하도록 해 놓으면 성능을 효과적으로 높일 수 있다.
- 지역성
- 크롤링 작업을 수행하는 서버를 지역별로 분산하는 방법이다.
- 짧은 타임아웃
- 어떤 웹 서버는 응답이 느리거나 아예 응답하지 않는다. 이런 경우 대기 시간이 길어지면 좋지 않으므로, 최대 얼마나 기다릴지를 미리 정해두는 것이다.
- 이 시간 동안 서버가 응답하지 않으면 크롤러는 해당 페이지 다운로드를 중단하고 다음 페이지로 넘어간다.
- 분산 크롤링
- 안정성
- 안정 해시 : 다운로더 서버들에 부하를 분산할 때 적용 가능한 기술이다. 이 기술을 이용하면 다운로더 서버를 쉽게 추가하고 삭제할 수 있다.
- 크롤링 상태 및 수집 데이터 저장 : 장애가 발생한 경우에도 쉽게 복구할 수 있도록 크롤링 상태와 수집된 데이터를 지속적 저장장치에 기록해 두는 것이 좋다.
- 예외 처리 : 예외가 발생해도 전체 시스템이 중단되는 일 없이 그 작업을 웅하게 이어나갈 수 있어야 한다.
- 데이터 검증 : 시스템 오류를 방지하기 위한 주요 수단이다.
- 확장성
- 새로운 형태의 콘텐츠를 쉽게 지원할 수 있도록 신경 써야 한다.
- 문제 있는 콘텐츠 감지 및 회피
- 중복 콘텐츠
- 해시나 체크섬을 사용하면 중복 콘텐츠를 보다 쉽게 탐지할 수 있다.
- 거미 덫
- 거미 덫은 크롤러를 무한 루프에 빠뜨리도록 설계된 웹 페이지다.
- 한 가지 방법은 사람이 수작업으로 엋을 확인하고 찾아낸 후에 엋이 있는 사이트를 크롤러 탐색 대상에서 제외하거나 URL 필터 목록에 걸어두는 것이다.
- 데이터 노이즈
- 어떤 콘텐츠는 거의 가치가 없다. ex) 광고, 스크립트 코드, 스팸 URL
- 이런 콘텐츠는 크롤러에게 도움될 것이 없으므로 가능한 제외한다.
- 중복 콘텐츠
반응형