TIP준비 단계에서 대상과 방법을 명확히 정의하면 이후 분석 효율이 크게 향상됩니다.

크롤링 대상 설정

탐색목록 만들기

크롤링 방법

정리 및 실행 전략
수집 목적 구체화
정책 준수 및 법적 검토
대상 사이트별 수집
| 구분 | 폴더 수집 (Folder-based) | 기간 수집 (Time-based) | 위키 수집 (Wiki-style) |
|---|---|---|---|
| 핵심 목표 | 구조화된 데이터의 전수 확보 | 최신성 및 수집 효율 극대화 | 데이터 간 연관성 및 변경점 파악 |
| 수집 범위 | 특정 카테고리/디렉토리 하위 모든 페이지 | 설정된 특정 기간 내 업데이트된 데이터 | 주제별 링크 연결망 및 내용 변경 문서 |
| 업데이트 방식 | 정기적인 전체 갱신 | 주기적인 증분 수집 | 이벤트/변경 발생 시 타겟 수집 |
| 서버 부하 | 높음 (대량의 페이지 탐색 필요) |
낮음 (필요한 구간만 수집) |
보통 (연관 링크 추적 필요) |
| 주요 사례 | - 공공기관 아카이브 - 쇼핑몰 전체 상품 목록 |
- 뉴스/블로그, 최근 7일 게시물 | - 위키백과, 기술 가이드 - 히스토리 관리 문서 |