AI 프로 chatty.kr

학습관리

크롤링 개념

1크롤링(Crawling)이란?

웹상에 존재하는 방대한 데이터를 자동으로 탐색하고 대량 수집하는 기술입니다.
웹 크롤러(또는 스파이더)가 웹페이지를 순차적으로 방문하여 필요한 정보를 추출하고 저장합니다.

크롤링의 주요 목적

데이터 수집대용량 웹 데이터를
자동으로 수집·저장
AI 학습AI 모델 학습에 필요한
학습 데이터 확보
검색엔진 인덱싱웹페이지를 색인화하여
검색 결과에 노출
시장 분석시장 동향 및 트렌드
실시간 모니터링

크롤링 동작 프로세스

STEP 1
URL 목록 준비
크롤링을 시작할 첫 페이지 주소(URL) 설정
STEP 2
웹페이지 요청 및 수집
설정한 주소에 접속하여 웹페이지 데이터 수집
STEP 3
데이터 파싱 및 추출
수집한 HTML 데이터에서 필요한 정보 추출
STEP 4
링크 추출 및 저장
페이지 내 연결된 링크를 추출하여 다음 수집대상으로 저장
STEP 5
반복 수집 및 활용
저장된 링크를 기반으로 반복 수집을 수행하며 데이터 확보

유의사항

robots.txt 준수 : 크롤링 허용 범위를 반드시 확인하고 접근 허용된 경로만 수집
서버 부하 방지 : 요청 간격 및 시간대를 분산하여 대상 서버에 과부하를 주지 않도록 설정
저작권·개인정보 보호 : 수집 목적과 법적 제약을 명확히 하고 개인정보는 별도 처리 필요
보안 및 안정성 확보 : 예외 처리, 로그 기록, 재시작 기능 구현으로 안정적인 수집 환경 유지

2크롤링 활용 및 장단점

활용 예시

1공공기관 게시물 자동 수집
2유튜브 영상 및 자막 데이터 수집
3뉴스 및 SNS 게시물 수집
4전자상거래 상품 정보 수집
5부동산 매물 정보 수집

장점

1대규모 데이터 자동 수집
2최신 정보 확보
3AI 학습 효율 향상

단점

1서버 부하 가능성
2차단 위험
3법적 이슈(저작권) 발생 가능

웹 환경에 맞는 크롤링 방식을 선택하여 더 정확하고 안정적으로 데이터를 수집할 수 있습니다.

정적 VS 동적 한눈에 비교

구분	정적 크롤링(Static)	동적 크롤링(Dynamic)
속도	빠름	상대적으로 느림
대상 페이지	HTML이 고정된 페이지	JavaScript 실행 필요 페이지
주요 도구	requests, BeautifulSoup	Selenium, Playwright
반응성	고정된 결과만 수집	상황에 따라 유동적으로 대응

3정적 크롤링(Static Crawling)

서버가 이미 완성된 HTML을 전송하는 페이지를 대상으로 합니다.
브라우저 없이 HTTP 요청만으로 HTML을 받아 파싱하기 때문에 속도가 매우 빠르고 리소스 소모가 적습니다.

적합한 페이지 예시

공공기관 게시판고정된 HTML로 구성된
공지·게시물 목록 페이지
뉴스 사이트기사 제목·본문이
서버에서 완성되어 전달
쇼핑몰 상품 목록상품명·가격이 HTML에
정적으로 포함된 페이지
통계청·정부 데이터표·수치가 HTML에 직접
작성된 공공 데이터 페이지

크롤링 동작 프로세스

STEP 1
HTTP 요청
requests 라이브러리로
URL에 GET 요청 전송
STEP 2
HTML수신
서버가 완성된
HTML 응답 반환
STEP 3
파싱
BeautifulSoup으로
태그·데이터 추출
STEP 4
저장
CSV·DB 등 원하는
형식으로 저장

주요 도구

도구	역할	특징
requests	HTTP 요청	간단한 API, 빠른 응답 속도, 범용성 높음
BeautifulSoup4	HTML 파싱	CSS 선택자·태그 탐색 직관적, lxml과 함께 사용 가능

확인 TIP크롬에서 Ctrl+U(페이지 소스 보기)를 눌렀을 때 원하는 데이터가 바로 보인다면 → 정적 크롤링 대상입니다.

4동적 크롤링(Dynamic Crawling)

페이지 안에 탭, 날씨 위젯, 무한 스크롤처럼 JavaScript가 실행되어야 보이는 데이터를 대상으로 합니다.
실제 브라우저를 자동으로 제어해 JavaScript를 실행시킨 후 데이터를 수집하기 때문에 속도는 상대적으로 느리지만,
상황에 따라 반응하며 모든 데이터를 가져올 수 있습니다.

적합한 페이지 예시

탭 전환클릭 시 JavaScript로
내용이 바뀌는 탭 메뉴
날씨 위젯API 호출로 실시간
날씨 데이터 표시
무한 스크롤스크롤 시 자동으로
추가 콘텐츠 로드
SNS·쇼핑몰로그인·클릭 후 보이는
동적 상품/피드 정보

작동 프로세스

STEP 1
브라우저 실행
Selenium/Playwright로
브라우저를 자동 실행
STEP 2
페이지 로드
JavaScript가 실행되어
동적 콘텐츠 생성 대기
STEP 3
상호작용
클릭·스크롤 등
사용자 동작 자동 수행
STEP 4
데이터 추출
렌더링 완료 후
원하는 데이터 파싱·저장

주요 도구

도구	역할	특징
Selenium	브라우저 자동 제어	클릭·입력·스크롤 등 상호작용 가능, 범용성 높음
Playwright	브라우저 자동 제어	빠른 속도, 비동기 지원, 모던 API 제공

확인 TIPCtrl+U 페이지 소스에서 원하는 데이터가 보이지 않는다면 → 동적 크롤링이 필요한 대상입니다.
(F12 개발자 도구 > Network 탭에서 API 호출 확인)

성명^*	(예) 홍길동
휴대폰^*	(예) 010-1234-5678
이메일^*	@

소속	(예) 세종데이터㈜
부서	(예) 임원
직위	(예) 부사장
홈페이지 주소	(예) www.company.kr

학습관리

크롤링 개념

1크롤링(Crawling)이란?

크롤링의 주요 목적

크롤링 동작 프로세스

2크롤링 활용 및 장단점

웹 환경에 맞는 크롤링 방식을 선택하여 더 정확하고 안정적으로 데이터를 수집할 수 있습니다.

3정적 크롤링(Static Crawling)

적합한 페이지 예시

크롤링 동작 프로세스

주요 도구

4동적 크롤링(Dynamic Crawling)

적합한 페이지 예시

작동 프로세스

주요 도구

맞춤형 AI 챗봇 사용 신청서

RAG 기술을 활용한 맞춤형 AI 챗봇 서비스

기본정보 * 은 필수정보입니다.

추가정보