Eunkyung Koh

데이터분석가로의 길을 걸어가고 있는 고은경입니다.

Crawling, Scraping

less than 1 minute read

1. Crawling

crawler: spider, bots, web crawler 등 다양한 이름으로 불린다.
Web indexing 을 목적으로 한다.
처음 URL 리스트에서 시작해서 하이퍼링크들을 찾고 fetching 한다.

2. BeautifulSoup vs. Scrapy

BeautifulSoup: Parsing 목적
Scrapy: 편하게 봇을 만들어주는 Framework

3. Scraping vs. Crawling

Scraping	Crawling
웹 포함 다양한 소스에서 데이터 추출	웹에서 페이지 다운로드
규모 관계 없음	주로 대규모
중복 제거 필수 아님	중복 제거 필수
crawl agent + parser 필요	crawl agent 필요

4. Crawling + Scraping 아키텍처

바깥쪽이 Crawling
가운데 데이터로 저장하는 부분이 Scraping

Share on

Twitter Facebook LinkedIn

Leave a comment

You may also enjoy

스태킹(Stacking) 앙상블

less than 1 minute read

December 31 2020

머신러닝 앙상블 학습의 마지막 유형 스태킹(Stacking)에 대해 정리한 글입니다.

불균형 데이터로 머신러닝 수행하기 - 언더 샘플링(Undersampling), 오버 샘플링(Oversampling)

1 minute read

December 19 2020

머신러닝에서 불균형한 데이터로 학습을 하는 방법에 대해 정리한 글입니다.

R로 데이터 분석하기 - 모델링 (3) : 랜덤포레스트(Random Forest)

less than 1 minute read

December 14 2020

R에서 Random Forest를 적용하는 방법에 대해 정리한 글입니다.

R로 데이터 분석하기 - 모델링 (2) : 로지스틱 회귀분석

less than 1 minute read

December 12 2020

R에서 로지스틱 회귀분석을 수행하는 방법에 대해 정리한 글입니다.