본문 바로가기

언어/python&웹 크롤링

[python&웹 크롤링] 1. 웹 크롤링의 개념과 머신러닝

웹 크롤러(Web Crawler)란?

- 자동화된 방법으로 www(월드 와이드 웹) 을 탐색하는 컴퓨터 프로그래밍

 

웹 크롤링에서 데이터 수집이란?

- SNS, 금융권, 이미지, 공공기관, 쇼핑몰 등 이미지나 텍스트 정보를 가져오는 것

웹 크롤링에서 데이터 가공이란?

- 수집된 정보를 가공하여 excel, csv, xml, txt, binary 파일 등으로 변환시키는 것

 

웹 스크래핑(Web Scraping)이란?

- 마음에 드는 사진을 직접 다운로드 받거나, 내가 원하는 정보를 그때그때 웹에서 가져오는 것

- CMS(Content Management System) 어플리케이션의 원천 기술

- 프로토콜 방식과 브라우저 방식이 존재한다.

- 사람이 직접 하기 때문에 손수 해야하는 번거로움이 있다.

 

웹 크롤링(Web Scraping)이란?

- 웹 스크래핑의 정식명칭

- 일정한 간격 또는 주기적으로 웹에서 정보를 추출하여 저장한다 (DB 및 파일시스템에 저장)

- 주로 사람이 수행하는것보다 크롤러(Crawler)가 수행한다.

- 최신정보를 유지한다. (검색엔진은 웹 크롤러를 이용해 인터넷의 자료를 수집)

 

머신러닝(Machine Learning)이란?

- 인간의 학습을 컴퓨터 또는 기계로 구현한것.

- 학습 과정에서 인간의 개입이 있다.

- 기본적으로 알고리즘을 통해 데이터를 분석 또는 학습한다.

- 학습 내용을 기반으로 판단, 추세, 예측 등 한다.

- 대량의 데이터와 알고리즘을 통해 학습시키는것에 목표를 둔다.

 

머신러닝의 실 사례

세계적인 e커머스 중 하나인 아마존은 상품의 리뷰에 따라서 상품 판매량에 큰 영향을 미친다.

아마존 머신러닝은 알고리즘을 통해 데이터를 학습하여 다음의 리뷰등을 삭제하거나 검출 시 관리자에게 통보한다.

 1. 돈을 받고 올린듯한 리뷰

 2. 의미없는 리뷰

 3. 그 밖의 규정에 어긋난 리뷰

 

딥러닝(Deep Learning)이란?

- 머신러닝과 다르게 인간이 개입하지 않고 스스로 학습한다.

- 데이터 표본의 양이 머신러닝보다 훨씬 많아야 한다.

- 시스템 성능도 훨씬 좋아야 한다.

- 주로 GPU 연산을 한다.

- 딥러닝을 통해 개발된 알파고의 경우 CPU1202, GPU176, 서버급 샤양 300대로 운영되었다.

 

머신러닝 프로세스

- 데이터 수집 -> 데이터 가공 -> 데이터 학습 -> 학습방법 선택 -> 매개변수 조정 -> 모델학습 -> 정확도 평가 -> 학습

위와 같은 순서대로 프로세스가 진행된다. 정확도 평가 후 정확도가 낮다면 매개변수 조정 과정으로 다시 돌아와서, 정확도가 높아질 때 까지 진행한다.

 

 


Today :
Yesterday :
Total :