웹 크롤러(Web Crawler)란?
- 자동화된 방법으로 www(월드 와이드 웹) 을 탐색하는 컴퓨터 프로그래밍
웹 크롤링에서 데이터 수집이란?
- SNS, 금융권, 이미지, 공공기관, 쇼핑몰 등 이미지나 텍스트 정보를 가져오는 것
웹 크롤링에서 데이터 가공이란?
- 수집된 정보를 가공하여 excel, csv, xml, txt, binary 파일 등으로 변환시키는 것
웹 스크래핑(Web Scraping)이란?
- 마음에 드는 사진을 직접 다운로드 받거나, 내가 원하는 정보를 그때그때 웹에서 가져오는 것
- CMS(Content Management System) 어플리케이션의 원천 기술
- 프로토콜 방식과 브라우저 방식이 존재한다.
- 사람이 직접 하기 때문에 손수 해야하는 번거로움이 있다.
웹 크롤링(Web Scraping)이란?
- 웹 스크래핑의 정식명칭
- 일정한 간격 또는 주기적으로 웹에서 정보를 추출하여 저장한다 (DB 및 파일시스템에 저장)
- 주로 사람이 수행하는것보다 크롤러(Crawler)가 수행한다.
- 최신정보를 유지한다. (검색엔진은 웹 크롤러를 이용해 인터넷의 자료를 수집)
머신러닝(Machine Learning)이란?
- 인간의 학습을 컴퓨터 또는 기계로 구현한것.
- 학습 과정에서 인간의 개입이 있다.
- 기본적으로 알고리즘을 통해 데이터를 분석 또는 학습한다.
- 학습 내용을 기반으로 판단, 추세, 예측 등 한다.
- 대량의 데이터와 알고리즘을 통해 학습시키는것에 목표를 둔다.
머신러닝의 실 사례
세계적인 e커머스 중 하나인 아마존은 상품의 리뷰에 따라서 상품 판매량에 큰 영향을 미친다.
아마존 머신러닝은 알고리즘을 통해 데이터를 학습하여 다음의 리뷰등을 삭제하거나 검출 시 관리자에게 통보한다.
1. 돈을 받고 올린듯한 리뷰
2. 의미없는 리뷰
3. 그 밖의 규정에 어긋난 리뷰
딥러닝(Deep Learning)이란?
- 머신러닝과 다르게 인간이 개입하지 않고 스스로 학습한다.
- 데이터 표본의 양이 머신러닝보다 훨씬 많아야 한다.
- 시스템 성능도 훨씬 좋아야 한다.
- 주로 GPU 연산을 한다.
- 딥러닝을 통해 개발된 알파고의 경우 CPU1202, GPU176, 서버급 샤양 300대로 운영되었다.
머신러닝 프로세스
- 데이터 수집 -> 데이터 가공 -> 데이터 학습 -> 학습방법 선택 -> 매개변수 조정 -> 모델학습 -> 정확도 평가 -> 학습
위와 같은 순서대로 프로세스가 진행된다. 정확도 평가 후 정확도가 낮다면 매개변수 조정 과정으로 다시 돌아와서, 정확도가 높아질 때 까지 진행한다.
'언어 > python&웹 크롤링' 카테고리의 다른 글
[python&웹 크롤링] 6. urllib을 활용한 필요 데이터 추출하기(1) (0) | 2020.11.26 |
---|---|
[python&웹 크롤링] 5. 파이썬 설치 및 개발환경 설정(4) (0) | 2020.11.26 |
[python&웹 크롤링] 4. 파이썬 설치 및 개발환경 설정(3) (0) | 2020.11.16 |
[python&웹 크롤링] 3. 파이썬 설치 및 개발환경 설정(2) (3) | 2020.11.03 |
[python&웹 크롤링] 2. 파이썬 설치 및 개발환경 설정(1) (0) | 2020.11.03 |