Back to Question Center
0

Semalt - 웹 페이지를 긁는 방법?

1 answers:
Beautiful Soup은 파스 트리를 작성하여 웹 페이지를 다듬는 데 널리 사용되는 파이썬 라이브러리입니다. XML 및 HTML 문서에서 가져 오기. 웹 스크랩은 웹 사이트 및 페이지에서 데이터를 추출하는 기술로 데이터 분석 및 관리 분야에서 널리 사용됩니다. 대부분의 경우 Python 프로그래밍 언어는 데이터 과학의 전제 조건입니다.

Python 3에는 데이터 관리 프로젝트에 적용 할 수있는 긁는 도구 와 모듈 이 있습니다. 현재 Beautiful Soup 4로 실행되는이 모듈은 Python 3 및 Python 2와 호환됩니다 - instalar opencart.7. Beautiful Soup 4 모듈은 닫히지 않은 태그 스프에 대한 구문 분석 트리를 생성 할 수도 있습니다.이 튜토리얼에서는 페이지를 긁어 스크랩 한 데이터를 CSV 파일에 쓰는 방법을 배우게됩니다. 시작하기

시작하려면 PC에 서버 또는 로컬 기반 Python 코딩 환경을 설정하십시오

. 당신은 또한 당신의 기계에 Beautiful Soup and Requests 모듈을 설치해야합니다.두 모듈 모두에 대한 지식은 필수 전제 조건입니다.HTML 태깅 및 구조에 익숙한 것도 추가 이점입니다.

귀하의 데이터 이해하기

이 컨텍스트에서 National Art of Art의 실제 데이터는 Beautiful Soup 4 사용법을 이해하는 데 도움이됩니다. 내셔널 갤러리 오브 아트 (National Gallery of Art)는 대략 13,000 명의 예술가가 진행하는 12 만 편으로 구성되어 있습니다.예술은 워싱턴 D에 기반을두고 있습니다.C, 미국.

아름다운 스프를 사용한 웹 데이터 추출은 그리 복잡하지 않습니다.예를 들어, 문자 Z에 초점을 맞춘 경우 목록의 첫 번째 이름을 표시하고 적어 두십시오.이 경우, 이름은 Zabaglia, Niccola. 일관성을 위해 페이지 수와 해당 페이지의 마지막 아티스트 이름을 지정하십시오.

요청 및 아름다운 스프 라이브러리 가져 오기

라이브러리를 가져 오려면 Python 3 프로그래밍 환경을 활성화하십시오. 프로그래밍 환경과 동일한 디렉토리에 있는지 확인하십시오.시작하려면 다음 명령을 실행하십시오.my_env / bin / activate.

새 파일 만들기 및 아름다운 수프 및 요청 라이브러리 가져 오기 시작. 요청 라이브러리는 파이썬 프로그램 내에서 HTTP를 읽을 수있는 형식으로 사용할 수있게합니다.아름다운 수프는 다른 한편으로는, 페이지를 빨리 긁는 것을 작동합니다. bs4를 사용하여 Beautiful Soup 가져 오기.

웹 페이지를 수집하고 분석하는 방법

요청을 사용하여 첫 번째 페이지의 URL 수집. 첫 페이지의 URL이 변수 페이지에 지정됩니다.Requests로부터 BeautifulSoup 객체를 만들고 파이썬의 파서로부터 객체를 파싱한다.

이 튜토리얼의 목적은 링크와 아티스트의 이름을 수집하는 것입니다. 예를 들어, 예술가의 날짜와 국적을 수집 할 수 있습니다.Windows 사용자는 아티스트의 이름을 마우스 오른쪽 버튼으로 클릭하십시오.이 경우, Zabaglia, Niccola. Mac OS 사용자의 경우 "CTRL"을 누르고 이름을 클릭하십시오.웹 개발자 도구에 액세스하기 위해 화면에 팝업으로 나타나는 "Inspect Element"메뉴를 클릭하십시오.아름다운 수프가 나무를 빨리 파싱하게하려면 작가의 이름을 인쇄하십시오.

아래 링크 제거

웹 페이지에서 아래 링크를 제거하려면 요소를 마우스 오른쪽 버튼으로 클릭하여 DOM을 검사합니다. 링크가 HTML 표 아래에 있음을 나타냅니다.Beautiful Soup를 사용하여 "분해 방법"을 사용하여 구문 분석 트리에서 태그를 제거하십시오.

태그에서 내용을 가져 오는 방법

전체 링크 태그를 인쇄 할 필요없이 아름다운 수프를 사용하여 태그에서 자료를 제거하십시오. Beautiful Soup 4를 사용하여 아티스트와 관련된 URL을 캡처 할 수도 있습니다.

CSV 파일을 사용하면 구조화 된 데이터를 일반 텍스트 (주로 데이터 시트에 사용되는 형식)에 저장할 수 있습니다.Python으로 일반 텍스트 파일을 처리하는 것에 대한 지식이 필요합니다.

웹 데이터 추출은 페이지를 긁어 내고 정보를 얻는 데 사용됩니다. 에서 정보를 추출하는 웹 사이트를 고려하십시오.일부 동적 웹 사이트는 사이트에서 웹 데이터 추출을 제한합니다.Beautiful Soup과 Python 3으로 페이지를 다듬는 것은 간단합니다.

December 22, 2017