'urllib' 태그의 글 목록

urllib

파이썬 크롤링 - 디시인사이드(dcinside.com) 이미지 저장 2021.04.29

파이썬 크롤링 - 디시인사이드(dcinside.com) 이미지 저장

8109 2021. 4. 29. 21:58

2021. 4. 29. 21:58

728x90

파이썬 크롤링 - 디시인사이드(dcinside.com) 이미지 저장

소스

import requests
from urllib import request
from bs4 import BeautifulSoup

# URL 설정
BASE_URL = "https://gall.dcinside.com/board/view/?id=dcbest&no=2479&page=1"
DOMAIN_URL = "https://gall.dcinside.com"

# 헤더 설정
headers = [
{'User-Agent' : ''},
]

html_list = requests.get(BASE_URL, headers=headers[0])
soup = BeautifulSoup(html_list.content, 'html.parser')

file_box = soup.find('div', class_='appending_file_box').find_all('li')

num = 0
for i in file_box:
    num += 1 # 넘버링
    img_URL = i.find('a',href=True)['href'] # 이미지 주소
    file_ext = i.find('a',href=True)['href'].split('.')[-1] # 확장자 추출

    opener = request.build_opener()
    opener.addheaders = [('User-agent', ''), ('Referer', html_list.url)]
    request.install_opener(opener)
    request.urlretrieve(img_URL, "TEST" + str(num) + "." + file_ext)

출력

2021.04.27 - [파이썬 - Python] - 파이썬 크롤링 - 와이고수(ygosu.com)

파이썬 크롤링 - 와이고수(ygosu.com)

파이썬 크롤링 - 와이고수(Ygosu.com) 소스 import requests from urllib import request from bs4 import BeautifulSoup BASE_URL = "https://www.ygosu.com/community/real_article" # 헤더 설정 headers = [ {'..

clanguage.tistory.com

2021.04.28 - [파이썬 - Python] - 파이썬 크롤링 - 디시인사이드(dcinside.com)

파이썬 크롤링 - 디시인사이드(dcinside.com)

파이썬 크롤링 - 디시인사이드(dcinside.com) 소스 import requests from urllib import request from bs4 import BeautifulSoup # URL BASE_URL = "https://gall.dcinside.com/board/lists/?id=dcbest&page=1" Do..

clanguage.tistory.com

저작자표시

'Python' 카테고리의 다른 글

파이썬 - 카카오톡 메세지 보내기(SendMessage, PostMessage API) (0)	2021.05.01
파이썬 - 빗썸 API 이용한 코인 정보 가져오기 (0)	2021.04.30
파이썬 WinAPI - FindWindow API (카카오톡) (0)	2021.04.30
파이썬 크롤링 - 디시인사이드(dcinside.com) (0)	2021.04.28
파이썬 크롤링 - 와이고수(ygosu.com) (0)	2021.04.27

PREV 이전 1 NEXT 다음

프로그래밍 블로그

urllib

파이썬 크롤링 - 디시인사이드(dcinside.com) 이미지 저장

'Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바