반응형
피플앤잡 직업정보 크롤링하기! (csv, requests)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
|
import csv
import requests
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm
BASE_URL = 'https://www.peoplenjob.com/jobs/'
URL_LIST = ['%s%d' % (BASE_URL, i) for i in range(1001, 4181525, 1)]
def crawl_pplnjob_desc(url):
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
title = soup.select('div#content-main h3')
description = soup.select('div.divDetailWrap')
return (title[0].text, description[0].text)
def main():
start_i = 0
end_i = None
for i, url in enumerate(tqdm(URL_LIST)):
if i < start_i:
continue
if end_i and i > end_i:
break
try:
with open('PPLNJOB_descriptions.csv', 'a') as csvfile:
jd_writer = csv.writer(csvfile, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL)
title, description = crawl_pplnjob_desc(url)
jd_writer.writerow([title, description])
except:
pass
main()
|
cs |
피플앤잡은 외국계기업 채용정보, 헤드헌팅, 신입, 경력직, 인턴 구인공고를 제공하는 구인구직 웹사이트입니다. 피플앤잡에 등록된 모든 구인공고를 가져오려고 합니다.
위와 같이 깔끔하게 추출된 모습을 확인할 수 있습니다. 짧은 코드로 구인구직 웹사이트에 등록된 공고를 모두 크롤링할 수 있었습니다.
반응형
'공부 > 파이썬 Python' 카테고리의 다른 글
원티드 구인공고 전부 크롤링하기! (python, BeautifulSoup) (10) | 2021.02.15 |
---|---|
더팀스 모든 구인공고 크롤링하기! (python, openpyxl, csv, scraping) (0) | 2021.02.15 |
인디드 모든 구인공고 크롤링하기! (feat. Python, Selenium, BeautifulSoup) (0) | 2021.02.15 |
Open Skills API 이용해서 세상 모든 직무능력 불러오기(feat. requests, json) (0) | 2021.01.15 |
Open Skills API 이용해서 세상 모든 직업 불러오기(feat. requests, json) (0) | 2021.01.15 |
댓글