본문 바로가기
공부/파이썬 Python

피플앤잡 직업정보 크롤링하기! (python, csv, requests)

by 혼밥맨 2021. 2. 15.
반응형

피플앤잡 직업정보 크롤링하기! (csv, requests)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import csv
import requests
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm
 
 
BASE_URL = 'https://www.peoplenjob.com/jobs/'
URL_LIST = ['%s%d' % (BASE_URL, i) for i in range(100141815251)]
 
def crawl_pplnjob_desc(url):
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html, 'lxml')
    title = soup.select('div#content-main h3')
    description = soup.select('div.divDetailWrap')
    return (title[0].text, description[0].text)
 
 
def main():
    start_i = 0
    end_i = None
 
    for i, url in enumerate(tqdm(URL_LIST)):
        if i < start_i:
            continue
 
        if end_i and i > end_i:
            break
 
        try:
            with open('PPLNJOB_descriptions.csv''a'as csvfile:
                jd_writer  = csv.writer(csvfile, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL)
 
                title, description = crawl_pplnjob_desc(url)
                jd_writer.writerow([title, description])
        except:
            pass
 
main()
cs

피플앤잡은 외국계기업 채용정보, 헤드헌팅, 신입, 경력직, 인턴 구인공고를 제공하는 구인구직 웹사이트입니다. 피플앤잡에 등록된 모든 구인공고를 가져오려고 합니다. 

결과 csv

위와 같이 깔끔하게 추출된 모습을 확인할 수 있습니다. 짧은 코드로 구인구직 웹사이트에 등록된 공고를 모두 크롤링할 수 있었습니다.

반응형

댓글