正则表达式爬取猫眼电影-白红宇

正则表达式爬取猫眼电影

阅读量：6168 次

发布时间：2019-06-21

本文共 1177 字，大约阅读时间需要 3 分钟。

正则表达式爬取猫眼电影Top100

import requestsimport re,jsonfrom multiprocessing import Pooldef get_one_page(url):    response = requests.get(url)    return response.textdef parse_one_page(html):    pattern = re.compile('
     
      .*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">
      
       (.*?).*?star">(.*?)
       
.*?releasetime">(.*?)
       
'                          +'.*?integer">(.*?).*?fraction">(.*?).*?
      
     
',re.S)    items = re.findall(pattern,html)    for item in items:        yield {            'index':item[0],            'image':item[1],            'title':item[2],            'actor':item[3].strip()[3:],            'time':item[4].strip()[5:],            'score':item[5]+item[6]        }def write_to_file(content):    with open('maoyan.txt','a',encoding='utf-8') as f:        f.write(json.dumps(content,ensure_ascii=False) + '\n')        f.close()def main(offset):    url = 'http://maoyan.com/board/4?offset=' + str(offset)    html = get_one_page(url)    for item in parse_one_page(html):        write_to_file(item)if __name__ == '__main__':    # for i in range(10):    #     main(i*10)    #使用进程池    pool = Pool()    pool.map(main,[i*10 for i in range(10)])