python实现爬虫数据存到 MongoDB

数据库 2025/1/31 佚名

3 2 1

帝王谷资源网 Design By www.wdxyy.com

在以上两篇文章中已经介绍到了 Python 爬虫和 MongoDB ，那么下面我就将爬虫爬下来的数据存到 MongoDB 中去，首先来介绍一下我们将要爬取的网站, readfree 网站，这个网站非常的好，我们只需要每天签到就可以免费下载三本书，良心网站，下面我就将该网站上的每日推荐书籍爬下来。

利用上面几篇文章介绍的方法，我们很容易的就可以在网页的源代码中寻找到书籍的姓名和书籍作者的信息。

找到之后我们复制 XPath ，然后进行提取即可。源代码如下所示

# coding=utf-8

import re
import requests
from lxml import etree
import pymongo
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

def getpages(url, total):
  nowpage = int(re.search('(\d+)', url, re.S).group(1))
  urls = []

  for i in range(nowpage, total + 1):
    link = re.sub('(\d+)', '%s' % i, url, re.S)
    urls.append(link)

  return urls

def spider(url):
  html = requests.get(url)

  selector = etree.HTML(html.text)

  book_name = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/a/text()')
  book_author = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/div/a/text()')

  saveinfo(book_name, book_author)

def saveinfo(book_name, book_author):
  connection = pymongo.MongoClient()
  BookDB = connection.BookDB
  BookTable = BookDB.books

  length = len(book_name)

  for i in range(0, length):
    books = {}
    books['name'] = str(book_name[i]).replace('\n','')
    books['author'] = str(book_author[i]).replace('\n','')
    BookTable.insert_one(books)

if __name__ == '__main__':
  url = 'http://readfree.me/shuffle/"theimg" src="/UploadFiles/2021-04-09/201692295339582.png">
好了，就这样，如果发现代码哪里存在错误或者说有可以改善的地方，希望留言给我，感谢。

python实现网络爬虫,python实现爬虫,python实现简单爬虫

标签：

python实现网络爬虫,python实现爬虫,python实现简单爬虫

帝王谷资源网 Design By www.wdxyy.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

帝王谷资源网 Design By www.wdxyy.com

评论“python实现爬虫数据存到 MongoDB”

暂无评论...

www.wdxyy.com 帝王谷资源网

139,976互联网资源

144,792高清电影

21,817无损音乐

631,128技术资源

更新日志

2025年01月31日

python实现爬虫数据存到 MongoDB

python实现网络爬虫,python实现爬虫,python实现简单爬虫

mac下使用brew 安装mongodb的方法教程

MongoDB的安装及配置文件选项全解

评论“python实现爬虫数据存到 MongoDB”

更新日志

友情链接