Python搭建代理IP池实现获取IP的方法

脚本专栏 2025/2/9 佚名

3 2 1

帝王谷资源网 Design By www.wdxyy.com

使用爬虫时，大部分网站都有一定的反爬措施，有些网站会限制每个 IP 的访问速度或访问次数，超出了它的限制你的 IP 就会被封掉。对于访问速度的处理比较简单，只要间隔一段时间爬取一次就行了，避免频繁访问；而对于访问次数，就需要使用代理 IP 来帮忙了，使用多个代理 IP 轮换着去访问目标网址可以有效地解决问题。

目前网上有很多的代理服务网站提供代理服务，也提供一些免费的代理，但可用性较差，如果需求较高可以购买付费代理，可用性较好。

因此我们可以自己构建代理池，从各种代理服务网站中获取代理 IP，并检测其可用性（使用一个稳定的网址来检测，最好是自己将要爬取的网站），再保存到数据库中，需要使用的时候再调用。

代码地址：https://github.com/Stevengz/Proxy_pool

另外三篇：
Python搭建代理IP池（二）- 存储 IP
Python搭建代理IP池（三）- 检测 IP
Python搭建代理IP池（四）- 接口设置与整体调度

本文介绍的则是构建代理 IP 池的第一步：获取 IP

使用的库：requests、pyquery

几个能提供免费代理的代理服务网站（排名不分先后）：

厂商名称地址 66代理 http://www.66ip.cn/ 西刺代理 https://www.xicidaili.com 全网代理 http://www.goubanjia.com 云代理 http://www.ip3366.net IP海 http://www.iphai.com 快代理 https://www.kuaidaili.com 免费代理IP库 http://ip.jiangxianli.com

代理服务网站 Crawler

代理获取的相关代码，把从每个网站提取 IP 的方法都放到一起，然后运行时只要调用相关方法即可

为了实现灵活，将获取代理的一个个方法统一定义一个规范，如统一定义以 crawl 开头，这样扩展的时候只需要添加 crawl 开头的方法即可

在这里实现了几个示例，如抓取代理 66、西刺代理、云代理、快代理四个免费代理网站，这些方法都定义成生成器，通过 yield 返回。首先将网页获取，然后用 PyQuery 解析，解析出 IP 加端口形式的代理再返回

crawler.py

import json
import re
from utils import get_page
from pyquery import PyQuery as pq

# 元类
class ProxyMetaclass(type):
 def __new__(cls, name, bases, attrs):
  count = 0
  attrs['__CrawlFunc__'] = []
  for k, v in attrs.items():
   if 'crawl_' in k:
    attrs['__CrawlFunc__'].append(k)
    count += 1
  attrs['__CrawlFuncCount__'] = count
  return type.__new__(cls, name, bases, attrs)

class Crawler(object, metaclass=ProxyMetaclass):
 def get_proxies(self, callback):
  proxies = []
  for proxy in eval("self.{}()".format(callback)):
   print('成功获取到代理', proxy)
   proxies.append(proxy)
  return proxies

 def crawl_daili66(self, page_count=4):
  start_url = 'http://www.66ip.cn/{}.html'
  urls = [start_url.format(page) for page in range(1, page_count + 1)]
  for url in urls:
   print('Crawling', url)
   html = get_page(url)
   if html:
    doc = pq(html)
    trs = doc('.containerbox table tr:gt(0)').items()
    for tr in trs:
     ip = tr.find('td:nth-child(1)').text()
     port = tr.find('td:nth-child(2)').text()
     yield ':'.join([ip, port])

 def crawl_xicidaili(self):
  for i in range(1, 3):
   start_url = 'http://www.xicidaili.com/nn/{}'.format(i)
   headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Host':'www.xicidaili.com',
    'Referer':'http://www.xicidaili.com/nn/3',
    'Upgrade-Insecure-Requests':'1',
   }
   html = get_page(start_url, options=headers)
   if html:
    find_trs = re.compile('<tr class.*?>(.*"IP">(.*"PORT">(.*"htmlcode">

import requests
from requests.exceptions import ConnectionError

base_headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
 'Accept-Encoding': 'gzip, deflate, sdch',
 'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}

def get_page(url, options={}):

 headers = dict(base_headers, **options)
 print('正在抓取', url)
 try:
  response = requests.get(url, headers=headers)
  print('抓取成功', url, response.status_code)
  if response.status_code == 200:
   return response.text
 except ConnectionError:
  print('抓取失败', url)
  return None


抓取网页内容的方法，访问链接成功后返回整个网页 HTML 内容，便于后续对网页具体内容的提取。封装成一个方法，让上面的 crawler 在抓取各个网站时调用
进行抓取


getter.py


from crawler import Crawler
from setting import *
import sys

class Getter():
 def __init__(self):
  self.crawler = Crawler()
 
 def run(self):
  print('获取器开始执行')
  for callback_label in range(self.crawler.__CrawlFuncCount__):
   callback = self.crawler.__CrawlFunc__[callback_label]
   # 获取代理
   all_ip = self.crawler.get_proxies(callback)

if __name__ == '__main__':
 get = Getter()
 get.run()


运行结果：

网站上的免费 IP 就被成功抓取下来了，至于能不能用，就有待验证了
整个过程其实就是一个普通的爬虫，而且没什么反爬措施，能到用代理 IP 的地步，代码里面的访问、抓取部分的细节应该都看得懂


以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,获取IP,Python,代理IP池,Python代理IP

标签：

Python,获取IP,Python,代理IP池,Python代理IP

帝王谷资源网 Design By www.wdxyy.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

帝王谷资源网 Design By www.wdxyy.com

评论“Python搭建代理IP池实现获取IP的方法”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2025年02月09日

Python搭建代理IP池实现获取IP的方法

Python,获取IP,Python,代理IP池,Python代理IP

Python搭建代理IP池实现存储IP的方法

详解python statistics模块及函数用法

评论“Python搭建代理IP池实现获取IP的方法”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接