Python爬虫IP代理池实现：使用Python构建爬虫代理池的代码示例

为啥你的爬虫老被ban？试试Python爬虫IP代理池实现吧

搞爬虫的兄弟肯定都遇到过IP被限制的情况，辛辛苦苦写的脚本，跑不了几次就被目标网站给封了，真的让人头大。这时候你就需要搞一个代理IP池来轮换使用，让目标网站觉得是不同用户在访问，而不是同一个机器在疯狂抓数据。

今天咱们就聊聊怎么用Python来构建一个简单实用的爬虫代理池，代码不会太复杂，小白也能跟着操作。咱们重点会用到一些常见的库，比如requests啊、random啊这些，核心思路就是搞一批代理IP，然后每次请求的时候随机抽一个来用，避免频繁用一个IP导致被封。

代理IP从哪儿来？免费和付费的差别大了去了

你得有代理IP资源。网上有些免费的代理IP网站，但说实话，免费的质量普遍不行，很多都是失效的或者速度慢得要命。如果你只是测试玩玩，可以用免费的顶一下，但真要干正经活，还是建议用付费的代理IP服务，比如我们神龙海外动态IP代理，提供各种类型的海外IP，像动态住宅IP、国外动态IP这些，质量稳定得多。

免费代理的获取其实也挺简单，你可以写个小爬虫去一些免费代理网站上扒，比如爬、之类的。不过这些IP大多不稳定，需要经常更新，而且速度可能不太行。下面给个示例代码，你可以自己试试：

import requests
from bs4 import BeautifulSoup
def fetch_free_proxies():
    url = '某个免费代理网站'
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    proxies = []
    for row in soup.find_all('tr'):
        cols = row.find_all('td')
        if len(cols) > 1:
            ip = cols[0].text
            port = cols[1].text
            proxies.append(f'{ip}:{port}')
    return proxies

不过说实话，免费IP的可用性真的不高，你可能得验证一大堆才能找出几个能用的。所以对于正式项目，还是推荐用付费服务，省心。

动手搭建一个简单的Python代理IP池

接下来，咱们看看怎么用Python实现一个基础的代理池。这个池子的主要功能就是存一批IP，然后每次用的时候随机选一个，如果某个IP失效了，就自动把它踢出去。

你得有一个IP列表，可以从免费网站爬，也可以直接从神龙海外动态IP代理这种服务商那拿到API接口，直接获取最新IP。假设你已经有一批IP了，我们可以写一个管理类：

class ProxyPool:
    def __init__(self):
        self.proxies = [] 这里存IP列表
    def add_proxy(self, proxy):
        self.proxies.append(proxy)
    def get_random_proxy(self):
        return random.choice(self.proxies) if self.proxies else None
    def remove_proxy(self, proxy):
        if proxy in self.proxies:
            self.proxies.remove(proxy)

有了这个基础池子，你就可以在爬虫请求的时候，随机选一个IP来用了。比如用requests发请求的时候，加上proxies参数：

proxy = proxy_pool.get_random_proxy()
if proxy:
    proxies = {'http': f'http://{proxy}', 'https': f'https://{proxy}'}
    response = requests.get(url, proxies=proxies, timeout=10)
else:
    response = requests.get(url)

这样，每次请求都会换一个IP，降低被ban的风险。

别忘了验证IP的有效性，不然白忙活

光有IP列表还不够，你得定期检查这些IP是不是还能用。有些代理可能过一会就失效了，所以最好写个验证函数，定时跑一下，把不能用的IP剔除掉。

验证的方法很简单，就是拿这个IP去访问一个已知稳定的网站，比如百度或者谷歌，看返回状态码是不是200：

def check_proxy(proxy):
    try:
        proxies = {'http': f'http://{proxy}', 'https': f'https://{proxy}'}
        response = requests.get('http://www.baidu.com', proxies=proxies, timeout=5)
        return response.status_code == 200
    except:
        return False

你可以在后台开个线程，每隔几分钟就把池子里的IP全部验证一遍，无效的就直接remove掉。这样可以保证池子里的IP大部分都是可用的。