Python网站爬虫程序怎么写？从入门到精通的代码示例|IP代理网

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|全国240+城市代理IP（>>>点击注册免费测试<<<）

Python爬虫为什么需要代理IP？

当你用Python写了个爬虫程序，兴致勃勃地开始采集数据时，可能会遇到一个常见问题：IP被封。这就像你不停地敲别人家的门，主人很快就烦了，直接把你拉黑。网站服务器也是同样的道理，它会记录每个IP地址的访问频率，一旦发现某个IP在短时间内请求过于频繁，就会暂时或永久地限制该IP的访问。

Python网站爬虫程序怎么写？从入门到精通的代码示例

代理ip的核心作用就是帮你更换“敲门”的身份。你的请求不再直接发往目标网站，而是先发给代理服务器，再由代理服务器转发请求。对目标网站来说，它看到的是代理服务器的IP，而不是你的真实IP。这样，即使一个IP被限制，你只需更换另一个代理IP，爬虫工作就能继续。

对于需要长时间、大规模采集数据的项目，使用代理IP几乎是必备策略。它能有效分散请求压力，降低被反爬机制识别的风险，让数据采集过程更稳定、高效。

获取代理IP：以ipipgo为例

代理IP的来源有很多，比如免费代理网站、付费代理服务商等。免费代理虽然成本低，但往往不稳定、速度慢、可用率低，可能花费大量时间在验证IP有效性上，对于严肃的项目并不划算。

专业的代理ip服务商，如ipipgo，能提供高质量的服务。ipipgo整合了全球240多个国家和地区的住宅IP资源，拥有9000万+真实家庭住宅IP。这意味着它提供的ip地址更加真实可信，不易被网站识别为爬虫。它全协议支持，无论是HTTP还是HTTPS请求都能胜任，并且动态和静态ip可以按需选择，灵活性很高。

使用这类服务的典型流程是：通过API接口从服务商那里获取一批最新的代理ip地址，然后在你的爬虫程序中设置使用。

入门：第一个使用代理IP的Python爬虫

我们先来看一个最简单的例子，使用requests库发送一个带代理的HTTP请求。

步骤1：安装必要的库

在命令行中执行以下命令安装requests库：

pip install requests

步骤2：编写代码

import requests

 从ipipgo等服务商获取的代理IP和端口
proxies = {
    "http": "http://12.34.56.78:8080",   替换为你的HTTP代理IP和端口
    "https": "http://12.34.56.78:8080",  替换为你的HTTPS代理IP和端口
}

 目标网址
url = "http://httpbin.org/ip"

try:
    response = requests.get(url, proxies=proxies, timeout=10)
     打印响应内容，这里会显示当前使用的代理IP
    print("请求成功！")
    print("当前使用的IP是：", response.json().get('origin'))
    print("状态码：", response.status_code)
except requests.exceptions.RequestException as e:
    print("请求失败，错误信息：", e)

这段代码的核心在于proxies这个字典参数。当你将它传递给requests.get()方法时，请求就会通过指定的代理服务器发出。你可以访问 httpbin.org/ip 这个测试网站，它会返回你当前请求的IP地址，非常适合验证代理是否设置成功。

精通：构建健壮的代理ip池管理器

单一代理IP在大量请求面前依然会很快失效。在实际项目中，我们需要管理一个代理IP池，实现IP的自动轮换、失效剔除和及时补充。

下面我们构建一个简易但功能完整的代理IP池管理器。

1. 代理IP池管理器类

import requests
import random
import time
from threading import Lock

class ProxyPool:
    def __init__(self, api_url=None):
        """
        初始化代理池
        :param api_url: 从ipipgo等服务商获取IP列表的API地址（可选）
        """
        self.proxies = []   存储可用的代理IP列表
        self.lock = Lock()   线程锁，防止多线程同时修改列表
        self.api_url = api_url

    def fetch_proxies_from_api(self):
        """从ipipgo API获取一批新鲜代理IP"""
        if not self.api_url:
             这里模拟从API获取数据，实际使用时替换为真实的API调用
            print("正在从API获取代理IP...")
             示例：假设API返回一个IP列表
             response = requests.get(self.api_url)
             new_proxies = response.json()['data']
            new_proxies = [
                {'ip': '101.200.100.1', 'port': 8080},
                {'ip': '102.200.100.2', 'port': 8080},
                 ... 更多IP
            ]
            with self.lock:
                 清空旧IP，加入新IP
                self.proxies.clear()
                for p in new_proxies:
                     格式化为requests库需要的格式
                    proxy_str = f"http://{p['ip']}:{p['port']}"
                    self.proxies.append({'http': proxy_str, 'https': proxy_str})
            print(f"成功更新代理池，当前共有 {len(self.proxies)} 个代理IP")

    def get_random_proxy(self):
        """随机获取一个代理"""
        with self.lock:
            if not self.proxies:
                self.fetch_proxies_from_api()   如果池子为空，则先去获取
            if self.proxies:
                return random.choice(self.proxies)
            else:
                return None   如果没有可用代理，返回None

    def remove_proxy(self, bad_proxy):
        """从池中移除一个失效的代理"""
        with self.lock:
            if bad_proxy in self.proxies:
                self.proxies.remove(bad_proxy)
                print("移除失效代理，剩余IP数：", len(self.proxies))

    def validate_proxy(self, proxy, test_url="http://httpbin.org/ip", timeout=5):
        """验证单个代理是否有效"""
        try:
            response = requests.get(test_url, proxies=proxy, timeout=timeout)
            if response.status_code == 200:
                print(f"代理 {proxy} 验证有效")
                return True
        except Exception:
            pass
        print(f"代理 {proxy} 验证无效")
        return False

    def validate_pool(self):
        """验证池中所有代理的有效性，清理无效代理"""
        print("开始验证代理池...")
        valid_proxies = []
        for proxy in self.proxies[:]:   使用副本进行迭代
            if self.validate_proxy(proxy):
                valid_proxies.append(proxy)
        with self.lock:
            self.proxies = valid_proxies
        print(f"代理池验证完毕，有效IP数量：{len(self.proxies)}")

2. 在爬虫中使用代理池

def robust_crawler_with_proxy_pool(target_urls, proxy_pool, max_retries=3):
    """
    一个使用代理池的健壮爬虫函数
    :param target_urls: 要爬取的目标URL列表
    :param proxy_pool: 上面定义的ProxyPool实例
    :param max_retries: 单个URL最大重试次数
    """
    session = requests.Session()
     设置一个通用的请求头，降低被识别为爬虫的概率
    session.headers.update({
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    })

    for url in target_urls:
        retries = 0
        success = False

        while retries < max_retries and not success:
            proxy = proxy_pool.get_random_proxy()
            if not proxy:
                print("代理池已耗尽，无法继续爬取。")
                break

            try:
                print(f"尝试爬取 {url}, 使用代理 {proxy}")
                response = session.get(url, proxies=proxy, timeout=15)
                 检查请求是否被目标网站拒绝（如返回403状态码）
                if response.status_code == 403:
                    print("IP可能被目标网站封禁，移除该代理并重试...")
                    proxy_pool.remove_proxy(proxy)
                    retries += 1
                    continue
                elif response.status_code == 200:
                     请求成功，处理数据...
                    print("爬取成功！")
                     这里可以添加解析响应内容的代码
                     parse_data(response.text)
                    success = True
                else:
                    print(f"遇到非预期状态码：{response.status_code}")
                    retries += 1

            except requests.exceptions.Timeout:
                print("请求超时，代理可能较慢，尝试更换代理...")
                proxy_pool.remove_proxy(proxy)
                retries += 1
            except requests.exceptions.RequestException as e:
                print(f"网络请求错误：{e}，移除失效代理并重试...")
                proxy_pool.remove_proxy(proxy)
                retries += 1

        if not success:
            print(f"警告：URL {url} 经过 {max_retries} 次尝试后仍然失败。")

         礼貌性延迟，避免请求过于频繁
        time.sleep(random.uniform(1, 3))

 使用示例
if __name__ == "__main__":
     初始化代理池，传入ipipgo的API地址（实际使用时需替换）
    my_proxy_pool = ProxyPool(api_url="你的ipipgo_API地址")
     可以先验证一下池中IP的有效性
    my_proxy_pool.validate_pool()

     准备要爬取的URL列表
    urls_to_crawl = [
        "https://example.com/page1",
        "https://example.com/page2",
         ... 更多URL
    ]

     开始爬取
    robust_crawler_with_proxy_pool(urls_to_crawl, my_proxy_pool)

这个进阶方案实现了代理IP的自动化管理。爬虫会在IP失效时自动切换，并定期验证整个IP池的健康状况，大大提升了爬虫的稳定性和效率。

实战技巧与注意事项

1. 设置合理的请求间隔

即使用了代理IP，过于密集的请求仍然会触发网站的反爬机制。在请求之间插入随机延迟是一个好习惯：

import time
import random

 在每次请求后暂停一段时间
time.sleep(random.uniform(1, 5))   随机延迟1到5秒

2. 模拟真实浏览器行为

除了更换IP，修改请求头（User-Agent）也能降低被识别为爬虫的概率。你可以准备一个User-Agent列表轮流使用：

user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15",
     ... 更多浏览器标识
]
headers = {'User-Agent': random.choice(user_agents)}
response = requests.get(url, proxies=proxy, headers=headers)

3. 处理SSL证书验证

有些代理服务器在处理HTTPS请求时可能会有证书问题。如果遇到SSLError，可以尝试关闭证书验证（但会降低安全性）：

response = requests.get(url, proxies=proxy, verify=False)

4. 会话（Session）保持

使用requests.Session()可以保持连续的会话，自动处理cookies，在某些需要登录的网站中非常有用。

常见问题QA

Q1：为什么我设置了代理，但爬虫还是用自己的IP访问？

A：检查代理IP的格式是否正确，必须是完整的http://IP地址:端口格式。确认代理服务器本身是否可用且网络通畅。最直接的验证方法是访问 httpbin.org/ip，看返回的IP是否已变成代理IP。

Q2：如何判断一个代理IP是否已经失效？

A：可以通过尝试访问一个稳定的测试页面（如httpbin.org/ip）来验证。如果请求超时、连接被拒绝或返回的状态码不是200，通常意味着代理已失效。上文中的validate_proxy方法就是做这个的。

Q3：面对特别严格的反爬机制，只用代理IP够吗？

A：对于防御严密的网站，代理IP是基础，但往往还需要组合其他策略。例如，模拟真实用户的鼠标移动和点击行为（可使用Selenium等工具），处理javaScript渲染，以及识别和破解验证码等。代理IP解决了IP层面的限制，而其他策略则解决了行为识别层面的问题。

Q4：为什么选择ipipgo这类专业服务商而不是免费代理？

A：免费代理最大的问题是不稳定和不可靠。你可能花费大量时间在筛选和验证IP上，而且连接速度和成功率都无法保证，严重影响爬虫效率。ipipgo这类专业服务商提供高可用、高匿名的IP资源，特别是其住宅IP，更接近真实用户行为，能显著提高爬虫成功率，节省开发和维护时间，从长远看总体成本反而更低。

总结

掌握代理IP的使用是Python爬虫进阶的关键一步。从最简单的单一代理设置，到构建自动化的代理IP池，这个过程体现了爬虫程序从“能用”到“健壮、高效”的演变。记住，成功的爬虫不仅仅是能获取数据，更要能在长时间内稳定、可靠地运行，同时尊重目标网站的服务器压力。

在实际项目中，结合像ipipgo这样提供高质量、高匿名代理IP的服务，能让你事半功倍。它庞大的住宅IP池和全协议支持，为应对各种复杂的爬虫场景提供了坚实的基础。希望本文的示例和思路能帮助你写出更强大的爬虫程序。

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
国内ip代理推荐：
天启|全国240+城市代理IP（>>>点击注册免费测试<<<）

Python网站爬虫程序怎么写？从入门到精通的代码示例

Python爬虫为什么需要代理IP？

获取代理IP：以ipipgo为例

入门：第一个使用代理IP的Python爬虫

精通：构建健壮的代理ip池管理器

实战技巧与注意事项

常见问题QA

总结

英国代理IP购买攻略：本土ISP线路与数据中心怎么选？

美国住宅IP代理和美国机房IP代理该选哪个？看场景决定

杭州IP地址怎么查？2026年最新归属地查询方法来了

国内代理IP城市切换教程：如何精准定位到指定城市？

非洲代理IP冷门但有用！埃及/尼日利亚/南非IP获取指南

中东代理IP哪里找？阿联酋/沙特本土IP资源推荐

发表评论

IP代理推荐(免费试用)

ip代理知识大全

ip代理最新资讯

l2tp-server电脑拨号设置：远程办公完整流程

网络无ip分配解决指南：3步排查连接故障

短效代理ip服务推荐：高匿爬虫专用资源池

代理访问地址生成器：动态加密API链接技术

l2tp家庭ip设置教程：智能设备远程访问方案

软路由ip价格指南：家庭/企业方案成本对比

Python爬虫为什么需要代理IP？

获取代理IP：以ipipgo为例

入门：第一个使用代理IP的Python爬虫

精通：构建健壮的代理ip池管理器

实战技巧与注意事项

常见问题QA

总结

猜你喜欢

英国代理IP购买攻略：本土ISP线路与数据中心怎么选？

美国住宅IP代理和美国机房IP代理该选哪个？看场景决定

杭州IP地址怎么查？2026年最新归属地查询方法来了

国内代理IP城市切换教程：如何精准定位到指定城市？

非洲代理IP冷门但有用！埃及/尼日利亚/南非IP获取指南

中东代理IP哪里找？阿联酋/沙特本土IP资源推荐

发表评论

IP代理推荐(免费试用)

ip代理知识大全

ip代理最新资讯

l2tp-server电脑拨号设置：远程办公完整流程

网络无ip分配解决指南：3步排查连接故障

短效代理ip服务推荐：高匿爬虫专用资源池

代理访问地址生成器：动态加密API链接技术

l2tp家庭ip设置教程：智能设备远程访问方案

软路由ip价格指南：家庭/企业方案成本对比