自定义验证码识别：向 CaptchaAI 提交非标准挑战

遇到滑块、旋转、拼图这类没有标准 API 的验证码，做法只有一个：截图并附上文字说明，作为图片识别任务提交给 CaptchaAI 的 ocr.captchaai.com 接口。国内的极验（GeeTest）、网易易盾、腾讯防水墙大量使用这类交互，本文用一套 Python 函数逐一覆盖。

常见的非标准验证码类型

类型	特征	处理
滑块	拖到指定位置	截图求偏移
拼图	对齐凹槽	参照 GeeTest v3
音频	听音输入	音频转写
旋转图片	转正方向	截图求角度
按顺序点击	依次点击	九宫格顺序
自定义交互	站点 JS 小部件	截图 + 说明

通用方法：截图 + 说明提交

识别接口对所有视觉类验证码用同一套调用：

截图转成 base64；
用 textinstructions 附上说明；
轮询 res.php 取结果。

import requests
import base64
import time
import os

API_KEY = os.environ["CAPTCHAAI_API_KEY"]


def solve_custom_captcha(image_b64, instructions):
    """Solve any visual CAPTCHA using image + text instructions."""
    resp = requests.post("https://ocr.captchaai.com/in.php", data={
        "key": API_KEY,
        "method": "base64",
        "body": image_b64,
        "textinstructions": instructions,
        "json": 1,
    }, timeout=30)

    result = resp.json()
    if result.get("status") != 1:
        raise RuntimeError(result.get("request"))

    task_id = result["request"]

    time.sleep(10)
    for _ in range(30):
        resp = requests.get("https://ocr.captchaai.com/res.php", params={
            "key": API_KEY, "action": "get",
            "id": task_id, "json": 1,
        }, timeout=15)
        data = resp.json()
        if data.get("status") == 1:
            return data["request"]
        if data["request"] != "CAPCHA_NOT_READY":
            raise RuntimeError(data["request"])
        time.sleep(5)

    raise TimeoutError("Solve timeout")

下面几节都复用它。

滑块定位验证码

让接口只返回 X 方向像素偏移，再用 Selenium 的 ActionChains 拖动。

# slider_captcha.py
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains


def solve_slider_captcha(driver, captcha_selector):
    """Screenshot slider CAPTCHA and solve via CaptchaAI."""
    captcha = driver.find_element(By.CSS_SELECTOR, captcha_selector)
    image_b64 = captcha.screenshot_as_base64

    result = solve_custom_captcha(
        image_b64,
        "What pixel position should the slider be dragged to? "
        "Return only the X offset number."
    )

    try:
        offset = int(result)
    except ValueError:
        return False

    # Drag slider to position
    slider = driver.find_element(By.CSS_SELECTOR, ".slider-handle")
    ActionChains(driver).click_and_hold(slider).move_by_offset(offset, 0).release().perform()

    return True

极验 v3 等标准滑块，优先走专用的 GeeTest v3 方法。

图像旋转验证码

# rotation_captcha.py


def solve_rotation_captcha(driver, captcha_selector):
    """Solve rotation CAPTCHA."""
    captcha = driver.find_element(By.CSS_SELECTOR, captcha_selector)
    image_b64 = captcha.screenshot_as_base64

    result = solve_custom_captcha(
        image_b64,
        "How many degrees should this image be rotated clockwise "
        "to be in the correct upright orientation? Return only the number."
    )

    try:
        degrees = int(result)
    except ValueError:
        return False

    # Click rotation button the correct number of times
    rotate_btn = driver.find_element(By.CSS_SELECTOR, ".rotate-button")
    clicks = degrees // 90  # Each click rotates 90 degrees

    for _ in range(clicks):
        rotate_btn.click()
        time.sleep(0.3)

    return True

按顺序点击验证码

# order_captcha.py


def solve_order_captcha(driver, captcha_selector, item_selector):
    """Solve click-in-order CAPTCHA."""
    captcha = driver.find_element(By.CSS_SELECTOR, captcha_selector)
    image_b64 = captcha.screenshot_as_base64

    result = solve_custom_captcha(
        image_b64,
        "What is the correct order? Return as comma-separated "
        "numbers (1-indexed) representing positions left-to-right, top-to-bottom."
    )

    # Parse order
    try:
        order = [int(x.strip()) for x in result.split(",")]
    except ValueError:
        return False

    # Click items in order
    items = driver.find_elements(By.CSS_SELECTOR, item_selector)
    for idx in order:
        if 1 <= idx <= len(items):
            items[idx - 1].click()
            time.sleep(0.5)

    return True

音频验证码

部分验证码提供音频备选：下载转 base64 提交，注明是音频并要求转写。

# audio_captcha.py
import requests


def solve_audio_captcha(audio_url):
    """Download and solve an audio CAPTCHA."""
    # Download audio
    resp = requests.get(audio_url, timeout=30)
    audio_b64 = base64.b64encode(resp.content).decode("ascii")

    # Submit as image with instructions
    # CaptchaAI may support audio via the base64 method
    result = solve_custom_captcha(
        audio_b64,
        "This is an audio CAPTCHA. Transcribe the spoken characters."
    )
    return result

自定义验证码小部件

碰上无法归类的小部件，按三步处理：

截图并抓取可见的提示文字；
连同截图提交识别；
结果写回输入框。

# custom_widget.py
from selenium import webdriver
from selenium.webdriver.common.by import By


def handle_custom_widget(driver, widget_selector):
    """Handle an unknown custom CAPTCHA widget."""

    # Step 1: Screenshot the entire widget
    widget = driver.find_element(By.CSS_SELECTOR, widget_selector)
    image_b64 = widget.screenshot_as_base64

    # Step 2: Get any visible instructions
    try:
        instructions_el = widget.find_element(By.CSS_SELECTOR, ".instructions, .prompt, p")
        visible_instructions = instructions_el.text
    except Exception:
        visible_instructions = "Solve this CAPTCHA"

    # Step 3: Submit with descriptive instructions
    result = solve_custom_captcha(
        image_b64,
        f"CAPTCHA instructions: {visible_instructions}. "
        f"Return the answer text."
    )

    # Step 4: Try to submit result
    try:
        input_el = widget.find_element(By.CSS_SELECTOR, "input")
        input_el.clear()
        input_el.send_keys(result)
    except Exception:
        # No input — try clicking based on result
        driver.execute_script("""
            var input = document.querySelector('input[name*="captcha"]');
            if (input) input.value = arguments[0];
        """, result)

    return result

页面提示文字一并提交，比硬编码更准。

自动检测验证码类型

有多个站点时，先扫 HTML 判断类型并路由。

# detector.py
import re


def detect_captcha_type(page_html):
    """Detect which CAPTCHA type is on a page."""
    checks = {
        "recaptcha_v2": r'data-sitekey.*g-recaptcha',
        "recaptcha_v3": r'recaptcha/api\.js\?render=',
        "turnstile": r'cf-turnstile|challenges\.cloudflare\.com/turnstile',
        "geetest": r'gt\b.*challenge|geetest',
        "bls": r'method.*bls|bls-captcha',
        "image_text": r'captcha.*\.(png|jpg|gif|jpeg)',
        "slider": r'slider.*captcha|slide.*verify',
        "audio": r'audio.*captcha|captcha.*audio',
    }

    detected = []
    for captcha_type, pattern in checks.items():
        if re.search(pattern, page_html, re.IGNORECASE):
            detected.append(captcha_type)

    return detected if detected else ["unknown"]

标准类型（reCAPTCHA、Turnstile、GeeTest v3）走各自专用方法；unknown 时才用截图方案。

合规提示：只在自有或已授权的站点操作，遵守 robots 协议与《个人信息保护法》。

常见问题排查

问题	原因	处理
`ERROR_CAPTCHA_UNSOLVABLE`	图片不清或说明模糊	提高截图与说明质量
返回值格式错	返回描述而非数值	要求"仅返回数字"
小部件没截全	元素在视口外	截图前滚动到元素
交互失败	点击坐标不对	结果映射到真实元素

常见问题

滑块、旋转验证码识别成功率高吗？

取决于截图清晰度和说明精确度，站点差异很大；没有供应商能保证 100% 识别，请自行实测。

提交自定义验证码用哪个接口？

用 ocr.captchaai.com 的 in.php 提交、res.php 轮询，method 设为 base64，说明放进 textinstructions。

音频验证码能走图片接口吗？

可以先尝试：音频转 base64，用 base64 方法提交，说明里注明是音频。

自定义验证码怎么计费？

CaptchaAI 按并发线程计费，而非按次；套餐含当月不限次识别，如 BASIC（$15/月，5 线程），自定义类型不加价。

自定义验证码类型：向 CaptchaAI 提交不寻常的挑战

常见的非标准验证码类型

通用方法：截图 + 说明提交

滑块定位验证码

图像旋转验证码

按顺序点击验证码

音频验证码

自定义验证码小部件

自动检测验证码类型

常见问题排查

常见问题

滑块、旋转验证码识别成功率高吗？

提交自定义验证码用哪个接口？

音频验证码能走图片接口吗？

自定义验证码怎么计费？

相关指南

网格图像验证码：坐标映射和单元格选择

图像验证码 Base64 编码最佳实践

多字符图像验证码解决策略

在自有运费计算器上对 CAPTCHA 进行 QA 测试

使用 CaptchaAI calc 参数进行数学验证码求解

使用验证码处理进行法律研究网络抓取

常见的非标准验证码类型

通用方法：截图 + 说明提交

滑块定位验证码

图像旋转验证码

按顺序点击验证码

音频验证码

自定义验证码小部件

自动检测验证码类型

常见问题排查

常见问题

滑块、旋转验证码识别成功率高吗？

提交自定义验证码用哪个接口？

音频验证码能走图片接口吗？

自定义验证码怎么计费？

相关指南

相关文章

网格图像验证码：坐标映射和单元格选择

图像验证码 Base64 编码最佳实践

多字符图像验证码解决策略

在自有运费计算器上对 CAPTCHA 进行 QA 测试

使用 CaptchaAI calc 参数进行数学验证码求解

使用验证码处理进行法律研究网络抓取