中文起，Python 字体反爬实战案例，再一点

2022-05-28 11:42:35

⛳️ 起点实战场景

本次采集的案例是点起文中，你可以随机打开一本目标xiaoshuo，检查一下网络请求中是否存在字体文件响应数据。

Python脱敏处理.Python脱敏处理.Python脱敏处理/info/2952453/#Catalog

字体加密位置呈现的效果如下图所示。

编写网页爬取代码，查看其字体位置使用的编码。

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36",
    "Origin": 'https://Python脱敏处理.com',
    "referer": "https://Python脱敏处理.com"
}

response = requests.get(url='https://Python脱敏处理/info/2952453/',headers=headers)
response.encoding = 'utf-8'

print(response.text[:20000])

截取源码部分，查看编码内容。

同时下载本页面的字体文件，用工具打开之后，发现字体编码图形顺序没有什么变化，这对于后续我们解决反爬就变得非常简单了。

接下来读取和解构一下这个字体文件，在其中找到能用的数据。

from fontTools.ttLib import TTFont

import io

file_woff = './fonts/YOfzYtjr.woff'
with open(file_woff, 'rb') as font_file:
    font = TTFont(io.BytesIO(font_file.read()))  # 转换成字体对象
#字体映射关系
font_cmap = font['cmap'].getBestCmap()
print(font_cmap)

输出的信息为：

{100418: 'two', 100420: 'seven', 100421: 'five', 100422: 'nine', 100423: 'six', 100424: 'three', 100425: 'four', 100426: 'zero', 100427: 'one', 100428: 'period', 100429: 'eight'}

接下来在回头去看一下刚才字体反爬位置的特殊字符与字体编码。

网页特殊字符

&#100273;&#100271;&#100276;&#100274;&#100273;&#100269;

字体编码

{100269: 'nine', 100271: 'five', 100272: 'three', 100273: 'six', 100274: 'period', 100275: 'one', 100276: 'eight', 100277: 'two', 100278: 'four', 100279: 'seven', 100280: 'zero'}

中文起，Python 字体反爬实战案例，再一点

⛳️ 起点实战场景

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

详解STM32单片机的堆栈

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

中文起，Python 字体反爬实战案例，再一点

⛳️ 起点 实战场景

继续阅读

⛳️ 起点实战场景