豆瓣回复机器人

date

Jul 19, 2021

slug

doubanbot

status

Published

summary

写了点在摸索GitHub上一个写好的机器人程序上踩到的坑

主要用到的博客或者其他资料有：

这个代码库（里面有一个参数过时了，所以白费了这么长的时间😭😭😭

polymorphism-0/douban-auto-reply

豆瓣自动回复机器人豆瓣没有直接公开API，所以需要利用豆瓣app使用的接口，并且在手机上抓包获得credentials 手机抓包的方法请根据自己的系统自行搜索抓登陆包（POST /service/auth2/token HTTP/1.1），找到client_secret 抓刷新小组首页时的包，找到headers和设备信息相比爬虫豆瓣网页版并回复的优势：没有验证码，并且利用的是豆瓣现成的API接口安装requirements：pip3 install -r requirements.txt 抓包，在config.py里填入需要设置的值启动IP代理池：python3 IPProxyPool/IPProxy.py （需要一直在后台运行）运行主程序：python3 autoreply.py 关爱豆瓣服务器，不要过于频繁地发送请求使用一个绑定了手机的老号作为回帖机器人的账号，新号被封禁的几率更大

https://github.com/polymorphism-0/douban-auto-reply

这个库也差不多，不过能看多个小组的：

gulico/DoubanBot

豆瓣自动回帖机器人（多组）安装 requirements： pip3 install -r requirements.txt 抓包，在 config.py 里填入需要设置的值启动IP代理池： python3 IPProxyPool/IPProxy.py （需要一直在后台运行）运行主程序： python3 autoreply.py 相比爬虫豆瓣网页版并回复的优势：没有验证码，并且利用的是豆瓣现成的API接口可以多组回复，不过抓包的时候每个组的sig和ts都需要更新，否则可能状态码可能会报400 因为使用的小组的特点，还增加了一点特定时间特定回复的设置，且有休息时间。不想要的可以注释掉。最近看了一下可以接图灵机器人之类的接口，回复应该可以更机智一点。主要是我面向的人群比较特殊，不知道自定义的语料库够不够用，以及公共的语料库会不会不适用。现在多组回复的情况下就是有点延迟，漏回复的情况比较多，不知道能不能改善。

https://github.com/gulico/DoubanBot

APP抓包过程，没什么难度，主要是找抓到的数据包有点费眼😇

Fiddler for mac+安卓模拟器抓包豆瓣APP

网上好多博客都是momo+fiddler的，而且抄来抄去，很少有真的能用的。这里记一次fiddler for mac的使用体验。点击右上角的设置图标选择connections选项卡勾选allow remote computer to connect 调整fiddler listens on port（随便设置，不超过65535，不与其他程序占用的端口冲突即可）查看电脑ip，终端输入 ifconfig | grep "inet" 我这里选择的是网易mumu安卓模拟器。打开模拟器，系统应用-设置-WLAN。鼠标长按 yiAXCBD就会出现下图中的选项。选择修改网络，代理选择手动，填入主机ip和刚才设置的端口号 ps.也许安装其他安卓模拟器也可以，但是我是过夜神模拟器，下载证书的时候提示需要sd卡，可能是存储空间不够了吧，我找了半天也没找到调整的地方，就放弃了。我们打开安卓模拟器的浏览器，在地址栏输入我们之前得到的fildder的ip地址（以下是我的）点击下载下面的链接FiddlerRoot certificate 点击下载完成的证书，证书名称随意，后面要设置pin或者手势之类的也都随意。 Fiddler左上角开启decode 在模拟器中安装豆瓣app（这一步应该在之前就做好了）打开豆瓣app就可以抓包了。 fiddler for Mac 豆瓣app 网络请求签名算法分析与解密豆瓣APP 登陆sign算法分析我只是想搞个豆瓣回帖机器人罢了，怎么这么麻烦啊🆘

https://gulico.github.io/2020/09/10/Fiddler-for-mac-%E5%AE%89%E5%8D%93%E6%A8%A1%E6%8B%9F%E5%99%A8%E6%8A%93%E5%8C%85%E8%B1%86%E7%93%A3APP/

安卓逆向-豆瓣app签名算法分析与解密（上）_亦泽同学的博客-CSDN博客

豆瓣上有很多精品的图片资源，但是豆瓣的网页端写的不咋地，在下发图片链接直接随着html一起下发了，造成了很大的资源浪费，对我们解析数据也带来了不必要的麻烦。好的解决方式是数据通过json下发，豆瓣的移动端app就是通过下发json数据实现的通信，看到下面的图，是我抓包后得到的json数据，是不是更加清晰和好解析呢。 ...

https://blog.csdn.net/qq_23594799/article/details/108445726

www.52pojie.cn

https://www.52pojie.cn/thread-1262453-1-1.html

简述一下我做的过程

在模拟器里下载一个全新的豆瓣（我的电脑因为开启了hyper-v导致用不了模拟器，还是用的同学电脑完成了抓包😅），按照上面的博文完成抓包，没什么难度，注意要最好完成下拉刷新、发言、点赞等几个功能，把这些API全都扒出来，省的到时候又得重新抓包。

然后就是分析，找到下拉刷新的那个请求

双击打开先，然后看看程序需要哪些参数

在douban-auto-reply 库里面的config.py 可以看到需要的参数

# 豆瓣小组的id
group_id = "" #接在请求连接上面的那串数字
"""
通过抓豆瓣app登录包获得的client_secret
参考：https://bbs.125.la/thread-14226779-1-1.html
"""
client_secret = "bf7dddc7c9cfe6f7"  # 这是不变的（如果官方没改动的话

"""
通过抓豆瓣app小组首页帖子列表获得的headers和小组信息
"""
authorization = ""  # 每次重新登录后都要更新
headers = {
    "Authorization": "Bearer " + authorization,
    "User-Agent": "", # 这里也需要填入信息补全
    "Host": "frodo.douban.com",
    "Connection": "Keep-Alive",
    "Accept-Encoding": "gzip",
    "Content-Type": "application/x-www-form-urlencoded",
}
device_info = "os_rom=&apikey=&channel=&udid="  # 抓包后填入相应的值
# get并不要去实时更新sig和ts，可以使用固定的链接


#重点在这里，下面的参数过时了！！！
#重点在这里，下面的参数过时了！！！
#重点在这里，下面的参数过时了！！！
group_topics_url = (
    "https://frodo.douban.com/api/v2/group/"
    + group_id
    + "/topics?count=50&sortby=new&"
    + device_info
    + "&_sig=&_ts="
)  # 第一次抓包后填入相应的值