yuketang

雨课堂测试题爬虫

本来以为随便几个正则就弄出来了，结果F12到处搜不到题目，题干，答案都搜不到。拿Charles抓包发现这鬼东西全是图片（腾讯真有钱），还好图片里的文字都非常规则，python的的图像识别库可以识别大部分文字。于是用tesseract作了处理，代码很简单，因为题量不大，所有没有使用多线程爬取，而且还是有一部分图片无法识别。最后希望大家顺利通过考试。

chi_sim雨课堂.traineddata 文件为OCR库中tessdata里的中文识别包，我使用的是这个文件来识别图片，大家可以在网上下载更好的包来替换这个文件，注意：更换的话需要在read_img中更换掉 chi_sim雨课堂.traineddata 的名字默认中文翻译包为 chi_sim.traineddata

out_txt 与 out_word 中需要修改的代码如下，具体修改为雨课堂中相应的参数

problem_id 与 problem_id2 为一个测试题的第一题与最后一题如果差值大于题数，那就要自己写try循环了，中间有些题号被作废了

修改此处'cookie': '',

classroom_id = 3545590
# 试题id
quiz_id = 878580
# 第一道题id
problem_id = 19068856
# 最后一道题id
problem_id2 = 19068859

document.save('测试7.docx')

read_img.py 文件为识图接口 out_txt.py 将会print出来不会自动保存复制即刻无法识别的图片会输出网址结果展示如文件测试5.txt out_word.py 直接将网址图片打印出来，输出word文档结果展示如文件测试5.docx

PS：此程序只能爬取已经可以查看答案的测试题，不能爬取正在考试的题或者老师设置不能查看答案的测试题。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

yuketang

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README.md		README.md
chi_sim雨课堂.traineddata		chi_sim雨课堂.traineddata
out_txt.py		out_txt.py
out_word.py		out_word.py
read_img.py		read_img.py
show1.png		show1.png
测试5.docx		测试5.docx
测试5.txt		测试5.txt

sayasora/yuketang

Folders and files

Latest commit

History

Repository files navigation

yuketang

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages