Greasy Fork is available in English.

Wenku Doc Downloader

下载“百度文库”文档,导出txt或pdf。“豆丁网”文档打印为纯图片页构成的pdf。

您查看的为 2021-11-30 提交的版本。查看 最新版本

脚本作者
Allen Lv
得分
0 0 0
版本
0.6
创建日期
2021-11-22
最近更新
2021-11-30
许可证
GPL-3.0-only
应用到

Wenku Doc Downloader 使用说明(经常更新,如高频使用请关注)

1 注意!

  1. 图片型的文档需要下载额外的程序来合并图片为pdf文件【图片下载合并器】(exe程序,约18M)。作者保证其安全性,如果无法信任可以不用。
  2. 导出PDF(实验性)的功能需要下载【HTML转PDF】(exe程序,本体10M,转换器40M)。
  3. 【图片下载合并器】和【HTML转PDF】链接: https://pan.baidu.com/s/1PTM6watxNlqs-jvvX6XKzg 提取码: abe9 该链接最后更新于:2021/11/30。
  4. 【图片下载合并器】的启动速度取决于文档长度,如果文档超过100页,大概要等待10-15秒以上,请保持耐心。
  5. 【HTML转PDF】的启动速度取决于文档长度,如果文档超过50页,大概需要1-2分钟,请保持耐心。

2 目前不支持的情况及相关说明

  1. 不能导出文档为docx
  2. 合并图片为pdf和html转pdf的功能都依赖下载到本地的脚本程序,不下载这些程序的话是做不到的。
  3. 【HTML转PDF】转换出的pdf文件中的图片无法直接复制,但可以在pdf阅读器中(比如Acrobat),先选中图片,然后右键另存出去,然后单独保存的图片可以正常复制。
  4. 【HTML转PDF】转换表格等文档时文字可能和图形有少许错位。少部分文档会出现图形完全丢失的情况。
  5. 不能下载学术文献。

3 功能

  1. 下载百度文库的文档,导出为

    1. 纯文本文档(.txt)
    2. 纯图片合并而成的pdf(.pdf)
    3. 文字、图形可选中的pdf(.pdf)
  2. 对豆丁网文档的简单支持:打印页面,以图片的形式保存为pdf文件(即使原文档是文字的而非扫描的图片)。

4 使用方法:

  1. 打开你需要的百度文库页面,滑动到页面底部,能看到蓝色的长方形按钮。
  2. (如果需要)点击蓝色按钮(等同于点击“继续阅读”),将文档全部展开,直到按钮变成绿色。
  3. 点击绿色按钮,等待数秒,弹出下载弹窗。
  4. 如果下载的是【纯文本文档.txt】,直接保存到任意位置即可,这就是目标文档。
  5. 如果下载的是【urls.csv】,保存到【图片下载合并器】所在的文件夹内,然后按照其使用方法操作(下载的压缩包里有说明)。
  6. 导出pdf(实验性)功能说明:
    1. 在文档的页面上按下Ctrl+S保存网页,保存时选择【网页,全部】或者【网页,完成】
    2. 得到两个文件:①【<文档名称.html>】文件;②【<文档名称_files>】文件夹
    3. 下载好【HTML转PDF】并解压。复制上述两个文件到【HTML转PDF】文件夹下。
    4. 参照【用前须知】,双击运行【HTML转PDF.bat】,得到【文档.pdf】,这就是你要的文档。
    5. 下载好的2个页面文件请尽快转换为pdf,因为图形资源并不包含在文件夹中,约5-10分钟后再进行转换操作图形可能会全部丢失。

5 图片型文档(用到【图片下载合并器】)的额外说明

  1. 一个特殊的报错解决方案
    • 如果报错信息如图,那么说明文档页面没有完全加载
    • 解决办法就是在页面上下滚动浏览,保证图片都加载出来了,然后再次点击页面底部的绿色按钮即可。
    • 空url导致get失败.png

6 未来要加入的功能 & 不会实现的功能

  1. 将本地程序(python)的功能全部由网页端脚本(javascript)实现。优先度

7 备注:

  1. 本脚本完全免费,禁止被用于任何商业目的。
  2. 本脚本所获取的资源完全合法,与浏览器能直接获得的资源一致。
  3. 其他问题请联系 allenlv2690@gmail.com
  4. Wenku Doc Downloader 发布于 greasyfork.org
  5. 不定时更新。