【置顶】如何批量下载本站资源

9,707次阅读
48条评论

本站从从创立之初就将资源放到服务器以供下载,从不依赖国内网盘。主要词典在服务器均有存档,现在拿onedrive搭建了分享外刊的站点,自认为比国内网盘靠谱,且速度快,亲测。

ps 站长极度讨厌百度网盘,问我有没有百度网盘链接,我将不予理会。当然,你可能也发现了本站有一个百度群组的链接,那个已经很多年了,在这个站点出现之前就有了,当然要继续下去拉。但是里面的资源,我已经下载了下来,在本站的两个资源站点都做了备份。

随着文件的增多,批量下载成了一个问题,今天来分享下怎么样批量下载本站的资源。主要用到的是IDM, Internet Download Manager, 当然这么好的软件,是要收费的,不过网上很多开心版(破解版)。

IDM 官网

其实价格也不贵,国内可以去数码荔枝买正版的,129软妹币吧。觉得真好可以支持。

IDM 破解版地址,在此提供几个我觉得靠谱的破解,当然我不保证一定稳当。也不得不说我挺喜欢吾爱破解这个论坛的。

https://www.52pojie.cn/thread-720004-1-1.html

https://www.52pojie.cn/thread-798519-1-1.html

当然本站也有备用链接,你可以直接戳这个下载。

下载IDM

不管你是怎么下载的IDM,哪个版本的IDM,现在打开它。

【置顶】如何批量下载本站资源
这就是大致的界面 非常简洁

假设我们想要下载这个资源

【置顶】如何批量下载本站资源
想要下载的资源

那么我们首先复制这个的网址也就是地址栏的东西,也就是


https://ziyuan.freemdict.com/A:/%E8%AF%AD%E8%A8%80%E5%AD%A6%E4%B9%A0%E8%B5%84%E6%96%99/%E8%8B%B1%E8%AF%AD%E5%AD%A6%E4%B9%A0%E7%B2%A4%E8%AF%AD

这里说一下,为什么出现这么多奇怪的符号%:因为地址中有中文字符,在网址中传输这种字符的时候会转义成通用格式,也就是url编码,这样计算机才认识。它用特殊这些%AF来存储,而我们看到的是中文字符/特殊字符。

我们现在复制好了这个地址,打开IDM的站点抓取。

【置顶】如何批量下载本站资源
IDM站点抓取

抓取方案随便你填写,开始地址填入刚才复制的地址。方案模板改成整个网站。

【置顶】如何批量下载本站资源
参数设置

点击下一步/前进,填写保存至的目录。继续下一步/前进。

【置顶】如何批量下载本站资源
保存目录

选择探索指定的链接深度。填成1000(大一点能探索完,其实没有那么多,IDM自己就会结束了),勾选不要探索父目录。继续前进。

【置顶】如何批量下载本站资源

现在来到了比较关键的环节。这里设置过滤器,过滤器,顾名思义,就是设置哪些种类的文件下载,哪些种类的文件不用下载,一般是通过文件后缀来过滤的。有两种文件过滤方式,一种是指定下载,另一种是指定不下载。

设置方法:一般需要将.html .htm文件排除,因为这是网页文件,并不是我们想要的资源。我们在‘不要下载下列文件(文件类型)’这儿点击添加过滤器。

【置顶】如何批量下载本站资源

然后点击添加。

【置顶】如何批量下载本站资源

名称随意,就填排除网页吧。类型填入 *.html,*.htm 这里的星号是通配符,就是匹配所有后缀为.html 和 .htm文件的意思。

【置顶】如何批量下载本站资源

点击确定,再确定,然后选择这个过滤器。

【置顶】如何批量下载本站资源
参数设置

然后将‘只在此站点搜索文件’勾选。就可以前进了。当然如果你只想下载PDF文件,那么你在‘下载下列文件(文件类型)’这儿自己做一个过滤器就好,参考上文。这时就会只下载PDF文件。

【置顶】如何批量下载本站资源
只下载特定文件

点击前进/下一步。就会开始站点抓取了。

友情提示,下载还是要悠着点,这个还是有点吃资源,最好不要一次性爬取一个很大的文件夹。不过,随意咯。

欢迎志同道合的朋友加入FreeMdict哦!

加入我们

正文完
 4
评论(48条评论)
forumsp
2019-01-18 03:09:54 回复

为什么我的IDM“不要探索父目录”是灰色的,无法勾选~

    hua
    2019-01-18 10:24:04 回复

    @forumsp 某部操作做错了 不过也没关系 你直接开始试试

      forumsp
      2019-01-28 01:54:48 回复

      @hua 我试过很多次,设置是严格按照这个教程设置的~不敢直接试,怕把整个网站的资料都摸一遍~

        hua
        2019-01-28 08:37:33 回复

        @forumsp 你放心不会的 只要你填的不是 下载站点的主地址

          Simon
          2019-04-23 18:34:32 回复

          @hua 用IDM下载好像也没见速度快很多,是我自己的问题吗?

sse er
2019-02-16 19:04:03 回复

iPad也能用这种方式下载吗?

2019-02-17 10:27:21 回复

为什么今天打开,所有外语学习资料的目录里的文件都不见呢?很悲剧啊!!!

2019-02-17 14:23:10 回复

让IDM自动下载的时候,如果让IDM自己建造各文件相应目录的话,那么目录名字会出现乱码,但文件名字就正确,请问有什么克服的方法吗?

DDD
2019-04-20 02:46:49 回复

说什么呢,这个教程简直太无人道了,送你了一个新软件,还教你怎么用,不教会网友下载自己免费资源的网站就不是一个好英文网站。

匿名
2019-04-27 19:21:40 回复

太良心了吧。

匿名
2019-05-06 15:55:18 回复

我用IDM软件无法抓取ziyuan站点的资源,请问这是什么原因呢?

匿名
2019-05-07 21:24:50 回复

抓取不了啊,

匿名
2019-05-07 21:25:13 回复
匿名
2019-05-29 00:35:14 回复

这么良心的站点,多谢多谢!

匿名
2019-05-29 23:26:22 回复

无法下载,显示HTTP1.1 503服务不可用,请问你知道是什么原因么

匿名
2019-07-02 05:32:26 回复

按照版主的方法,无法爬取mp4文件,另外文件都是从SharePoint下载的,爬取不到吧?

    hua
    2019-07-02 09:15:59 回复

    @匿名 以前是可以的有另一套网站程序 我没时间弄了

匿名
2019-07-25 15:24:50 回复

厉害了!!!服务器压力不大吗?之前不懂事的时候我用这个软件爬过别人一个站,太暴力了。。。。

2019-08-13 16:05:11 回复

原来还能如此傻瓜式操作爬取网页资源。谢谢分享。

匿名
2019-08-15 21:10:23 回复

你好,请问一下所有网页的下载都打不开是咋回事呀?全都提示Error 502 Ray ID: 506b66e4581f981b • 2019-08-15 13:09:16 UTC
Bad gateway

2019-09-01 21:09:27 回复

IDM的下载地址都失效了,52poji的连接也无法打开

匿名
2019-11-11 16:48:39 回复

可以百度“慕若曦”去那里下载,但是版本比现行官方版本低了一点,而且自带的Google插件可能装不上(解决办法:先不crack让程序自己检测升级,升级后会自动装上Google插件,然后再crack禁用升级)

匿名
2019-11-29 12:11:23 回复

提醒一下这里的火狐用户,火狐上用IDM自带的下载器插件不能用(被Mozilla以“安全漏洞”的名义给禁用了,详见页面:https://blocked.cdn.mozilla.net/21f14cff-afef-4e0e-97e8-4dbc0207a7a6.html),得单独安装代替的第三方开源扩展FlashGot(介绍详见维基页面https://zh.wikipedia.org/wiki/FlashGot),不然的话没法调用IDM创建下载页面

匿名
2019-11-29 22:07:26 回复

太良心了吧.

匿名
2020-02-15 00:03:20 回复

mac系统有救么

匿名
2020-02-15 22:17:36 回复

请问站长,我想下https://downloads.freemdict.com/Language_Learning_Videos/Japanese/这个网站的资源,但爬取的时候idm提示服务器响应显示您没有权限下载此文件是什么情况

    hua
    2020-02-15 23:15:52 回复

    @匿名 爬虫比正常下载多太多太多太多了,我暂时禁止了,

匿名
2020-03-02 21:17:55 回复

现在貌似开了cloudflare的防护?建议用bt/pt啊,极大地减轻服务器压力,大家都可以帮忙保种

2020-05-11 14:56:18 回复

您好,请问可以发下OneDrive分享外刊的链接嘛~~谢谢

匿名
2020-08-10 21:23:38 回复

太良心了,我点进来还以为是给种子原来是教你快速爬取本站资源?

匿名
2021-04-08 12:00:41 回复

感谢楼主分享!

yic
2023-02-14 09:43:25 回复

多谢,希望以后我也能传承发扬互联网精神