大辞海 原始JSON数据

84次阅读
23条评论

数据简介

大辞海原始数据,是JSON的,但是应该需要点奇技淫巧来读取,我记不得了,大概是我当初存数据的时候忘了加

json.dump

这一行了,嘻嘻。

反正数据给你们,不老是有人说我的大辞海做的不好看,排版不好,差差差吗,原始数据给你,你自己做吧。

注意事项

我尽量回忆一下,有哪些坑和注意事项。

  1. TXT 文件中一行一个词条。
  2. 图片的地址是不用登录就可以下载的,那个 PDF 网址也是。
  3. 里面的数据其实不太好看,有一个标签会反复出现很多次很多次很多次,记得消除掉。
  4. 记得合并词条!因为这是所有单独的词条,有的词会出现在很多个卷中。

就这些吧。

下载地址

记得右键点击另存为哦。

压缩包:推荐

https://downloads.freemdict.com/Recommend/dacihai_all_json.zip

另外,后会有期!

评论(23条评论)
匿名
2019-09-28 01:08:40 回复

感謝,已轉成docx檔

iPadiPadSafariSafari12.1.2
匿名
2019-09-28 09:41:04 回复

这个文件到底多大啊,hua大神能不能压缩一下啊?下了快一早上了,经常中断,得重新下载。

WindowsWindowsChromeChrome77.0.3865.90
匿名
2019-09-28 11:15:53 回复

文件大小1,713,520,422 字节。
md5:6335b59f85c067d237b37dbbc64dcd9b
下载完记得核对。

WindowsWindowsMSIEMSIE7.0
    匿名
    2019-09-28 12:33:21 回复

    @匿名 朋友能不能压缩一下,分享到蓝奏网盘上?先谢谢了!

    AndroidAndroidChromeChrome57.0.2987.132
匿名
2019-09-28 23:39:53 回复

站长分享给大家的本来就够好了,发这原材料只有利于那些喜欢玩弄奇技淫巧的人,再说成品也可以解压出来啊。倒是希望能扒下《辞源》,那可是很窝囊的半成品都不见踪影。

WindowsWindowsFirefoxFirefox61.0
    hua
    2019-09-29 07:28:07 回复

    @匿名 那个我试过了,反扒极其严格,我自己花了40买了三个月。他的反扒到什么地步呢,我正常浏览词条,网页都会加载不出来。如果你超过限制,那么就是封禁八个小时。这玩意是求之不得的。

    AndroidAndroidChromeChrome77.0.3865.92
      匿名
      2019-09-29 15:23:29 回复

      @hua 相信站长成为超级黑客。没见有人秒破Iphone漏洞?又没见有人让ATM自动吐钞?年青人总会成长的。

      WindowsWindowsFirefoxFirefox61.0
匿名
2019-09-29 20:15:06 回复

hua大,是否可以爬取下WordReference.com中的英汉词典,虽然中文解释不错,但其特点是英文词条下的英文解释非常简明,往往用一个简单的英文单词就能解释清楚单词的意思。

AndroidAndroidAndroid BrowserAndroid Browser4.0
匿名
2019-09-30 15:28:07 回复

排版很不错啊。。。一直用,感谢?

AndroidAndroidChromeChrome68.0.3440.91
匿名
2019-10-03 17:00:10 回复

非常感谢hua大无私分享。处理了一下看了看,感觉这个百科还是不够详细。比方“鼻涕”这个词都没有,我都不知道为啥会想到这个词,随手一搜就没有。感觉现在中文百科可能确实百度条目最多了,但是质量堪忧。

MacintoshMacintoshChromeChrome77.0.3865.90
匿名
2019-10-11 12:57:38 回复

支持

MacintoshMacintoshSafariSafari13.0.1
匿名
2019-10-22 13:41:48 回复

有的图片不显示,请问是原网站就没有吗?比如词条『0型语法』词条中{其重写规则是φ→ψ,φ≠}后面是一张图片,但是没有显示。

WindowsWindowsFirefoxFirefox69.0
    hua
    2019-10-22 15:23:52 回复

    @匿名 是的 你自己看咯 你看那个网页有没有404

    WindowsWindowsChromeChrome77.0.3865.120
      kking
      2020-03-02 03:58:59 回复

      @hua 『0型语法』中的图片好了,应该是这个∅的图片,站长,要不再来试试?
      或者你说方法,体力活让我们干

      WindowsWindowsChromeChrome63.0.3239.132
        hua
        2020-03-02 09:34:29 回复

        @kking 无此想法

        WindowsWindowsChromeChrome79.0.3945.130
    匿名
    2019-10-22 16:43:43 回复

    @匿名 是的,页面404。这样的话大部分图片(8千多张图片)都没有,挺可惜的,不知道网站是不是一直还在加图片。hua 兄的版本唯一遗憾的是没有把 PDF 图片链接利用起来,其实可以做一个到 PDF 图片的链接,以备在线查阅这些缺图片的词条。
    另外,反馈一个问题:词条『』义项2中{见“行李}下面两行应该合并上来,估计还有其它地方还有相同的问题。

    WindowsWindowsFirefoxFirefox69.0
      hua
      2019-10-22 19:18:19 回复

      @匿名 有两千个图片是好的

      LinuxLinuxChromeChrome77.0.3865.120
格物
2019-11-17 16:56:55 回复

《大辭海》dacihai
链接: https://pan.baidu.com/s/1z9Ec4r5QAZKIRtfhtYQM5Q&shfl=shareset 提取码: 9m8u

WindowsWindowsChromeChrome63.0.3239.132
匿名
2019-12-09 18:02:46 回复

前阵子在泰国,下载这个资源可以到好几MB。现在回国了,手贱处理一些数据,结果把之前清理好的数据给删了,要再下载。结果速度很慢,几十K而已,在北京。

MacintoshMacintoshChromeChrome78.0.3904.108
    hua
    2019-12-09 18:23:15 回复

    @匿名 请 多线程

    WindowsWindowsChromeChrome78.0.3904.108
hua
2020-03-02 09:34:49 回复

起码工作日不会补的

WindowsWindowsChromeChrome79.0.3945.130
匿名
2020-03-23 09:19:43 回复

这是中文还是英文啊

WindowsWindowsChromeChrome80.0.3987.132
    hua
    2020-03-23 09:25:34 回复

    @匿名 大辞海是什么就是什么

    WindowsWindowsChromeChrome80.0.3987.149