大辞海 原始JSON数据

数据简介

大辞海原始数据,是JSON的,但是应该需要点奇技淫巧来读取,我记不得了,大概是我当初存数据的时候忘了加

json.dump

这一行了,嘻嘻。

反正数据给你们,不老是有人说我的大辞海做的不好看,排版不好,差差差吗,原始数据给你,你自己做吧。

注意事项

我尽量回忆一下,有哪些坑和注意事项。

  1. TXT 文件中一行一个词条。
  2. 图片的地址是不用登录就可以下载的,那个 PDF 网址也是。
  3. 里面的数据其实不太好看,有一个标签会反复出现很多次很多次很多次,记得消除掉。
  4. 记得合并词条!因为这是所有单独的词条,有的词会出现在很多个卷中。

就这些吧。

下载地址

记得右键点击另存为哦。

压缩包:推荐

https://downloads.freemdict.com/Recommend/dacihai_all_json.zip

另外,后会有期!

THE END
点赞0
分享
评论 共23条
    • getdicter
    • 这是中文还是英文啊
      1年前回复
    • hua
    • hua作者0
      起码工作日不会补的
      1年前回复
    • getdicter
    • 前阵子在泰国,下载这个资源可以到好几MB。现在回国了,手贱处理一些数据,结果把之前清理好的数据给删了,要再下载。结果速度很慢,几十K而已,在北京。
      2年前回复
    • 格物
    • 《大辭海》dacihai 链接: https://pan.baidu.com/s/1z9Ec4r5QAZKIRtfhtYQM5Q&shfl=shareset 提取码: 9m8u
      2年前回复
    • getdicter
    • 有的图片不显示,请问是原网站就没有吗?比如词条『0型语法』词条中{其重写规则是φ→ψ,φ≠}后面是一张图片,但是没有显示。
      2年前回复
      • hua
        hua作者0
        是的 你自己看咯 你看那个网页有没有404
        2年前@匿名回复
        • 『0型语法』中的图片好了,应该是这个∅的图片,站长,要不再来试试? 或者你说方法,体力活让我们干
          1年前@hua回复
      • 是的,页面404。这样的话大部分图片(8千多张图片)都没有,挺可惜的,不知道网站是不是一直还在加图片。hua 兄的版本唯一遗憾的是没有把 PDF 图片链接利用起来,其实可以做一个到 PDF 图片的链接,以备在线查阅这些缺图片的词条。 另外,反馈一个问题:词条『』义项2中{见“行李}下面两行应该合并上来,估计还有其它地方还有相同的问题。
        2年前@匿名回复
    • getdicter
    • 非常感谢hua大无私分享。处理了一下看了看,感觉这个百科还是不够详细。比方“鼻涕”这个词都没有,我都不知道为啥会想到这个词,随手一搜就没有。感觉现在中文百科可能确实百度条目最多了,但是质量堪忧。
      2年前回复
    • getdicter
    • 排版很不错啊。。。一直用,感谢?
      2年前回复
    • getdicter
    • hua大,是否可以爬取下WordReference.com中的英汉词典,虽然中文解释不错,但其特点是英文词条下的英文解释非常简明,往往用一个简单的英文单词就能解释清楚单词的意思。
      2年前回复
    • getdicter
    • 站长分享给大家的本来就够好了,发这原材料只有利于那些喜欢玩弄奇技淫巧的人,再说成品也可以解压出来啊。倒是希望能扒下《辞源》,那可是很窝囊的半成品都不见踪影。
      2年前回复
      • hua
        hua作者0
        那个我试过了,反扒极其严格,我自己花了40买了三个月。他的反扒到什么地步呢,我正常浏览词条,网页都会加载不出来。如果你超过限制,那么就是封禁八个小时。这玩意是求之不得的。
        2年前@匿名回复
        • 相信站长成为超级黑客。没见有人秒破Iphone漏洞?又没见有人让ATM自动吐钞?年青人总会成长的。
          2年前@hua回复
    • getdicter
    • 文件大小1,713,520,422 字节。 md5:6335b59f85c067d237b37dbbc64dcd9b 下载完记得核对。
      2年前回复
      • 朋友能不能压缩一下,分享到蓝奏网盘上?先谢谢了!
        2年前@匿名回复
    • getdicter
    • 这个文件到底多大啊,hua大神能不能压缩一下啊?下了快一早上了,经常中断,得重新下载。
      2年前回复
    • getdicter
    • 感謝,已轉成docx檔
      2年前回复