仓库地址: https://github.com/lonnng/etym
基于 https://www.etymonline.com/数据做的一个微信小程序,用于查询词源,并且拓展了功能,查询某个单词时,显示同根词源派生的单词,并且可以选择单词范围( CET-4、CET-6、托福、雅思)等等。
cmd/etymd/
服务器守护进程cmd/spider/
爬虫程序,从 etymonline 爬取词源信息,并解析其中的词根词缀派生关系,以及使用 google 翻译获取汉语词源,由于 google 翻译有反爬虫设计,所以在pkg/proxy
中实现了一个代理池,从公共 HTTP 代理网站拉取 HTTP 代理信息,检测活的代理进行爬取。cmd/transformer
数据处理以及转换,单词翻译使用了https://github.com/skywind3000/ECDICT
,需要对原始数据进行处理。assets
资源文件,里面包含各种解析好的资源。build
编译打包部署到远程服务器相关脚本,build/unpack.sh
用于解压必要文件assets
目录ecdict.json
对应https://github.com/skywind3000/ECDICT
中的 ecdict 词典(70w 词条)stardict.json
对应https://github.com/skywind3000/ECDICT
中的 stardict 词典(350 万词条)etym.json
从 etymonline.com 拉取的词条解析后的文件(包含词源翻译)trans.json
翻译文件ECDICT.tar.gz
当前使用的https://github.com/skywind3000/ECDICT
etymology-resource.tar.gz
从 etymolone 中爬取的原始数据以及从 google 翻译中爬取的原始数据,可以使用spider
重新爬取,也可以直接使用已经爬好的数据玩耍。由于 github 单文件限制大小 100m, 所有 assets 部分文件进行了压缩, 请先解压文件, 可以使用
sh build/unpack.sh
1
ggmood 2018-09-14 14:15:42 +08:00 1
小程序搜不到呢
|
2
chrislon OP 服务器到期了就下线了~如果需要可以自己搭
|
3
kosmgco 2018-09-17 15:14:25 +08:00
用代码自己搭了一个小程序,不会侵权吧。。。
|
7
kosmgco 2018-09-18 13:50:52 +08:00
|