V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
l890908
V2EX  ›  程序员

做了一个对少部分人有用的网站

  •  1
     
  •   l890908 · 2019-11-26 07:47:37 +08:00 · 11748 次点击
    这是一个创建于 1856 天前的主题,其中的信息可能已经有所发展或是发生改变。
    维基百科中文版: https://www.wanweibaike.com/
    英文版: https://en.wanweibaike.com/

    花了很多时间和精力,要问哪部分花的时间最多?你说对了,就是处理敏感内容,很多都是手动处理的,已眼瞎。

    特点:
    1、页面和官网一样简单,一样丑;
    2、条目内容和官网一样,极少部分经过处理;
    3、用户可以点击“更新”按钮更新当前页面来获取最新内容;
    4、超过一个月页面自动更新,保证内容都是最新的。

    缺点:
    你想看的内容都不能看

    欢迎狂点测 bug,轻喷、重喷都可以。
    81 条回复    2019-12-25 17:14:13 +08:00
    chunchu
        1
    chunchu  
       2019-11-26 07:52:34 +08:00
    这样干不会侵权吗?
    l890908
        2
    l890908  
    OP
       2019-11-26 07:56:42 +08:00   ❤️ 1
    @chunchu 不会的哈,
    官网的版权申明:

    “您可自由:

    分享 — 复制、发行、展览、表演、放映、广播或通过信息网络传播本作品
    创作演绎作品
    对本作品进行商业性使用
    惟须遵守下列条件:

    署名 — 您必须按照作者或者许可人指定的方式对作品进行署名。
    相同方式共享 — 如果您改变、转换本作品或者以本作品为基础进行创作,您只能采用与本协议相同的许可协议发布基于本作品的演绎作品。
    且认识到:

    弃权 — 若您获得著作权人准许,则上述所有条件都可予以免除。
    公有领域 — 若在可适用法律下本作品或本作品的任何部分处于公有领域,则其处于公共领域的状态不受本许可协议影响。
    其他权利 — 以下权利不受本许可协议影响:
    合理使用,或其他相关法律规定的著作权保护的限制或例外;
    作者的人身权;
    其他人拥有的与本作品本身或与本作品的使用方式有关的权利,例如商品化权或隐私权
    声明 — 在再使用或者发行本作品时,您必须向他人明示本作品使用的许可协议条款。提供链接是明示的最佳方法。”
    gavindexu
        3
    gavindexu  
       2019-11-26 08:06:15 +08:00 via iPhone   ❤️ 4
    想看的内容 都不能看……😂
    hyserendipity
        4
    hyserendipity  
       2019-11-26 08:07:16 +08:00 via iPhone
    有用,点赞
    hoofs
        5
    hoofs  
       2019-11-26 08:09:36 +08:00 via Android
    直接用 cf workers jsproxy 就可以看维基了
    copymaster
        6
    copymaster  
       2019-11-26 08:18:57 +08:00 via Android
    感觉活不了多久...
    crella
        7
    crella  
       2019-11-26 08:38:27 +08:00 via Android
    楼主可以提供离线版下载吗,下载速度 128kB 也可以。以前在 pdawiki 下过中文 wiki 词典,好久没更新了。
    ryansvn
        8
    ryansvn  
       2019-11-26 08:56:44 +08:00
    为什么不看原版?
    imicksoft
        9
    imicksoft  
       2019-11-26 09:08:24 +08:00
    好极了,这下不翻也能看了
    omenShaw
        10
    omenShaw  
       2019-11-26 09:16:43 +08:00
    可以啊,赞楼主

    另外想问一下楼主是自己搞的存储来保存页面吗?
    vagrom
        11
    vagrom  
       2019-11-26 09:22:17 +08:00
    这个不错呢,楼主应该花了很多功夫。
    AlisaDestiny
        12
    AlisaDestiny  
       2019-11-26 09:25:37 +08:00
    我们有百度百科,要啥 Wikipedia。斜眼.jpg
    IsakLU
        13
    IsakLU  
       2019-11-26 09:27:26 +08:00
    那会不会和百度一样呢
    shijianit
        14
    shijianit  
       2019-11-26 09:28:59 +08:00
    今天 11 月 26 号,主页上显示的历史上的今天还是 11 月 25 号
    zx940930
        15
    zx940930  
       2019-11-26 09:31:51 +08:00
    巴拿马都有...
    JamesR
        16
    JamesR  
       2019-11-26 09:35:26 +08:00
    再增加个付费可看敏感条目列表及详情,估计不错。
    ae86
        17
    ae86  
       2019-11-26 09:38:07 +08:00   ❤️ 1
    看不到原版的人会用百度,看到原版的会用原版
    mwftts
        18
    mwftts  
       2019-11-26 09:38:32 +08:00 via Android
    想看的都不能看,哈哈,那果然是少部分人用的
    imWBB
        19
    imWBB  
       2019-11-26 09:45:41 +08:00 via Android   ❤️ 3
    https://www.wikipedia-mirror.org/

    分享一个维基镜像站
    imWBB
        20
    imWBB  
       2019-11-26 09:47:38 +08:00 via Android
    https://blog.sukiu.net/p/wikimirror.html

    不喜欢访问别人站的,可以自己搭。
    weipt
        21
    weipt  
       2019-11-26 10:06:52 +08:00
    19 楼的镜像站不错,
    17 楼正解 看不到原版的人会用百度,看到原版的会用原版
    博主费劲力气搞得这个方向不对
    l890908
        22
    l890908  
    OP
       2019-11-26 10:14:18 +08:00
    @crella 这个就是抓过来的一堆代码,而且极其乱,搞不了离线版啊
    l890908
        23
    l890908  
    OP
       2019-11-26 10:14:50 +08:00
    @ryansvn 原版要科学上网啊,现在科学上网对很多人很难的
    l890908
        24
    l890908  
    OP
       2019-11-26 10:15:38 +08:00
    @shijianit 是 这个是个问题,但是官网就是用的美国时区,这边也可以改,但是仅仅改成当前时间没意义
    l890908
        25
    l890908  
    OP
       2019-11-26 10:16:03 +08:00
    @JamesR 那不行的,死路一条
    l890908
        26
    l890908  
    OP
       2019-11-26 10:17:51 +08:00
    @ae86 你这个狗头好酷 ,维基百科还是有一些粉丝的,这些人并不都会用科学上网
    l890908
        27
    l890908  
    OP
       2019-11-26 10:22:41 +08:00
    @omenShaw 是,经过了很多处理来维持和原网页一样,针对只查看内容不编辑和修改进行了一些改良
    imn1
        28
    imn1  
       2019-11-26 10:24:06 +08:00   ❤️ 2
    @crella
    维基百科有离线下载啊

    https://dumps.wikimedia.org/
    https://dumps.wikimedia.org/zhwiki/latest/ 这个是中文的
    不过文件相当巨大,GB 级 xml,需要自己解决联网问题

    @JamesR
    收费就变商用了,协议条款不同
    different
        29
    different  
       2019-11-26 10:31:07 +08:00 via Android
    @l890908 不会科学上网的人也许都没有接触过维基,为何还是维基的粉丝?
    l890908
        30
    l890908  
    OP
       2019-11-26 10:36:01 +08:00
    @different 不是的,网民基数太大,什么样的都有的,你看上面的回复你就知道还是有一些人需要的
    willxiang
        31
    willxiang  
       2019-11-26 10:45:00 +08:00   ❤️ 2
    不管怎么说,我觉得楼主都是在做好事
    就算不知道维基的人只可能去看百度,
    但如果你告诉他现在有一个可以直连的“维基”,你可以通过这个网址看一些正好需要的内容,不是比看百度更强吗
    hanxiaomeng
        32
    hanxiaomeng  
       2019-11-26 10:46:14 +08:00
    支持,就是不知道会不会有网监局的到时候查水表
    Raven316
        33
    Raven316  
       2019-11-26 10:47:53 +08:00
    支持,一些数学相关的知识查维基很不错
    zqguo
        34
    zqguo  
       2019-11-26 10:52:12 +08:00
    支持啊,我觉得可行.
    Eagleyes
        35
    Eagleyes  
       2019-11-26 10:52:34 +08:00
    没懂点在哪里,来这里的自己不会去看原版 wiki ?何必在 clone 一个呢
    shilingXD
        36
    shilingXD  
       2019-11-26 10:58:09 +08:00
    是机翻吗?
    vtwoextb
        37
    vtwoextb  
       2019-11-26 10:59:08 +08:00
    有点意思,但是没用啊,想挣钱够呛
    rizon
        38
    rizon  
       2019-11-26 11:00:54 +08:00   ❤️ 1
    真就没人点一下看一眼吗。。。。。图片不能点击看大图居然没人提。。。。


    ------

    哪怕是个人爱好嘛,可能是有很大的局限性,但是热情这东西不在于做的是什么的,而在与热情本身,那么多公益事项不都是靠着这种傻傻的热情咯
    就是因为活着越来越明白,知道好多事情没啥意义,不想去做甚至不想去想,逐步的就变得对更多哪怕有些意义的事情也变得觉得没啥意义,在逐渐也就是失去了所谓热情了啊
    嘛,也不是吐槽大家了,就是瞎扯淡感慨一下~~
    xiaomache
        39
    xiaomache  
       2019-11-26 11:01:07 +08:00
    支持啊
    l890908
        40
    l890908  
    OP
       2019-11-26 11:07:44 +08:00
    @Eagleyes 克隆还是有一些门槛,并且速度也不快
    l890908
        41
    l890908  
    OP
       2019-11-26 11:09:58 +08:00
    @zx940930 感谢,已经处理,花了大量的时间来处理这些内容,还是有漏掉的
    koebehshian
        42
    koebehshian  
       2019-11-26 12:02:56 +08:00
    不错,访问速度比原版快。作为一个地图爱好者,我发现 logo 上的中国地图少了两个岛
    l890908
        43
    l890908  
    OP
       2019-11-26 12:12:11 +08:00
    @koebehshian 不是,是其他两个岛都能访问,唯独这个红色的不能访问, 哭笑脸:(ʘᴥʘ)
    lnchy
        45
    lnchy  
       2019-11-26 15:28:53 +08:00
    竟然没有科学养猪的词条
    CosimoZi
        46
    CosimoZi  
       2019-11-26 15:45:40 +08:00
    最近学范畴论,感觉维基上资料确实不错,概念讲得很清晰.
    l890908
        47
    l890908  
    OP
       2019-11-26 15:48:58 +08:00
    @lnchy 做了个判断,xx 内容多就屏蔽
    DIN0
        48
    DIN0  
       2019-11-26 15:50:00 +08:00 via Android
    维基百科镜像?
    cnzjl
        49
    cnzjl  
       2019-11-26 15:53:00 +08:00
    国内维基==百度百科?
    712e1959
        50
    712e1959  
       2019-11-26 16:00:50 +08:00 via Android
    @crella #7 WP 提供 dump。
    pi1ot
        51
    pi1ot  
       2019-11-26 16:04:31 +08:00
    怎么同步过来的?手动审核?后续更新呢?
    712e1959
        52
    712e1959  
       2019-11-26 16:05:19 +08:00 via Android
    @JamesR #16
    @imn1 #28

    WP 的协议是 CC BY-SA 3.0,允许商用。参见 creativecommons.org/licenses/by-sa/3.0/deed.zh

    不过真的这么干了,网警会不会找麻烦我就不清楚了¯\_(ツ)_/¯
    chanchan
        53
    chanchan  
       2019-11-26 16:07:25 +08:00
    随便搜了几个编程语言术语果然都没有..
    koebehshian
        54
    koebehshian  
       2019-11-26 16:40:42 +08:00
    @l890908 海南也行?
    l890908
        55
    l890908  
    OP
       2019-11-26 16:43:10 +08:00
    @pi1ot 内容太多了,没办法手动审核,页面最底下可以更新,超过一定时长也会自动更新
    l890908
        56
    l890908  
    OP
       2019-11-26 16:54:15 +08:00
    @koebehshian 感谢提醒 确实忽略了,马上改回来
    lvyunyi
        57
    lvyunyi  
       2019-11-26 16:58:08 +08:00
    支持 就算去掉了一些东西,这个百科依旧对大部分人都有价值
    Jirajine
        58
    Jirajine  
       2019-11-26 16:58:31 +08:00 via Android   ❤️ 2
    LZ 是在帮不愿意自我 yan 割的东西 yan 割啊,果然是做好事。
    顺便问一句,备案了没?没备案的话,如果有人举报 LZ 有没有信心凭借自己花了很多时间精力的“自我审查”抗过去而不被墙呢?
    l890908
        59
    l890908  
    OP
       2019-11-26 17:01:01 +08:00
    @chanchan 那是官网也没有,这个也是没办法的事,没有大陆这么多网民的参与,中文维基百科实际上已经落后非常多,很多词条都是其他地方的声音
    xman99
        60
    xman99  
       2019-11-26 17:10:09 +08:00
    哥们, 请问你是如何判断敏感话题的, 调用 阿里或者 腾讯的敏感词接口判断的吧?
    lnchy
        61
    lnchy  
       2019-11-26 17:29:24 +08:00
    @l890908 哈哈哈,看到很多人做这样类似的百科,我上去的每一件事就是查一下《科学养猪》
    l890908
        62
    l890908  
    OP
       2019-11-26 17:38:06 +08:00   ❤️ 1
    @chanchan 编程、数学等科学类的建议去英文版查
    arvinsilm
        63
    arvinsilm  
       2019-11-26 17:38:46 +08:00
    感觉活不了多久啊。官方的态度现在更偏保守一些,不会相信你的过滤的。难听一些大概就是,虽然已经自我严格了,但不相信你自己能严干净。
    hanqian
        64
    hanqian  
       2019-11-26 18:15:38 +08:00 via iPhone
    不要把官方当成一个可以理性打交道的对象,特别是在文宣问题上。
    cirzear
        65
    cirzear  
       2019-11-26 18:27:55 +08:00
    资瓷一个
    ingram22mb30
        66
    ingram22mb30  
       2019-11-26 18:58:51 +08:00 via Android
    还有一个缺点手机版网页怎么没了?赶紧改进下,快!去!
    l890908
        67
    l890908  
    OP
       2019-11-26 20:02:00 +08:00
    @Jirajine 被墙都是小事了,所以目前宁肯错杀也不能有遗漏,还是得人工审核
    l890908
        68
    l890908  
    OP
       2019-11-26 20:03:03 +08:00
    @xman99 弄了一个词库,设定了一些规则,应该是要接入阿里云的内容安全,才会比较安全
    cppgohan
        69
    cppgohan  
       2019-11-26 21:14:11 +08:00
    虽然感觉没什么用, 不过楼主辛苦了, "https://www.wanweibaike.com/wiki/Category-%E4%BA%9A%E6%B4%B2", 这个页面把弯弯给抹掉了(这个是手动操作吧:)).
    这里我想看的第一个词条就没法进去了, 毕竟网站图标这么红的一块图. 真是有点伤感
    anion
        70
    anion  
       2019-11-26 22:11:29 +08:00
    很厉害啊,不过有点担心你的安全。
    yejinmo
        71
    yejinmo  
       2019-11-26 22:51:01 +08:00
    https://www.wanweibaike.com/wiki-%E5%8C%97%E4%BA%AC%E5%B8%82

    为啥连首都的词条都要屏蔽。。
    l890908
        72
    l890908  
    OP
       2019-11-26 23:09:00 +08:00   ❤️ 1
    @yejinmo 这个实在是没办法,里面确实包含 xx 内容,而且这样的词条不少,可能以后慢慢手动编辑
    discrete
        73
    discrete  
       2019-11-27 07:09:51 +08:00
    「香港泛民主派在 2019 年香港区议会选举(图)中取得过半数议席,为历来首次。」楼主,你首页就……
    l890908
        74
    l890908  
    OP
       2019-11-27 08:38:47 +08:00
    @rizon 感谢,图片的问题正在修正当中,确实忽略了这个,要调整的标签和样式太多了
    ryansvn
        75
    ryansvn  
       2019-11-27 08:53:10 +08:00
    @l890908 的确是了,但是个人的愚见是,既然知道维基百科,并且非常喜欢上面的知识的话,其实学习翻墙,是一个非常基本的要求了。
    而且,阉割版有一个小小的问题,就是维基百科中的很多词条是各种关联的,很多不敏感内容,其实是和敏感内容有着千丝万缕的关系或者是连系,有些不敏感内容要想搞得明白,势必需要了解部分的敏感内容。
    不过,还是支持楼主,传播知识,无论任何形式,都是值得鼓励的。
    l890908
        76
    l890908  
    OP
       2019-11-27 09:38:32 +08:00
    @discrete 感谢,首页和 hk 有关的都去掉了
    gitjavascript
        77
    gitjavascript  
       2019-11-27 09:54:08 +08:00
    挺 NB 的
    Tianyan
        78
    Tianyan  
       2019-11-27 15:14:42 +08:00
    做个流量站可以
    q33q33
        79
    q33q33  
       2019-12-01 09:40:05 +08:00 via iPhone
    8 平方
    搜索结果 共 78 个条目,重复条目已经合并,根据相关法律法规和政策,部分结果可能无法展示。
    这个和百度百科有差吗
    febtree
        80
    febtree  
       2019-12-18 19:31:24 +08:00
    点了一个“四川省”,显示“该条目内容涉嫌敏感,暂时不可查看”,有点诡异
    l890908
        81
    l890908  
    OP
       2019-12-25 17:14:13 +08:00
    @febtree 数据太多,根据敏感词来屏蔽的,在处理中...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3557 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 04:26 · PVG 12:26 · LAX 20:26 · JFK 23:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.