V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ALLROBOT
V2EX  ›  程序员

github 有现成的小说 tag 分类器吗?

  •  
  •   ALLROBOT · 2023-02-10 07:37:05 +08:00 · 2596 次点击
    这是一个创建于 653 天前的主题,其中的信息可能已经有所发展或是发生改变。

    给若干未分类的小说 txt ,根据里面的关键词、词频、描写等自动划分至都市言情、玄幻仙侠等分类文件夹,再新建 tag 标签文件夹,把分类的小说放进去

    下载的皇叔太多,15 来 G ,个人懒得写代码,就来问问有没现成的分类器可用😊😊

    20 条回复    2023-02-12 18:43:47 +08:00
    wu67
        1
    wu67  
       2023-02-10 09:25:57 +08:00
    既然是刘备, 别的不说, 我就问问怎么区分 ntr 和纯爱类好了
    cxsz
        2
    cxsz  
       2023-02-10 11:06:10 +08:00
    提供一个思路,爬一个小说站的书名和分类,然后匹配书名,套用它的分类
    givenge
        3
    givenge  
       2023-02-10 11:20:03 +08:00
    皇叔给大伙分享一下
    ALLROBOT
        4
    ALLROBOT  
    OP
       2023-02-10 12:29:23 +08:00 via Android
    @wu67 ntr 类的,一般有苦主心理描写,比如痛苦,目呲欲裂这类比较频繁的词语,分类有相关的词汇用于描述,也许决策树适合这场景?没做过这方面的分类器

    @cxsz 不太现实,小说来源纷杂,比如 001 、河图文化、翠微居或禁忌书啥,打分类 tag 不太方便

    @givenge 很多论坛有提供皇叔合集打包吧,部分皇叔合集从磁力搜索引擎下来的
    MindMindMax
        5
    MindMindMax  
       2023-02-10 12:58:26 +08:00
    ntr 类的,一般有苦主心理描写,比如痛苦,目呲欲裂这类比较频繁的词语,分类有相关的词汇用于描述,也许决策树适合这场景?没做过这方面的分类器
    ---

    随机森林就行了,主要是你要收集到足够的语料特征然后亲自调教 lol
    zoharSoul
        6
    zoharSoul  
       2023-02-10 13:20:25 +08:00
    顺便问下有没有提取小说目录的算法模型
    ALLROBOT
        7
    ALLROBOT  
    OP
       2023-02-10 13:31:53 +08:00 via Android
    @zoharSoul 正则表达式可以提取
    dusu
        8
    dusu  
       2023-02-10 14:59:09 +08:00 via iPhone
    把小说内容发给 chatgpt 让他给你从分类里选
    killva4624
        9
    killva4624  
       2023-02-10 15:09:22 +08:00
    让 chatgpt 先读一遍(不是
    Ediacaran
        10
    Ediacaran  
       2023-02-10 15:46:33 +08:00 via iPhone
    在整理一批书,打算用词袋搞。有些书的分类是有的,可以用来做训练。
    huiyadanli
        11
    huiyadanli  
       2023-02-10 16:00:29 +08:00
    细说 15G (话说这量,你是要建站吧...)
    sadfQED2
        12
    sadfQED2  
       2023-02-10 16:20:30 +08:00 via Android
    15G 资源?纯 txt 格式吗?能分享一下吗,我想拿来喂 ai ,看看能不能搞一个写小说的模型
    xwcs
        13
    xwcs  
       2023-02-10 17:17:36 +08:00
    15G 你是准备建站嘛,罗森都因为刘备文给进去了,小心点
    ALLROBOT
        14
    ALLROBOT  
    OP
       2023-02-10 23:15:39 +08:00 via Android
    @dusu @killva4624 chatgpt ,可真有意思,我怎么没想到呢,比自建模型省事多了
    @huiyadanli @sadfQED2 这有啥,磁力搜索引擎能搜到 20G 以上的皇叔,别告诉我你们没有电子检索能力🤣
    @xwcs 怎么可能啊,自用的,jc 都懒得抓
    longyuzichen
        15
    longyuzichen  
       2023-02-11 00:01:37 +08:00
    链接发一下啊
    ALLROBOT
        16
    ALLROBOT  
    OP
       2023-02-11 01:51:34 +08:00
    @longyuzichen https://clg106.buzz/hash/ea906ba7d6fa138aa65e2fdb0a8db46c5fa42551.html
    zoharSoul
        17
    zoharSoul  
       2023-02-11 14:08:38 +08:00
    @ALLROBOT 正则很多识别不了
    ALLROBOT
        18
    ALLROBOT  
    OP
       2023-02-11 14:14:58 +08:00
    @zoharSoul github 有开源阅读,具体算法可以找找作者问问 https://github.com/gedoor/legado
    zoharSoul
        19
    zoharSoul  
       2023-02-12 18:12:46 +08:00
    @ALLROBOT 他那个就是正则. 很多不认识的
    ALLROBOT
        20
    ALLROBOT  
    OP
       2023-02-12 18:43:47 +08:00
    @zoharSoul #19



    既然基于规则的算法无法满足你的要求,可以试试其它 4 种办法
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2863 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:34 · PVG 20:34 · LAX 04:34 · JFK 07:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.