V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sleeperqp  ›  全部回复第 25 页 / 共 25 页
回复总数  483
1 ... 16  17  18  19  20  21  22  23  24  25  
2014-08-04 11:31:54 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
@clino 后面看到是中文,如果这样我觉得分词还是有必要的 就算纯文本匹配也是有误差的
所以我觉得还是先分词下然后再做处理比较好~
2014-08-04 11:27:02 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
突然想到两种方法:
一种是直接对源文本建立倒排索引,然后对这些索引最后与topics求交
另外一种是对元文本建立倒排索引的过程中,用hash之类的判断在不在topics里
这样就可以去掉m
2014-08-04 11:22:34 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
我觉得这是个建立倒排索引的过程 你可以查查相关的资料
你的处理过程的时间复杂度是O(nml) n是文件数 m是topics 数 l是文件的平均长度
你可以试试怎么把m 去掉或者l去掉
1 ... 16  17  18  19  20  21  22  23  24  25  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1018 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 20:14 · PVG 04:14 · LAX 13:14 · JFK 16:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.