实现评论内容的关键词匹配,当评论里面的短语或者单词次数出现超过两次,要匹配这种词或者词语
因为没办法从代码层面去区分这个单词是单独的词还是组合的词,普通正则就只能匹配出单个单词的,导致匹配的词完全是乱七八糟的
有没有大佬做过,给小弟分享一下思路!!!
1
leejinhong OP 例子:Great style and very comfortable! Great value for money and very comfortable.
这段 Great 、very comfortable 是关键词 |
2
zsc8917zsc 3 天前
jieba 分词?
|
3
b821025551b 3 天前
首先,内容是纯英文还是中英文;
其次,关键词内容是自己有个库,还是根据当前文本内容去拆分; 最后,“普通正则”是如何匹配的,preg_match_all 么? |
4
leejinhong OP @b821025551b 第一想到的就是它
|
5
leejinhong OP @b821025551b 内容是多语种的。确实要维护一个关键词内容库才行,不的话肯定就是反人类的东西
|