如何从句子提取关键词

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 478 天前的主题，其中的信息可能已经有所发展或是发生改变。

需求是从句子中提取指定关键词或者关键词近似的词语；目前用 jieba 提取效果不是很理想.可能我用法不对；有人做过类似的关键词提取吗

提取

关键词

jieba

15 条回复 • 2024-06-05 00:26:10 +08:00

miaoblyat

2024-06-03 14:19:23 +08:00

# 提取句子中的关键词及其近似词
def extract_keywords_and_similars(sentence, custom_keywords, similarity_threshold=0.5):
words = jieba.lcut(sentence)
result = {}

for keyword in custom_keywords:
extracted_words = [word for word in words if is_similar(keyword, word, similarity_threshold) or keyword == word]
if extracted_words:
result[keyword] = extracted_words

return result

MelodYi

2024-06-03 15:52:38 +08:00

先用大模型试试？

murmur

2024-06-03 16:00:23 +08:00

少量的句子连人都看不懂怎么提取关键字

BiChengfei

2024-06-03 16:19:11 +08:00

前提：你要有一个关键字字典
指定关键词：使用上面的字典，构建字典树，进行语句提取，或者循环比较
相似关键字：循环字典，求相似度

miaoblyat

2024-06-03 16:24:16 +08:00 via iPhone

现在用了 Chinese-word- vector 作关键词字典

miaoblyat

2024-06-03 16:26:46 +08:00

@BiChengfei sentence: 这里发生车辆碰撞，有人受伤
keyword: {'车祸': ['受伤']}--0.5
sentence: 这里有条狗被撞了，无人受伤
keyword: {'车祸': ['撞', '受伤']}--0.5
sentence: 高速上塞车了，不知道什么原因
keyword: {}--0.5

miaoblyat

2024-06-03 16:27:22 +08:00

@miaoblyat 感觉近似词不是很准，就想着怎么能更精准

BiChengfei

2024-06-03 17:01:54 +08:00

{'车祸': ['受伤']}--0.5
{'车祸': ['撞', '受伤']}--0.5
你这不能使用相似度算法了，需要根据语义，进行文本分类吧（这个我不懂，等有缘人解惑吧）

BiChengfei

2024-06-03 17:03:06 +08:00

https://github.com/minitrill/TextAudit
你参考下这个

miaoblyat

2024-06-03 18:19:20 +08:00 via iPhone

好的感谢🙏