关于大量文本搜索的功能要怎么设计

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 2160 days ago, the information mentioned may be changed or developed.

背景描述：目前有 10 万份到 100 万份单独英语文本，需求是首先抽取每个文本的每个单词出来，二是搜索时能够找出所有包含该关键字的文本出来，并能够对应到行。

当前想法：的方案是 elasticsearch，分词的话找个 python 库处理一下，有点像个迷你的搜索引擎，但不确定是否需要那么重量级的工具。

请教：有什么简单又直接又省运维成本的方案？非工作项目，所以全部上云，能不要内存型数据库就不要，能上 serverless 就上 serverless，以降每个月成本压到最低。Java 独有的技术线上不了，Python 、Go 和 JavaScript （ Node ）都可以。谢。

文本

serverless

Python

分词

7 replies • 2020-06-12 02:01:17 +08:00