Linux 中如何找到 2 个文件的并集

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Distributions

› Ubuntu

› Fedora

› CentOS

中文资源站

› 网易开源镜像站

这是一个创建于 1172 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题有一个文件 a ，只有一列存着 id
文件 b 是 3 列，存着 id 和其他字段
想找到文件 b 中 id 为文件 a 中的 id 的所有行

大佬们除了遍历还有什么其他的方法吗，因为文件 b 的行数大概有 2 亿。。。哭死

文件

并集

行数

字段

29 条回复 • 2022-12-08 17:57:59 +08:00

macy

2022 年 12 月 7 日

没想到啥好办法，遍历是肯定的，如果后面长期查找，可以尝试把文件存到数据库里吧

Shinoda

2022 年 12 月 7 日

可以用用 command line 试试? 比如 grep -Fwf a.txt b.txt 之类的? 假设你只有 a.txt 只有 id

dqzcwxb

2022 年 12 月 7 日

读到内存改成 map 优化成 O(1)去匹配,内存不够就读一半还不够就再分一半用分治法解决

chaleaochexist

2022 年 12 月 7 日

好像有个布隆过滤器精度要求不高的情况下可以考虑. redis 就支持.

xiaolinjia

2022 年 12 月 7 日

问了下 chatgpt 。

可以使用 Linux 的 grep 命令来找到两个文件的并集。

假设文件 a 的内容如下：

1
2
3
4

文件 b 的内容如下：

1,foo,bar
2,hello,world
5,foo,baz
6,hello,world

要找到文件 b 中 id 为文件 a 中的 id 的所有行，可以使用以下命令：

grep -f a b
这将输出文件 b 中与文件 a 中的 id 匹配的行，即：

1,foo,bar
2,hello,world
上面的命令中，-f 选项告诉 grep 使用文件 a 作为搜索模式。您可以使用 -w 选项来仅匹配整个单词，而不是部分单词。

例如，如果文件 a 的内容如下：

hello
world
那么使用 -w 选项的命令将输出：

2,hello,world
6,hello,world
但是，如果不使用 -w 选项，命令将输出所有包含文件 a 中的单词的行，即：

1,foo,bar
2,hello,world
5,foo,baz
6,hello,world
因此，要根据需要使用 -w 选项。

kkyypy

2022 年 12 月 7 日

@macy 主要是上游业务方推过来的，而且这个文件是 leader 指定要用的就很迷茫，更新是上游更新的，我很难推动啊。。。

kkyypy

2022 年 12 月 7 日

@Shinoda 感谢老哥这个占用资源少多了
@xiaolinjia 哈哈牛皮
@dqzcwxb 感谢回复我试一下
@chaleaochexist 感谢回复～

rekulas

2022 年 12 月 7 日

遍历是必须的，毕竟总得访问才能对比，就算用工具内部也是遍历。。

awk 实现比较方便

winglight2016

2022 年 12 月 7 日

命令行能处理这么大的文件？如果是长期任务，可以考虑用 spark ，也就几行代码

wxf666

2022 年 12 月 7 日

俩文件有多大呢？

文件 a 较小的话（内存存得下），如 8 楼所说，一两行 awk 应该就行了

@winglight2016 就 2 亿数据，感觉一个几百 KB 的 SQLite 都能很好应对，不必要上大数据平台吧

TimePPT

PRO

2022 年 12 月 7 日

啥文件？量大可以导入数据库，量小，除了 LS 的办法，如果类 csv ，可以试试 csvq https://github.com/mithrandie/csvq

zthxxx

2022 年 12 月 7 日

假设有一个名为 `file_a.txt` 的文件，包含一列 id ，另一个名为 `file_b.txt` 的文件包含 3 列，第一列为 id ，可以使用以下命令找到 `file_b.txt` 中 id 为 `file_a.txt` 中的 id 的所有行：

```
grep -f file_a.txt file_b.txt
```

这将在 `file_b.txt` 中搜索与 `file_a.txt` 中的 id 匹配的行，并输出这些行。