sparksql 查询 elasticsearch 速度很慢

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Elasticsearch 参考文档

› Elasticsearch: The Definitive Guide

› elasticseaerch-analysis-ik

这是一个创建于 2673 天前的主题，其中的信息可能已经有所发展或是发生改变。

用 sparksql 查询 es 集群的时候特别慢，es 集群有三个节点，总共大概有 200 亿条数据，jvm 堆内存 32G。 spark 查询时 pushdown 了之后结果集大概有 20 亿条数据，一个简单的字段匹配查询要跑一两个小时，目前连接时只用到了这些配置 es.scroll.size="10000" pushdown="true" es.scroll.keepalive="10m"

sparksql 代码：

val conf = new SparkConf().setAppName("SimpleExample").set("es.resource","myIndex/info").set("es.read.field","field1,field2,field3").set("es.scroll.size","10000").set("es.scroll.keepalive","10m").set("es.nodes","192.168.12.12").set("es.port","9200").set("pushdown","true");

val sc = new SparkContext(conf);

val df = sc.sql("select * from myIndex where name = 'exampleName'")

从 sparkUI 上的 metrics 看，99% 时间都浪费在了 executor compute time 上，但是我只是简单的 select 然后 save 到 hdfs 文件而已。 https://i.stack.imgur.com/IJ0oQ.jpg

3 条回复 • 2020-03-28 11:13:43 +08:00