这是一个创建于 2522 天前的主题,其中的信息可能已经有所发展或是发生改变。
以前一直用 TFIDF+SVM 做 baseline,效果尚可,不知可还有其他能做一个不错 baseline 的思路?
试了下 word embedding + bi-LSTM,结果却并没有什么提高…不晓得是不是参数的问题?
现有的训练数据大概 1000 个标签吧,每类七八百个样本,是不是数据量也太小了?
2 条回复 • 2017-07-22 10:15:46 +08:00
![fffflyfish](https://cdn.v2ex.com/gravatar/c534dd856fb4e556d5bfb1bbcf31bcaa?s=48&d=retro) |
|
1
fffflyfish 2017-07-21 10:55:39 +08:00 via iPhone
Kaggle 有个 quora 相关的比赛,可以试试人家公布的方法
|
![mpich](https://cdn.v2ex.com/avatar/e4a5/4fda/238747_normal.png?m=1499178589) |
|
2
mpich 2017-07-22 10:15:46 +08:00
@ fffflyfish 哪个比赛? question pairs? 那不是找重复问题的吗。。。
|