投票对象:
A. so.csdn.net
B. goobe.cn
事情起因: 某同学(某公司举足轻重的那种吧)看过我搜索后说,你没在真正搜索引擎公司干过,你这业余干的搜索,我没看出来好在哪里。
谁的产品,谁都会护短,所以我也不做过多辩解,尽量中立。但我绝不接受光扣个帽子,却也没说出个道理来。可能高人认为我自己能悟出来吧。
事实上我也知道我的产品还有一堆些问题和不足,但我天生愚钝,实在没看出来产品比 csdn 搜索差在哪儿,所以求助万能的 v 圈帮助。
一是帮我下面跟帖投个票,就说你更喜欢哪个搜索,哪个更好用。 二是最好说明一下原因。但凡是我这边的产品不足,我都会去尽量优化提升。
谢谢大家。ps,大搜索引擎公司没去过,以前自己创业做过一个视频搜索,wosss,不知道有没有人用过。
1
ofooo 2019-06-18 15:14:23 +08:00 1
试了下你这个结果也不错啊。
是怎么做的?是调用其他搜索引擎结果吗?还是自己做爬虫, 那工程量也太大了吧? |
2
whileFalse 2019-06-18 15:21:17 +08:00 2
搜索一下“七类线 家庭” CSDN 是真的垃圾。
|
3
nandehutu 2019-06-18 15:24:18 +08:00 1
csdn 的搜索,之前是我同事在做啊,我准备把这个帖子发给他
|
4
brust 2019-06-18 15:27:44 +08:00 1
csdn 黑名单域名
|
5
Jirajine 2019-06-18 15:29:35 +08:00 via Android 8
假装看不出来是广告
|
6
showecho 2019-06-18 15:30:53 +08:00 2
假装看不出来是广告
|
7
brust 2019-06-18 15:31:29 +08:00 1
我很好奇 LZ 是不是跟 csdn 有一腿
我搜索 "净水器" https://goobe.cn/search.aspx?k=%E5%87%80%E6%B0%B4%E5%99%A8 出来的全是 csdn 的 然后 就第一条跟净水器有关系 所以答案是 两个我都给差评 |
8
lxd152 2019-06-18 15:37:58 +08:00 1
业余玩家路过。。非要选的话我选实时搜索 A
|
9
WhoCanBeRich 2019-06-18 15:39:11 +08:00 1
很厉害啊 能开源代码看看嘛
|
10
AngryPanda 2019-06-18 15:39:53 +08:00 1
搜索结果出现了 CSDN 的页面,的确很业余。
|
11
airflybusoren 2019-06-18 15:43:57 +08:00 1
用户体验上,我站 A,因为有做及时搜索条例和搜索速度优化,当然这些都是积累很久的东西,可以不在意
|
12
Constellation39 2019-06-18 16:00:14 +08:00 1
假装看不出来是广告
|
13
superalsrk 2019-06-18 16:03:18 +08:00 1
这个算是垂直搜索引擎么~如果爬虫 物料 NLP Rank 都自己做的话~~工作量很大哒
|
14
stiekel 2019-06-18 16:05:19 +08:00 1
wosss 是不是搞网盘搜索的?
|
15
dooonabe 2019-06-18 16:05:48 +08:00 1
|
16
shoumu 2019-06-18 16:12:12 +08:00 1
试了一个 query:tensorflow 稀疏特征处理
结果不是很好 |
17
encro 2019-06-18 16:13:30 +08:00 1
当然业余,搜索第一位的 pagerank 就不对,
昨天刚看了一篇文章:永远不要拿你的业余爱好和职业选手比 |
18
bearqq 2019-06-18 16:14:18 +08:00
x58+w3565+470D 要来就来一身垃圾套装
|
19
ddup 2019-06-18 16:14:28 +08:00
这个搜索不错啊,搜代码很好,收藏了。这个是我的搜索 http://guihaidata.com/ 你的也是 .NET 写的?
|
20
bearqq 2019-06-18 16:14:43 +08:00 1
回错帖子了(捂脸
|
22
ddup 2019-06-18 16:15:03 +08:00
这个搜索不错啊,搜代码很好,收藏了。这个是我的搜索,搜硬盘文件的,快如 Everything 准如搜索引擎
guihaidata.com 你的也是 .NET 写的? |
23
ddup 2019-06-18 16:15:56 +08:00 1
回重了,抱歉!.NET 可以交流下,网站里有我 QQ。
|
24
swulling 2019-06-18 16:16:49 +08:00 via iPhone 1
我觉得你在做广告但是我没有证据
|
25
ddup 2019-06-18 16:20:15 +08:00 1
做垂直还是可以的,就是要垂直深度要足够深才能解决问题,
比如搜代码,如果能这样,搜 pdf,然后给出所有操作 pdf 的类库、官网、评价、并抓显示其 github 活跃度,等等。 |
26
zephyru 2019-06-18 16:21:40 +08:00 1
这完全构不成对比啊,csdn 的搜索似乎只针对它站内,你这个搜索什么网站的都有
挺好奇实现的,自己写爬虫做的这个? |
27
chaffy 2019-06-18 16:21:43 +08:00 1
是不是跟 csdb 有一腿
|
28
annoy1309 2019-06-18 16:23:13 +08:00 via Android 1
政治敏感词不屏蔽迟早喝茶
|
29
peterpei 2019-06-18 16:24:14 +08:00 via Android
goobe 是“狗 b ”的意思吗?
|
31
artandlol 2019-06-18 16:38:56 +08:00 via Android 1
必应前段时间开源了一个搜索引擎的项目,向量 xx 检索的,据说很厉害
|
32
dongxiao 2019-06-18 16:39:56 +08:00 1
搜“最好的语言”,耗时有点久啊
|
33
SingeeKing 2019-06-18 16:41:21 +08:00 3
|
34
v21an 2019-06-18 16:50:13 +08:00
这尼玛
|
35
v21an 2019-06-18 16:51:52 +08:00 1
这就是谷歌的搜索服务吧 , 然后修改前端就完了, 好像没啥代码量.也没技术含量
|
36
ylrshui 2019-06-18 16:56:26 +08:00 via iPhone 1
第二个是 CSDN 的站内搜索?
|
38
gujiaxi 2019-06-18 17:55:58 +08:00 via iPhone 1
|
39
nyfok OP @brust 我最早先抓的 csdn,现在搜索默认取十万条,如果常规词很容易是 csdn。之前我优化了 page rank,等我再做完 site rank 就能把结果打散了。
|
40
nyfok OP 基于开源 lucene 做的,只是修改了文档评分的算法,你要可以给你
|
41
nyfok OP @superalsrk 自己做的,目前总索引到 900 万了
|
43
nyfok OP @AngryPanda 前期都抓的 csdn,后来才抓别的站
|
46
Azmaveth 2019-06-18 18:07:28 +08:00
做一下敏感词屏蔽 然后尽量爬爬国外的论坛,国外的有些技术贴真不好翻,做垂直类的就要做大引擎做不到的 ,我站 B
|
47
Azmaveth 2019-06-18 18:08:36 +08:00 1
对了 已经收藏并添加快捷了,即便是广告有用的东西也会保存一下 楼上那些说广告的真无趣~~~
|
50
SteveZou 2019-06-18 19:29:43 +08:00 1
我感觉你在做广告而且我有证据
|
51
z919126592 2019-06-18 19:35:02 +08:00 via Android 1
|
52
nyfok OP 刚才连续回复过猛,被 ban 了,这会刚恢复,我先拣要紧的说,回头再一一回复。
首先感谢大家的留言意见,不管是说好的还是批评的,我都非常感谢,因为发帖问大家的目的,也是因为我担心自己太自我、太膨胀,所以多听听朋友的意见总能让我更清醒的认识自己几斤几两,帮助自己提高。 尤其感谢提心我注意安全的朋友们,谢谢你们!我昨晚已经求助万能的 v 圈了,今天有几位很好的热心人给我违禁词清单了,我今晚就加上。我一定不给国家添乱。 再解释一下做 goobe 的原因。我是做产品的,或者说产品 80%,技术 20%。搞开发更像是我的兴趣爱好,一直坚持。和很多 it 男一样,烧数码,烧显示器,烧台灯,烧 wifi 我也是一个个玩过来(感谢另一个好社区 chiphell ),唯独编程始终不离不弃,应该算是强烈兴趣吧。 最近我在研究国内技术社区,窃以为程序员最刚需的就是搜索,不管是搜教程,搜 api,还是 debug 信息还是出错信息。如果一个技术社区连个搜索都做不好,怎么服务好他的用户?搜索最核心的就是 ranking 排序,现在很多引擎普遍是基于搜索关键词词频排序,而不太在意关键词之间的距离,这就会导致搜索的准确性。譬如“ import system.wen.httpcontext ”我们搜索时肯定期望文档中这几个词都要出现,而且越靠近约好。所以,考虑到技术搜索的特殊性,我觉得和通用新闻、资讯搜索不一样,所以我试水做了一个。另外,考虑到国内不能访问 google,我觉得这个搜索能够多索引一些国外网站,对大家也会更有帮助,所以另一部分重心放在了国外技术网站抓取上。 |
53
nyfok OP 为什么只做技术搜索?我从来没觉得 baidu 差,如果你真正做公司要养活团队,要回报股东,想着盈利的时候,未必会比 baidu 好到哪儿去。说技术超越 baidu 我也不太信,国内干过搜索的公司多的去了,腾讯也干过吧,现在也还有别的大公司在干搜索吧,但为什么用户搜索主要还用 baidu,那还是有原因的,几个人的小团队能干成的机会较小,能干成的一定是天才,我很崇拜。鉴于此,单纯的技术领域搜索还好,现在的硬件资源和技术资源我还勉强花的起,而且也可以有一些小创新可以试试看,所以纯粹是玩玩看。
搜索结果是二道贩子吗?对用人家的搜索结果,外穿一身皮的事情,我个人不太有兴趣,也违背了我玩的初衷。要做,就得做一个能够区别于 baidu,google 而又有独立存在价值的产品。所以,我摈弃了常规网页搜索正文提取的方法,而是老老实实一个个网站写模板,为的就是内容中不夹杂别的内容,保证搜索结果准确性。另外,我做结构化搜索,还能够提供论坛的回帖数显示,github 的 star 数显示,为的都是增强用户体验。楼上的有位朋友说得对,得垂直的够深,有特色,这和我想到一块了。目前是因为但关键字的 rank 我做的不好,还有当我的库里没有你的搜索结果时,前面偶尔几条结果我会参考 google,过一阵子我弄完后就回去掉。 当然搜索我觉得只是一步,未来我还期望提供更多的在线小工具,譬如 ip 查询,进制转换,js 加密解码,编程语言转化,webide 等等。尤其是知识共享平台。我觉得现在不比以前信息匮乏,现在信息足够多了,就要侧重在筛选,评级和共享,重用上,未来我可能会推出类似产品。在微软呆过的人可能知道 kb 和 so,我觉得这套知识积累成电沉淀体系就很好。 最后,再次真心感谢大家,祝大家好! |
54
nyfok OP 说我做广告的人我也不反驳,我社区发了几个贴,都是意见征集为主,外带求帮助。另外,产品做了一半,总希望多听听大家意见,有价值就留着,没价值就关掉。这不就是论坛,圈子聊天沟通的意义吗,我为人人,人人为我。如果这属于广告行为,我虚心接受,并恳请 V2EX 管理员删除我的所有发帖,谢谢!
|
55
keith1126 2019-06-18 20:44:23 +08:00 2
看到楼主回复说是用 Lucene 做的,而且只自定义了文档评分的算法,坦白地说,这种程度的搜索引擎确实不够“专业”。
为什么这么评价呢,因为这种搜索引擎(从零开始,爬数据、处理数据、搭建搜索引擎、写前后端)的工作量,大概就只是一门课程的大作业级别,距离真正可用的搜索引擎还有很远。 (非嘲讽楼主,我上学期某门课的期末大作业就做了个搜索引擎,而且比这个功能掠夺,但也只能算 toy 级别的东西 |
58
keith1126 2019-06-18 20:49:35 +08:00
顺便试了试搜索,目测分词部分做得比较粗糙:比如“ jave 爬虫”有结果,但是“ jave 爬虫”无结果。
而且搜索结果的排序(或者说文档评分的算法)应该有点问题,比如搜索“周杰伦”,前排出来一大堆十多年前的结果。 |
59
keith1126 2019-06-18 20:54:20 +08:00
@keith1126 #58
中英文之间被自动加了空格...我的原意是 jave 和爬虫之间没有空格时搜索会有问题。 而且,还有一点小小的建议:例如“的”之类的词,可以作为停用词直接去除(网上应该有现成的中英文停用词表),这样可以提高搜索的准确率。 不过话说回来,这个搜索引擎的 UI 很简洁,深得我心。 |
60
nyfok OP @keith1126 收到,我回头好好查查。停用词表我有,但现在为什么这个机制我忘了,回头好好看看。刚到家先吃饭,今晚当务之急先把禁查词加上,要不然真是有问题。再次感谢老兄!
|
62
elents 2019-06-18 21:16:57 +08:00 1
狗 bi ?
|
63
SingeeKing 2019-06-18 21:26:32 +08:00 1
提个建议,(官方)开发文档尽量在前面吧,比如 https://goobe.cn/search.aspx?k=C%2b%2b+vector 其实第一的应当是 http://www.cplusplus.com/reference/vector/vector/ 或 https://en.cppreference.com/w/cpp/container/vector 或 https://zh.cppreference.com/w/cpp/container/vector
类似 https://goobe.cn/search.aspx?k=python+set 应当是 https://docs.python.org/3.7/library/stdtypes.html#set 或 https://docs.python.org/zh-cn/3.7/library/stdtypes.html#set 现在的清一色 CSDN …… |
65
nyfok OP @SingeeKing 没错,现在是有这个问题。准备单提一个小库,对官网和 api 的文档 boost 提高,期望这个月能 fix。
|
66
nyfok OP @SingeeKing 造成现在的原因是 siterank 没做,而早期抓的都是 csdn,所以当有些简单关键字搜索时,满足搜索 max doc 100000 条的时候,结果集基本是 csdn,如果放大 max doc,排序的压力又很大。这点还没想好办法。
|
67
liuzhiyong 2019-06-18 21:46:11 +08:00 1
我觉得能做搜索引擎的都是牛人,至少比我牛。
|
68
kofj 2019-06-18 21:46:30 +08:00 1
好奇楼主怎么搞到非洲的 IP 的
|
69
poisedflw 2019-06-18 21:51:00 +08:00 1
goobe,连自己都搜不出来。
|
70
runtu2019 2019-06-18 22:06:04 +08:00 1
联合搜索有点不准,挑不到重点
如果输入两个词,如果后面的词稍微有些不常见结果就差强人意了 没有好好的进行再次分词,比如搜索 xxx 内网互联,那么内网互联可以拆分 内网、互联 两个词 |
71
xiangyuecn 2019-06-18 22:07:16 +08:00 1
|
72
her999 2019-06-18 22:21:08 +08:00 1
搜索结果不错,不过 bug 和安全漏洞太多了。
|
73
honourx 2019-06-18 22:29:34 +08:00 1
不错不错
|
74
MonoLogueChi 2019-06-18 22:40:00 +08:00 via Android 1
搜索能力稍微有点弱啊,我搜 C#继承 重写 ,没有一个结果是我想要的
|
75
claymore94 2019-06-18 22:42:37 +08:00 1
搜了下 "栈和队列的使用情景" 什么也没有搜出来
|
76
nyfok OP 刚刚更新了,把输入检查功能加上了。非常感谢楼上各位朋友的谆谆教导,的确这个事情是第一优先级的。另外,还要感谢在求助帖里帮助我的 dazkarieh 和 TimePPT 两位大神。之前,我在自己的线下要了一圈也没有要到 x 词清单,是他们在第一时间帮助了我。他们在我心里是真正的大牛,很厉害,谢谢他们!
|
77
nyfok OP @airflybusoren 请问什么是“及时搜索条例”?搜索速度优化需要一定的硬件,我现在就一台云主机,2 个虚拟 cpu+4g 内存,性能的确太弱,有待加强。
|
80
nyfok OP |
81
nyfok OP @zephyru 是啊,自己写的爬虫+网页模板来做的抓取。大致做法是先写一个中心任务调度服务器,然后有一堆蜘蛛客户端联系服务器获取抓取任务,客户端完成抓取任务后提交给服务器,再获得下一个任务。基本上就是这个模型,做的复杂点就包括模板分析页面的自动下发客户端,模板页面的可视化生成等工作。cookie 模拟在抓取中也需要看看。以上是自己的一点心得。
|
82
xfcy 2019-06-19 01:06:04 +08:00 via Android 1
搜了下关键词“机器学习”,一条都没有 QAQQQQ
|
83
secondwtq 2019-06-19 01:32:10 +08:00 via iPad 1
楼主没有必要这么较真,我要是碰到这种事会这么想:除了 Google 之外,其他的搜索都是业余,你的也是
这很阿 Q,但是就我作为一个用户的使用体验而言,确实是十分无奈但又十分真实的现状 |
84
liyuanzao 2019-06-19 01:36:43 +08:00 1
其实楼主的目标就是想要重新来个搜索内容排序吧。。。。。
|
85
qq316107934 2019-06-19 01:48:16 +08:00 1
@nyfok bad case: https://goobe.cn/search.aspx?k=QAQQQ 直接服务器错误了
|
87
nyfok OP 神奇的关键字,一搜索就崩溃,还不知道什么原因,今晚太晚了,先临时屏蔽了。后面有时间再查,谢谢。
|
89
qq316107934 2019-06-19 02:28:46 +08:00
@nyfok #87 如果查出问题原因了可否同步下,多谢了,我也很好奇
|
90
nyfok OP 好的,查出了一定分享。
|
92
l00t 2019-06-19 08:35:42 +08:00 1
功能略弱啊,好像还是单词匹配的程度。但是现在的搜索引擎都走向语义化了,各种同义词近义词类似说法输入进去都能搜到想要的结果…… 这个搜索引擎距离这一步还略远。
|
94
ducklyl 2019-06-19 09:09:42 +08:00 1
数据用什么爬的?
另外搜索是用 es 还是 solr ? |
95
a67793581 2019-06-19 09:28:37 +08:00 1
你说的对
|
96
FaiChou 2019-06-19 10:07:02 +08:00 1
|
97
juju123 2019-06-19 10:28:30 +08:00 1
被说业余没毛病,核心的东西全文检索框架都给你做好了,你只是调用框架搭了套应用。分词效果、排序、近义词查询等跟专业的搜索引擎还有不少距离。
|
98
myxingkong 2019-06-19 10:39:10 +08:00 1
|
99
Felldeadbird 2019-06-19 12:41:53 +08:00 1
我也认为楼主搜索做得很业余。但是我拿不出好的方案,怎么样。? 滑稽脸。。哈哈
|
100
her999 2019-06-19 20:24:21 +08:00 1
请注意一下 XSS 和其他 bug
|