|
这两天都在学习百度分词技术,当然这个技术是百度的商业机密,我们只能靠一些前人的文章以及自己黑盒测试摸索了,摸了2天,没有什么头绪,只有一些皮毛,想到刚来战略基地我第一个学到的是创造搜索源这个思路,于是结合这两天的学习成果也来说说。
百度目前是对长度为3个字的中文词语是基本不做切分的(除某些我还未知道的因素,如专有词库之类的),比如百度一下“网白衣”,基本不会出现被拆分的情况,因此创造搜索源的时候尽量使用三个字的词语作为关键词,这样就能大大减少不希望看到的搜索结果,减少竞争。
初探这个,有太多不懂,还希望各位指教!(本文来源网络) |
|