查看: 1147|回复: 0

百度切词算法

[复制链接]
发表于 2009-6-4 02:04:29 | 显示全部楼层 |阅读模式
百度切词算法,和大家看到的以前所看到的切词算法在本质上有比较大的区别,我主推的百度切词算法来自于“用户搜索”,而不是简单的程序计算。<br /><br />百度切词第一条规则:最高级别专用词汇。如“中国”、“国务院”等,作为最高级别不允许分割。这样防止出现别人利用程序切词搞非法内容。<br /><br />百度切词第二条规则:完全匹配,大家可以搜索“钢木室内门”就可以看到,排前面的全是title或者描述中完全匹配,紧跟着的是切词匹配的网站。<br /><br />百度切词第三条规则:基于搜索查询量的切词技术,根据最近一个星期或者最近一天有效搜索量的总和,来给每个关键词加权,权重高的优先切词。这应该就是百度切词技术中最厉害的一点,这样可以保证大部分请求都可以正确的返回用户想要的结果,比任何程序判断更准确,同时也符合用户体验。<br /><br />百度切词第四条规则:基于词典的普通词汇分词技术,实在没有什么搜索量的词,用词典分词来实现。这个大家说过很多次了我就不多讲了。<br /><br /><br /><blockquote class="blockquote">From: http://12host.cn/read.php?tid=170  Powered by PHPWind.com</blockquote>
回复

使用道具 举报

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.

在本版发帖
关注公众号
QQ客服返回顶部