淺談百度搜索引擎的中文分詞技術(shù) |
發(fā)布時(shí)間: 2012/9/17 11:47:41 |
本篇文章淺析一下百度的中文分詞技術(shù),有不足之處還望各位有心人能指出,當(dāng)然,也希望可以幫助站長(zhǎng)們更深層的理解搜索引擎分詞技術(shù),做好自己的網(wǎng)站,獲得更好的排名。
一、搜索引擎中文分詞技術(shù)
搜索引擎中文分詞技術(shù)簡(jiǎn)單來說,就是把中文的漢字序列切分成有意義的詞組。
二、搜索引擎分詞技術(shù)簡(jiǎn)述
1.基于字符串匹配的分詞方法
按照一定的策略將待分析的漢字串與一個(gè)極其詞庫中的詞條進(jìn)行匹配。
常用分詞的方法:
正向最大匹配法(由左到右的方向)
分詞測(cè)試?yán)樱何?有意/見/分歧
反向最大匹配法(由右到左的方向)
分詞測(cè)試?yán)樱何?有/意見/分歧
據(jù)大量測(cè)試數(shù)據(jù)統(tǒng)計(jì)結(jié)果表明:?jiǎn)渭兪褂谜蜃畲笃ヅ涞腻e(cuò)誤率為1/169,單純使用反
向最大匹配的錯(cuò)誤率為1/245。逆向匹配的切分精度略高于正向匹配。
2.基于統(tǒng)計(jì)的分詞方法
相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。用于系統(tǒng)自動(dòng)識(shí)別新詞。
3.基于理解的分詞方法
在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧異現(xiàn)象。
三、百度搜索引擎分詞技術(shù)分析
1.最大分詞詞長(zhǎng)
分詞技術(shù)歸納:少于等于3個(gè)中文字不切割
分詞技術(shù)歸納:對(duì)于大于等于4個(gè)漢字的詞將被分詞
2.分詞匹配算法
分詞測(cè)試查詢:查詢:“工地方向?qū)?rdquo;
正向最大匹配:工地/方向/導(dǎo)
反響最大匹配:工/地方/向?qū)?/div>
百度采用 正向最大匹配算法
分詞技術(shù)歸納:首先用專用詞典采用最大正向匹配分詞,切出部分結(jié)果;剩余沒有切分交給普通詞典,同樣采取正向最大匹配分詞。
關(guān)于搜索引擎分詞技術(shù),這次就淺析到這。但是搜索引擎的分詞技術(shù)遠(yuǎn)遠(yuǎn)不止這些,分詞中的一些難題,如歧義識(shí)別、新詞識(shí)別、拼寫檢查錯(cuò)誤提示、拼音提示功能、相關(guān)搜索提示等深一些請(qǐng)關(guān)注我們北京seo的網(wǎng)站,隨時(shí)會(huì)有新的知識(shí)讓大家吸收。
本文出自:億恩科技【prubsntakaful.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |