分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。

图片1.jpg

分词作用  

    当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的分词处理,从而更精确的反馈信息到客户端。 

分词方法  

    分词技术现今非常成熟了。分为3种技术。


    A:字典匹配分词法

    1.正向最大匹配法(由左到右的方向)。例:“不知道你在说什么”这句话采用正向最大匹配法是这样分的。“不知道,你,在,说什么”。

    2.逆向最大匹配法(由右到左的方向)。例:不知道你在说什么”。逆向最大匹配法来分这段是这样分的。“不,知道,你在,说,什么”。

    3.最短路径分词法(要求切出的词数是最少的)。例:“不知道你在说什么”。最少切分法来分这段是这样分的。“不知道,你在,说什么,”。

    4.双向最大匹配法(进行由左到右、由右到左两次扫描)。就是正向最大匹配法与逆向最大匹配法的结合。


  B:词义匹配分词法

    就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟,处在测试阶段。

    C:统计匹配分词法

    通过计算词语相邻出现的概率来确定是否是一个单独的词语。所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。


X