“懒人”的做法——用PHP简易实现中文分词

nicesamwong

nicesamwong

2016-01-29 13:23

“懒人”的做法——用PHP简易实现中文分词,“懒人”的做法——用PHP简易实现中文分词

作者: Maco 

 

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/php/)

hehe, 用javascript:;">PHP去做中文分词并不是一个太明智的举动, :p

下面是我根据网上找的一个字典档, 简易实现的一个分词程序.

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/php/)

(注: 字典档是gdbm格式, key是词 value是词频, 约4万个常用词)

完整的程序演示及下载请参见: http://root.twomice.net/my_php4/dict/chinese_segment.php

<?php
//中文分词系统简易实现办法
//切句单位:凡是ascii值<128的字符
//常见双字节符号:《》,。、?“”;:!¥…… %$#@^&*()[]{}|\/"'
//可以考虑加入超常见中文字: 的 和 是 不 了 啊 (不过有特殊字比如 "打的" "郑和" .. :p)

//计算时间
function getmicrotime(){
    list($usec, $sec) = explode(" ",microtime());
    return ((float)$usec + (float)$sec);
}
$time_start = getmicrotime();


//词典类
class ch_dictionary {
    var $_id;

    function ch_dictionary($fname = "") {
        if ($fname != "") {
            $this-load($fname);
        }
    }

    // 根据文件名载入字典 (gdbm数据档案)
    function load($fname) {
        $this-_id = dba_popen($fname, "r", "gdbm");
        if (!$this-_id) {
            echo "failed to open the dictionary.($fname)<brn";
            exit;
        }
    }

    // 根据词语返回频率, 不存在返回-1
    function find($word) {
        $freq = dba_fetch($word, $this-_id);
        if (is_bool($freq)) $freq = -1;
        return $freq;
    }
}

// 分词类: (逆向)
// 先将输入的字串正向切成句子, 然后一句一句的分词, 返回由词组成的数组.
class ch_word_split {
    var $_mb_mark_list;    // 常见切分句子的全角标点
    var $_word_maxlen;    // 单个词最大可能长度(汉字字数)
    var $_dic;        // 词典...
    var $_ignore_mark;    // true or false
   
    function ch_word_split () {
        $this-_mb_mark_list = array(","," ","。","!","?",":","……","、","“","”","《","》","(",")");
        $this-_word_maxlen  = 12;    // 12个汉字
        $this-_dic = NULL;
        $this-_ignore_mark = true;
    }

    // 设定字典
    function set_dic($fname) {
        $this-_dic = new ch_dictionary($fname);
    }

    function set_ignore_mark($set) {
        if (is_bool($set)) $this-_ignore_mark = $set;
    }

    // 将字串切成句子再加以切分成词
    function string_split($str, $func = "") {       
        $ret = array();
       
        if ($func ==

展开更多 50%)
分享

猜你喜欢

“懒人”的做法——用PHP简易实现中文分词

PHP
“懒人”的做法——用PHP简易实现中文分词

用localeCompare实现中文排序

Web开发
用localeCompare实现中文排序

s8lol主宰符文怎么配

英雄联盟 网络游戏
s8lol主宰符文怎么配

用PHP实现文件上传

Web开发
用PHP实现文件上传

用php实现soap通讯

PHP
用php实现soap通讯

lol偷钱流符文搭配推荐

英雄联盟 网络游戏
lol偷钱流符文搭配推荐

用php实现广告轮播

PHP
用php实现广告轮播

用PHP实现XML备份

PHP
用PHP实现XML备份

lolAD刺客新符文搭配推荐

英雄联盟
lolAD刺客新符文搭配推荐

Flash MX2004入门与进阶实例——绘图基础(4)

Flash MX2004入门与进阶实例——绘图基础(4)

常见PHP页面漏洞分析及相关问题解决

常见PHP页面漏洞分析及相关问题解决
下拉加载更多内容 ↓