太仓人才网 [登录] 2024年04月20日 星期六 您是第 1878143530 位访者(今天第 364760 位访问者)  目前在线 300版本更新 设为首页 | 加入收藏
太仓人才网
在太仓找工作就上阳光太仓人才网
本站获“苏州市人力资源服务知名品牌”; 太仓十大网站; 太仓人才网最新招聘信息; 太仓找工作; 太仓人才网手机版
企业:19903 职位:150984 简历:347767 | 实时动态: 今天 11:25:11:求职者[56297*] 应聘了 通快(中国)有限公司 的职位 卧加操作工[1011192] 更多
当前位置: 全站信息>> 专题栏目>> 专题报道>>正文

从小明造句看奇妙的中文分词

发布:太仓人才网   发布日期:2015-06-09  阅读次数:  

    记得有个笑话,讲老师要小明用“如果”造句,结果小明说“苹果不如果冻好吃!” 这为什么是一个笑话呢?我们从逻辑上分析一下。

    首先,造句的逻辑要求是:“编造一句话,这句话中包含指定的词”,从这个要求来看“苹果不如果冻好吃”,当中包含了“如果”,那么这个造句就是合格的,但是为什么大家觉得可笑呢?那是因为从语义的角度理解,“苹果不如果冻好吃”,当中是“不如”和“果冻”两个词拼凑出了“如果”,而全文的含义中并没有包含“如果”。

    这里就不得不引入一个叫做”分词“的概念了,分词,就是根据语义,把句子中的词汇提取出来。一个句子,按照语意的逻辑分段,从大到小应该是句读、词、字,句读是用标点符号划分的,词是字组成的语义单元,字就是单个汉字。古文中,甚至连标点都没有,唐代韩愈的《师说》中就有“句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也。”,“以字成词”是中文特有的,因此这也给中文分词带来了难度。而拼音文字就没有这个问题,比如“helloworld”我们根据单词就能提取出“hello”和“world”两个词。

    中文分词比较困难,目前还不能完美实现机器自动分词,但是并不表示无法实现,只要基于中文词库,词频,还有一些专业数据,比如某个词的专业度,常用度等,有很多专业的术语,我不记得了,这里也不展开。

    下面做一个有趣的实验,打开微软的word,输入文本“苹果不如果冻好吃”,然后你用鼠标尝试在各个汉字上双击,唉?是不是会自动选中词语?你会发现,你在“如”上双击,会选中“不如”,在“果”上双击,会选中“果冻”,不论你在哪里双击,都不会选中“如果”!这样看来,看似简简单单的一个word,居然已经引入了中文分词的概念,是不是让你对word有了重新的认识?


从小明造句看奇妙的中文分词
在“如”上双击

从小明造句看奇妙的中文分词
在“果”上双击

    然而就是这样一个word中已经有了十多年的功能,在百度里却没有。2015年,7月18日的太仓毕业生招聘会将在太仓明德高级中学举办,我一位太仓人才网的朋友让我帮他为此编辑一个百度推广,从而更好的宣传这次活动,于是我在百度推广后台编辑并提交。结果提交时提示我的内容触犯什么保护条例,资讯客服后,得知“德高”二字被品牌注册保护了。这真是让人哭笑不得,“太仓明德高级中学”,根据汉字分词,应该是:“太仓,明德,高级中学”,语义上是没有包含“德高”二字的。使用简单的字符串比对来过滤是最简单粗暴的做法!

    我还是很怀念谷歌的。而一个公司,一个产品,靠各种关系,依托“官方”来打压竞争者坐上头把交椅的,没有居安思危的意识,怎么可能希望他可以进步呢?
 

阳光浪子
2015年6月9日


以上信息或来自于互联网,若有侵权,请及时联系本站管理人员! 阳光客服 1987127758

太仓人才网公众号

太仓人才网客服MM

太仓人才网 太仓人才网WAP 苏州市人力资源服务业知名品牌 关于我们 网页制作/数据库:阳光技术小组 QQ阳光客服 版权所有:太仓市瑞福尔人力资源服务有限公司
ICP许可证:苏B2-20190061;苏ICP备10224897号-1;软著登字第0395877号; 营业执照;人力资源

本页更新时间:2024-04-20 11:26:06 []