字:
关灯 护眼
小说巴士 / 我,通用人工智能之父 / 第七章 千里之行,始于足下 2 .

第七章 千里之行,始于足下 2 .

章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。

  上说到,我在图数库中,导入了新华字典所有内。接下来,就要能够理解一话,或者一个故事的内。
  对于AI来说,导入了字只是能解释个字,但中文语法中,往往有很多词语是两个字的词,四个字的成语,甚至很多个字的歇后语等。比如秦王摸电门——嬴麻了。这些AI只能一个字一个字的解读出来,往往意就变得奇怪。
  举个子,秦王,就会拆成“秦”:中国代诸侯国,在陕和甘肃一带。和“王”:古代一国君主的称号,现代有些国家仍用这种称号。而正的解释应该是“秦王”:秦王一是战国时秦国的君主。比如秦惠文王、秦武王,秦昭襄王、秦孝文王、秦庄襄王、秦王政等。
  那么问题就很晰了:应该学会分词——把词语一个个分出来。其实,只是中文有这个问题,因为英文都是个词和个词用格隔开的,他们可以扫描格就断开个词。但是中文不行,中文个词和个词中间是连在一起的,是靠我们的大脑进行断词的。所以,中文的语义理解往往为困难,因为首就要分词。
  那么,有没有现成的分词轮子或工呢?答案是肯定的。这种工其实很多,但由于术理论的迟滞,往往有时候效果不是很好,但是勉能用。比如大的
  Pkuseg分词项目,Hanlp分词等,都是可以免费使用的,开源的项目。于是我选择了Hanlp分词项目,因为这个项目的功能比大那个多一些,比如词性标注,实体识等等的功能。
  词性标注,顾义就是把个词是动词,词还是形词等等的标注出来,方进行其他的操作等。
  那么开始吧!
  我导入了Hanlp的分词系统,成功把一句话分成了词语的组合。举个子:“小猫吃大鱼”这句话,分成了“小猫”,“吃”,“大鱼”三个部分。分去理解三个词的意。而不是一个字一个字地分析。。
  “我棒!”我拍了拍自己的小脸蛋,鼓励了一下自己,寸进有寸进的喜悦呀。
  这一章就到这里啦。本来想尝试一下一章留一个问题悬念的,但是觉得这是术可能略显枯燥,如果章留一个问题,就会让人觉怎么长路漫漫无止境,可能会失去心。就结束的尝试吧。如果效果不好,后面来就是了。
热门推荐