Skip to content

带特殊字符文本分词异常 #15

@chenying99

Description

@chenying99

首先,需要了解一些基本事实: 􀂄 中国的小麦依靠自给。

据香港媒体报导,嫩模Jeana(何佩瑜)四处惹是非,结果被其他𡃁模群起围攻,指她整容。

at java.util.Vector.get(Unknown Source)
at org.thunlp.thulac.cb.CBTaggingDecoder.segment(CBTaggingDecoder.java:276)

貌似是POCGraph graph对象与句子长度不一致

句子中特殊字符占据两个长度,而POCGraph graph对象少了一个长度

补充:

后面的方法 this.nGramFeature.putValues(sequence, len); 里面用到sequence.charat(i)方法,都会出问题了

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions