![]() |
|||
![]() |
|||

亚洲语言软件包
|
|
||||||
产品字符编码映射(Character Encoding Mapping)形态词根(Morphological Stemming) 形态切分(Morphological Segmentation) 中文 日文 韩文 |
|||||||
相关产品语言和字符编码识别(Language and Character Encoding Identification) |
|||||||
概述泰码为复杂的亚洲文本处理提供了一套完整的亚洲语言工具和函数库。对于像中文、日文、韩文这样的亚洲语言,基本的处理任务包括字符编码识别和映射、单词标记以及形态词根识别。亚洲语言当中没有单独的字符编码存在,增加了亚洲语言的复杂程度。比如,日文中字符的数量远远超过了单字节所能表示的256个的范围。因此,任何日文编码系统(如EUC, shift-JIS, Unicode等)都使用至少两个字节表示一个字符的编码方式。 泰码也提供了将文本切分成单词序列而不是字符序列的工具。这种功能是对中文、日文和韩文进行智能文本处理的第一步,是一种极其关键的功能。除提供单词序列信息之外,泰码切词工具还可以将词性信息与每一个单词关联,进一步提高亚洲语言文本分类的复杂任务处理的速度。 泰码针对以下亚洲语言文本处理面临的挑战提供解决方案: 第一,目前亚洲字符的文本表示存在众多的编码标准。通常,这些标准需要显式地标识它们。而泰码语言和字符编码识别能够自动地识别文本中使用的语言和编码。 第二,在文本处理过程中,将所有的文件映射和统一为相同的编码是非常重要的。泰码字符映射软件使您能够在任意两种编码之间转换,并且可以将文本转换成可移植、具有伸缩性的统一码(Unicode)表示。 第三,亚洲语言文本书写中很少或根本不使用单词分隔符。中文和日文文本中没有任何空格分隔符,而韩文中只存在有限的空格分隔符。因此,任何信息处理系统的第一项任务就是将原始文本切分成单词的序列(这个处理过程被称为单词切分)。这项任务可以使用泰码单词切分软件很好地完成。 最后,亚洲语言文本处理中面临的另一个挑战是在信息检索中使用的形态分析。在英语中,将一个像"children"这样的单词与它的词根"child"相连,显然是非常必要的。而在像中文、日文和韩文这样的语言中形态的重要性更加突出。事实上,亚洲文本书写中很少或根本不使用单词分隔符。将原始文本切分成单词序列的任务与形态分析过程密切相关。比如,将一个给定字符序列识别为一个单词通常意味着该单词也已经被识别出具体的词性(如动词、名词等)。 |
|||||||
字符编码映射(Character Encoding Mapping)泰码公司为日益复杂的大量字符编码(包括单字节和多字节编码) 的识别、处理和转换提供解决方案。具体而言,泰码可以将使用UTF8,UCS-2,UCS-4或其它编码标准的文本映射为统一码(Unicode)并进行处理。泰码字符映射工具包可以处理超过200种语言字符编码(包括Unicode, UTF8, UCS-2, UCS4, Shift-JIS, JIS, EUC, GB, extended GB, big5, KSC, EBCDIC, Iso, Microsoft Code Page, IBM, Cyrillic, Latin-1, MacOS 在内),同时也可以进行任意编码之间的映射。泰码字符编码API可充分满足速度、简单性和准确性三个方面的要求。 第一,速度的需求是显而易见的。泰码提供广泛而快速的字符映射功能。 第二,泰码充分考虑简单性需求,提供5个不同函数用以完成各种字符编码映射。 其中两个函数用于加载和释放数据,一个函数用于将编码映射到Unicode编码,第四个函数将Unicode编码映射到其它的编码形式,而最后一个函数在任意两种编码之间进行转换。 第三个要求是编码的准确性。这种API中的暂时编码采用统一码的UCS-2形式表示。 另外,泰码还为统一码标准提供大范围的字符串处理工具。 |
|
||||||
形态词根与切分(Morphological Stemming and Segmentation)泰码为中文、日文和韩文提供无比准确和高速的语言切词及词根软件。形态在如中文、日文和韩文这样的亚洲语言中是极为重要的。事实上,中文和日文文本中没有任何空格分隔符,而韩文中存在有限的空格分隔符。因此,任何信息处理系统的第一项任务就是将原始文本切分成单词的序列(这个处理过程被称为单词切分)。将输入文本切分成单词序列与形态分析过程密切相关。比如,将一个给定字符序列识别为一个单词通常意味着该单词也已经被识别出具体的词性(如动词、名词等)。 |
|
||||||
中文中文信息检索中进行形态分析的一个基本困难在于中文不使用空格来标识单词界限。因此,信息处理系统必须具有以下关键功能:首先将原始中文文本切分成单词或短语序列--这样的处理过程被称为单词切分;随后,识别出这个单词或短语的词性,比如,名词或名词短语、动词或动词短语、形容词或形容词短语等等。将中文文本切分成单词是极为困难的。许多字符由它们自身构成单字符单词,但是这些字符与其它字符连用时,也可以组成多字符单词。中文单词长度不一,并且相同的字符可能出现在许多不同的单词中。 下面举例说明中文切分的复杂性。首先,考虑下面的例子: 一心一意 它是由四个字符组成的单词,也称为“成语”。字符“一”在该单词中出现两次。而字符“一”在中文里同时也是一个单字符数词。第二个例子如下所示: 中华人民共和国 这是由七个字符组成的单词。在其它的上下文中,“中华”、“人民”和“共和国”也同样是多字符单词,可以与其他单词相结合组成复合词。 泰码中文切分软件使用各种类别的超大型词典,能够准确、有效地解决中文文本切分问题。除常用单词之外,这些词典还包括了复合词、成语、公司名称、人名、产品名在内的其他种类的项目。 |
|
||||||
日文日文,不使用空格标识单词边界。同中文一样,字符可以组成单字符单词,还可以与其他字符结合组成多字符单词。日文的这种特性使得单词切分处理非常困难但却至关重要。例如,下面的输入语句:
约翰买了一本书。Jon(John) ga(subject-marker) hon(book) wo(object) katta(bought). 这个句子由六个单词组成。在这些单词中,单词"katta"被识别为一个独立的部分,同时也被识别为"kau" (购买)的过去时。单词切分和词根软件程序,与函数库和它的API一起,使开发者能够将输入语句切分成单词序列,每一个单词与词性和可能的形态特性相关。 |
|
||||||
韩文与中文和日文一样,韩文对于语言分析来说,同样属于最复杂的语言。事实上,许多对于像英语这样的语言只会出现在句法层次上的问题,经常会出现在韩文的词法当中。在英语中,一个单词可以采取五种形式(动词的五种形态),名词较为简单(只有单数和复数),而其他的都不会有变化。这就意味着英语词法对每一个范例(根形式)只包含较少数量的单词。 然而,在韩文中,一个动词或名词,比如,可以分析如下:
例如,must have seen ---> 由于韩文内在的复杂性,形态分析(词根)既困难又重要。这种困难在于,没有一种方法可以处理包含任何段(这等价于列出英语中所有的名词组合)的任何字典。而同时它也是非常重要的,这是因为找到一个名词所有出现的可能情况也意味着同时地分析出包含这个单词的所有名词组合。 泰码特有的超大型词典组合以及词法句法以卓越的准确度和速度解决了韩文形态和单词切分问题。泰码韩文字典和语法包含数千万实体,而且它们都为快速处理进行了优化。 |
|
||||||
©2006 Teragram Corp.