语言和字符编码识别
LANGUAGE & CHARACTER ENCODING IDENTIFICATION

      泰码语言和字符编码识别软件使您能够以极快的速度和准确度对任意文本的语言和字符编码进行识别。对于标记(Tokenizing)、拼写检查(Spelling Correction)、词根(Stemming)和索引(用以命名一些常用的文本处理)等应用,编码识别处理是文本预处理的第一个必要步骤。泰码解决方案目前已被众多Web搜索引擎采用。针对当前估计存在的5亿Internet文档,泰码软件识别器已经隐式、可靠地运行了10亿次以上。泰码专利技术与泰码高准确度词典和可伸缩性方法相结合,能够识别超过100种不同语言和编码对,而且几乎不会在读取时间之外增加时间成本。泰码语言识别软件覆盖了所有主要欧洲和亚洲语言,适用于现代和历史文档中出现的所有主要编码标准。原始文本或HTML、SGML和XML标记语言并不需要经过另外的预过滤处理。泰码识别技术可以轻松处理在全球计算环境中逐渐普遍的TB级数据,让您获得运行高级文本应用程序所需的能力和自信。


 
 
Back to OEM Products

©2006 Teragram Corp.