欧洲和阿拉伯语言学软件包
EUROPEAN AND ARABIC LINGUISTIC SUITETM

      泰码为包括北欧和东欧语言在内的所有主要的欧洲语言提供语言学、信息提取、知识管理和文本处理的技术。在语言技术、模式匹配、语言检索、搜索与电子商务国际词典、文件管理以及高级Internet应用和服务等技术领域,泰码公司已成为领先的技术和服务提供者。


 
 
Back to OEM Products

产品

形态词根 (Morphological Stemming )
拼写检查 (Spelling Correction )
词性标记 (Part of Speech Tagging )
文本格式化 (Text Normalization )
词句表征 (Word and Sentence Tokenizer )
语音转换 (Phonetic Transcription )
名词短语提取 (Noun Phrase Extraction )



客户/服务器API
Perl支持
Java支持

相关产品

语言和字符编码识别 (Language & Character Encoding Identification)
分类器 (Categorizer)
相关查询 (Related Queries)
自然语言查询 (Natural Language Queries)
国际词典 (International Dictionaries)
语言模式匹配 (Linguistic Pattern Match)


形态词根(Morphological Stemming)

      形态词根 能够识别变形和变化后的单词的所有可能的根形式。词根不仅仅是低级软件的工作对象,它真实地存在于语言当中,对于文本中真实意义的提取至关重要。举例来说,泰码形态词根会为输入单词children 产生child,为hung产生hang,为geese产生goose

      泰码形态词根采用经过精心设计的多语种词典,通过高级数据收集技术对TB级的真实数据进行处理,词典每季度更新一次,以反映最近的单词使用情况。这样保证了所有的泰码解决方案都能够正确处理随着新技术层出不穷的新词汇及新用法,正如我们在互联网技术上看到的那样。

      形态词根技术可用于大多数欧洲语言。

      派生词根 识别变化的单词的派生根的形式。与形态词根相似,这种技术的强大在于它将分类与文档的文本意义相关联。对每一种可用语言,泰码派生词根在语言学上都是正确而健壮的,从而使得应用程序能够获得用户意图的正确映射。例如,对于输入单词incorporationincorporating,软件将会输出 incorporate

      泰码形态生成是形态分析的反向处理,它根据形态特性为单词生成变化形式。例如,软件会对输入plural of the noun child 输出 children



Back to top
拼写检查(Spelling Correction)

      TeraSpell™是泰码核心的拼写检查解决方案。TeraSpell TM 为用户提供当前市场上最先进的拼写检查系统,刷新了拼写检查软件的质量标准。

      TeraSpell™提供高级单词检验和拼写检查功能, 包括印刷错误(插入、删除、替换和任意数目字符的换位)和认知错误的纠正,以及大写字母开头、多义词、缩约词、首写字母缩写词、重音、公司名称、带连字符的单词以及缩写词错误的纠正。

      另外,TeraSpell™利用每种语言独特的发音规则和特例,允许用户通过单词语音来输入单词。语音输入单词的功能对于那些拼写复杂的单词至关重要。传统技术难以理解用户的意图,特别是在国际语言环境下。TeraSpell™功能强大的语音特性可以将不同背景的作者置于更加公平的基础之上,使他们将注意力集中于内容上。举例来说,在实际运作中TeraSpell™可以将azmatik更改为asthmatic, 将offtalmologist 更改为ophthalmologist

      通过为每一个误拼单词提供最短和最准确的拼写选择列表,TeraSpell™可迅速提升用户的生产效率。列表中的选项按照相似性由大到小排列,最可能的修正项往往排在候选者列表的顶部。

      在现有的各种拼写程序中,TeraSpell™拥有最好的单词覆盖率。其他的拼写程序依赖由纸质词典构建的单词列表,这些纸质词典往往每十年修订一次。而TeraSpell™的词典则是利用高级检索方法在TB级的真实数据动态生成,可以实现每季度的彻底更新。一个单词在媒体中出现后不久(比如,一个叫Chechnya,或Chechnia的地名),泰码就已经将它正确地并入到自身的智能单词列表。目前世界上还没有其他的系统能够提供在语言学上如此先进并且实时的单词覆盖。而且,通过采用专门的压缩技术,TeraSpell™的规模并不会以空间需求作为代价。

      总而言之,TeraSpell™应用前沿语言技术来提升作者的生产率,可使用户将注意力集中在信息而不是形式上。

泰码查询拼写器(Teragram Query Speller)现在已被众多主流Internet搜索引擎和电子商务网站采用,以修正搜索请求。在MSN.com, Yahoo! WhitePages 或者 Yahoo! Shopping输入您的查询请求,即可体验泰码查询拼写器的运行效果。

      TeraSpell™和泰码查询拼写器可被原始设备制造者(original equipment manufacturers (OEMs))和应用程序开发者采用。它作为带有完整应用程序接口的软件开发工具向用户提供,可在包括Windows、Macintosh和UNIX的多种平台上使用。除提供专利使用权转让之外,泰码还为泰码产品提供技术支持服务。泰码专业人员能够根据用户特殊的拼写检查需求和平台要求为用户提供定制的解决方案。



Back to top
Online Demo
词性标记(Part of Speech Tagging)

       泰码词性标记根据上下文语境具体判断单词词性,并消除歧义。对于希望获取用户准确意图的文本应用程序,准确的词性标记是非常重要的。例如,多义词left在以下的各句中的意思是不同的。

  1. He turned left at the light.
  2. Yesterday he left work early.
  3. Please sit on my left.

      词性标记需要根据上下文语境为每一个单词区分不同的语法分类。例如,在第一句话中,left是一个副词,在第二句话中是一个动词,而在第三句话中则是一个名词。

由于每一个泰码词性标记器都建立在深刻而有效的语法模型之上,这种模型涵盖了每种特定语言的规则和规范,因而保证了所得到标记的准确、快速和简单。




Back to top
文本标准化(Text Normalization)

       泰码文本标准化建立在针对多种语言的泰码拼写检查之上。它对文本形式中的可预期变化进行标准化,使应用程序更加有序而准确地处理文本数据源信息。比如,这种功能被成功地应用于文本索引,使标准拼写变化标记于统一的概念之下。此外,泰码文本标准化可以识别存在于每种语言中诸如日期、货币金额和公司名谓这些复杂的语言变化。例如,在英语中the third of February February 3rd2/3都被标准化为同一个分类。在现代信息处理中,这种处理是非常必要的。



Back to top
单词和语句标记器(Word and Sentence Tokenizer)

      泰码单词标记器由文本中分离出标点符号,用于之后的文本处理。泰码语句标记器在单词标记器之上进行构建,它将文本流分割成语句流。 这种处理要求复杂的技术,例如在英语当中,句号可以是表示句子结束的标志,而同时它也可以是缩略语和省略号中的一个字符。一个好的标记器可以生成(or break)复杂的文本处理应用程序,而泰码单词和语句标记器是极为优秀的。



Back to top
语音转换(Phonetic Transcription)

      语音转换由单词语音转换组成。泰码语音转换可用于多种语言。



Back to top
客户/服务器 API

      所有的泰码软件和工具被设计为可以支持客户-服务器应用程序。 而泰码词典更是被设计为可以应用于多线程环境。



Back to top
Java 支持

      泰码工具可以方便地与Java应用程序相结合。



Back to top
Perl 支持

      泰码的许多工具都可以作为Perl语言包的形式提供。这种机制可以方便的将语言功能与Web服务器相结合,并且保证了开发者具有极大的灵活性与易用性。



Back to top

©2006 Teragram Corp.