ICUTokenizerConfig (Lucene 4.7.2 API)

Overview

Package

Class

Use

Tree

Deprecated

Help

PREV CLASS NEXT CLASS

FRAMES NO FRAMES

SUMMARY: NESTED | FIELD | CONSTR | METHOD

DETAIL: FIELD | CONSTR | METHOD

org.apache.lucene.analysis.icu.segmentation
Class ICUTokenizerConfig

java.lang.Object
  org.apache.lucene.analysis.icu.segmentation.ICUTokenizerConfig

Class that allows for tailored Unicode Text Segmentation on a per-writing system basis.

WARNING: This API is experimental and might change in incompatible ways in the next release.

Constructor Summary
`ICUTokenizerConfig()` Sole constructor.

Method Summary
`abstract boolean`	`combineCJ()` true if Han, Hiragana, and Katakana scripts should all be returned as Japanese
`abstract com.ibm.icu.text.BreakIterator`	`getBreakIterator(int script)` Return a breakiterator capable of processing a given script.
`abstract String`	`getType(int script, int ruleStatus)` Return a token type value for a given script and BreakIterator rule status.

Methods inherited from class java.lang.Object
`clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait`

Constructor Detail

public ICUTokenizerConfig()

Sole constructor. (For invocation by subclass constructors, typically implicit.)

Method Detail

public abstract com.ibm.icu.text.BreakIterator getBreakIterator(int script)

Return a breakiterator capable of processing a given script.

public abstract String getType(int script,
                               int ruleStatus)

Return a token type value for a given script and BreakIterator rule status.

public abstract boolean combineCJ()

true if Han, Hiragana, and Katakana scripts should all be returned as Japanese