'more generic lucene-morfologik integration'

[prev in list] [next in list] [prev in thread] [next in thread] 

List:       solr-dev
Subject:    more generic lucene-morfologik integration
From:       Michal Hlavac <hlavki () hlavki ! eu>
Date:       2013-12-03 12:07:28
Message-ID: 2559310.0YUvc6vo1E () hlavki
[Download RAW message or body]

Hi,

I have little proposal for morfologik lucene module. Current module is tightly coupled with \
polish DICTIONARY enumeration. But other people (like me) can build own dictionaries to FSA and \
use it with lucene.  You can find proposal in attachment and also example usage in analyzer \
(SlovakLemmaAnalyzer). It uses dictionary property as String resource from classpath, not \
enumeration. One change is, that dictionary variable must be set in MofologikFilterFactory (no \
default value).

thanks, m.


["morfologik.zip" (morfologik.zip)]

PK
¹„dCmorfologik/UT	N¿wRØíwRuxèdPKœdC-Óùï4$morfologik/MorfologikLemmatizer.javaUT	ZèwR×íwRuxèdUßOÛ0~¯ÔÿáÄSÚ
 —½ÒR!!uCZ'íÙI®©cg¶CÇPÿ÷4IC`<Ìâ¡Øßýúî»KÎ“ß h³a<çÉ™,TÈ¸âòÉ
Ë$fg™6k-õFì¦ÃÁp ²\ü‘³ \
É®áOKaÝôµGÛ÷rçÐp§MßÛ©·&f¥$Ô†ÝˆÄ	¸yz/n©õ®ÈßFßü/4o£~j“ÞpÇ“ñx8€1\CZ‡:¹ÅléÖÚ€äjSÝ~l…Ÿþ*„A\Áíêú<ÑY.$Ù6ÎÀiˆrB¡r \
T—HnmÎÝ–\X]˜-óáqÏïãLœ½ç<pƒ ´£+ƒœäkd³I<¯-ñ]<zôd8È‹XŠÖ‚$SÅøZ[/½|œøCu›$&Êß \
‘ãKœ	Ã³§è”´ú3†&6ÈR”¸áÙ3)äF<Òu•WÑ¬›ø¼6†+P¸‡Z¾/¡ÑhÚ—Oè`¢•u¦HHÁ@ÿ \
%œà’ŠMa/¨-âBHw.T»—^s!íc åD†€¿Ì=„oÖ±Z¶Å÷Ž†DHO[]|
^äÜð¬eÓ¥§ìV_‡¢•3Ôç–íÈ7ªSÎÓ4ò¬u¹Šš¶Aw«Í²R|Ôr9ò„z‡>^ŸBmÑw£“ÃkÅíI+ÍAWÕ)sqÿˆÆˆOª-n”V*)ú¼åfECˆ*Áàû¤ljFT—n‰§hWWðéäO™GCQ]ŒX$ø6@i±ë£“ \
mÌzRNO‘~¡DÝgã²ÎâE–•mp[¢_Ë°M@°8V?‡‹ÑK˜?1”]ÇÅ¡—¥à°MÇš(¿´ \
5õ¸”í‰(k±4‚4u4h®µZ»«¡_ÇP‹wQ]EÿU	×ê€–³Þ‡Õô½Ü_ŽË!:û¦«üüª”ø/†.ÔÉ×&³—pÖß¥å¾³Ìérâ›ªœOQ3¥§Í¡¿ \
¿PK¹„dCôheÄÆ0morfologik/MorphosyntacticTagsAttributeImpl.javaUT	M¿wR×íwRux \
èdVMsÚH½ó+z9	±q’5qìZjØ²È¦|DKL<ÌhgFÖÅßîÑrÌâ¸\.4L¿î~ý^Ë£œŸCz¾N¦ç&Ëú·pÉ§½B¤"G06=¬0VeŠc¡…Ú9éb…ëµˆ×ÆfF™\>^õz£³œÁgI.Áð+„qˆ‡Äd~+, \
)õRxi4DãänôˆŒæt@€È(©ÑÞÊEééLUˆ r‹¸Fí] øél>¹¹…L*„¥tUeßJ¿b \
¿’¶Æ>BFPb¹”œZ(šÖU!sa—Rç”·ØY™¯<˜FëV²ˆfÎ$wM-®  Y©ÏSÖmt:®‰ \
ß„ÃY.ã7ñ~ýmp;Š^‹hã¡tØÆ)žJ¥ºÖ…’B§Øé¬ÍA|<Ô fáÝ¡0Y÷OË?+ï‹·£Ñv»mfLã5 \
Ž>Óäö¼ªšƒ¾j…ÎYÿ”ÒÅ‹ˆ‚ªJÅ‚jUbËC Ã§*¶–ØÖù\=}†éNé@ZS"µÞ½@´	
ýq“¤ÇÉ$2È·ÉüÙ×9|ßß§óÉm³{¸™M?Mæ“Ù”žî`<}€?'ÓOC@¢Œòà rT¦d:qfÛH©)… \
Ï®ÀTf2¥Öt^²r³A«Y'Úµt<VG.FÉµôAOîe_œhÔëQZc=|—^ªøìª=|i¶pcìk2&TrpYÆc‹•q;íEê©F¡I>uvnÀ•6ihfíB›×Žúü)l.r×&%å‚&
 ©DÔ©Û\1êQ/<?íAà·òêI!Ü(r~Ð…Ñ/õMºJþÛM4AýäðÃõÔ¿Vk4€§}›‚þ%cšóì’ P#œ“a#,yÍ»V
ii-}O²~D‡àÚÊð<dçß%”LçK©höB4®N¶{ô¥Õ.þ5KB¦Ú žäÃ$»@³º&Ò• ™’óVÀ0|WJª’—e \
:")Òèx—>]+©áYQ{7€¦‚—ŒôŒ©sb8PZ¡!ÉòoCAlb±1’mª1%ç»ƒ5ÒŽ&ç+eÒJo>®gä+—xË1jrô<ž‡ÒFabjÆö½ãP¡”T¡°mdPÁ{Ð¥R§"ÆP˜âO(Íß1¥±óRhdQ8 \
½å</Z¢þ”¦šÀ¶üñ´â¶Á!DÑiªˆCÄà* \
î»ÄdT4¶ý5¢{ÖTÓ“ºBóñò'~Õ¼¯¸‚ß!R—ÍÓÞÒãE\³CqƒSdJòÁJ¸ÕYâ‹r÷ÕPÚLožâCPßz#A_ƒÐiÅV>äwM†–%ßü7‘Ë \
êàÚ8¼“é×fpá%JîàÝ§tÄäjÖÿÏ¿Ìmý¢JÉŸs=_‹^Xsƒy,g°î²#èJ—!óoÍ°Ù.“_ÇÖŠÝÈ;Ú¤´ \
lµèÙ=XÔC:À7	búŸ)âÏ¢ÅnßQìkr¯9ˆæ«'õöêK(`´Jüµë o¯¿5®
¨§Ú©¹~uVµÞ1G©$%WŽ¿Žmúïê·Ü‡~c Cd•hßûPK¹„dCrØ{SüF \
morfologik/MorfologikFilter.javaUT	M¿wR×íwRuxèd¥YmoÛ8þî_1Í{rbËipÀuÔ›6Xc}É"v¯(÷–h›YÔ’T\ßnþûÍ”LË²Û½Š$¤æýåáP \
Þ‡¤?gZ$}¹XhnÞÁív –<³%©–1ÃÅŠÇY™ðœÇ,gÙVg|½fñZª…ÌäR<;ÁyÎa"PóŒ³â0²ü0•³aŠÃ½,ó”!sˆFÓû.à’+ \
9©ÈIJ"s£Ä¼4¸—9‰À–Šó5ÏŽ¦œ[ñ³ñÝGXˆŒC*´cBíaV$È¬„†TÏ°@Q,M©fˆ7ÖÎÅ—L¥"_¢Þb«Äre@nr®ôJ1‰™‘'ÓûÊíäZèçYz7} \
zðO”CZ®âKÍ™{Ö ¹×l¹4Pjˆæ_^4íZ™`y Ïj/^ˆœ†ôÌzr’3ÈH¼ô¬Œ)Þ \
›Í¦Ê1¦{P98˜`X¦ûÎjbú”g\kÖo¥PâùXV%lŽ¶flC	´I²ÉG+6 £/{ \
}öIL˜¥]Ð*ÑõÃÆr8Ma<=ƒGÓñ´GB>g?=~šÁçÑÓÓèa6þ8…Ç'¸{|ø0žpu£‡/ðóøáC8†õð¯…"ÐLAáä©ÍmUJ•	T(´ÖOÄB$èZ¾,©–ò…«œê¤àj-4¥U£)‰ÉÄZ[OúÐ/R4è \
V©üÊ^X,d<~ühŒ,Ã½w¥Y|Ž-å7wmkƒ‡„¯O´éL>óü^d†«á÷’Oâlý=ä†È™ñÙÒñÝŠ©FfTmý/B~æ[ì×ôÿ’ñ‹Ô¶ÏÇy¢,dü) \
i6üäK0nŸp¥O°ÕÉœÛ6ùý}&òg"ÿŠmMEó:X,sÅÔ6öµ{ã8,þacqUò¤XI½ÅýÄˆdÆ–ºvêµ›•HVP(ù"R„§õ>5é`9Œ¯O*q¤MÑƒ,”#¦V}˜™Ê¤¤ð9˜$®”£]™®¯‘éšÁJñÅÍ™‡” \
\çøKÒÄ`ƒ³Û@4ªÿ•' l¬ë»µ
R”sÄH2†mzþÕð<Õahá÷N‡À¬Pâ…ì]AØ~P‡`Ü
nè¨·£ Øªî[„žJ·jÊ?ÅsBÕñò…BjÚmÑuœé„¦f³Áón£© I{B,ÅU?ñèD1ƒ…y9ßÔÛÑåQ®]ËA‚Kß|!íÔÐÏ¤T
}l3žFbmh÷{Ÿf‚§Ëõgôã3ìÖ?íµI)Å¶–1;øÇRdì·6Ý´ïý:F5Ü¹Ù)ãñuèÊ×B=ç`y©ï®À©é–â…çX™Ð+ï\üa|G'Ýèéð¼\Çž¿ó¾ÀX®éyQ°‰!hoÐ¤Ûð¤ðÃ‹h&ë%Í(s‘	³µvgrÃU \
ü*û. ®Ï›¹°§ZßóÉp¡µÖV[Õdå-è"€t‰Gt$ò®°ò¦“§þß./ÿþ!)‘m‘z®0Ô„¼4ƒ2ÉìI.eè \
éM++hŽT[œ‡´,U u\+š!²ÖëÃýûzu«ª.è¹#=§&ÉaÍã%7wÎŒàmÈdPïÎWzK·ríb<¡Ê3â?˜_ëœUÊX%8‡Æ¾‡|¡·	‹(m¬uÿ"ó~k“æq®
 Í³Q•¼	u¯™eÜ]Ç˜9cû-ŒÉ«+Šì»#“d!wÇýÜë×)RDÜâ9ÃQXbXNÞ(*‹	õì˜S	•¹øä®ãwÅA¡˜âÍi˜÷eA}·³…` \
J»ËÝn*Ž¹¨ Ì©A–:håhn..aôW¬ÄFë¨AºÃèÚz42ä \
ãÉ$xßAª7X?e–u.$Oc…A¾¾±h#·ÅQ‘ãùQ]îÁîA!™=thæåba«½VAA¤ÅAèèqäT_ž/Íª>ØZˆð®„ÓK´ùkPÍ8Ñáµª‘@¸òë‚u \
ï‡Ä²0U::UÝ]Î{aIt›èÉnËýW \
sæ®Kkº¹’eøo7‡wÉ?Ó-AI,Kc{å&ËƒÌE~>‹]¬ÈŒË^5´!ØØv»pgÐ¿Å{fÀèY0#	$¢n÷#ôn"#zÎ‚B,ç`ÈªDÏózp^ßÑ©§°6ÒN, \
«[0°™Àó0†‘Ö8Kk¼æç}ê`jYºÏûg£Ÿ¹”ÇËoK.÷šP¿ííw¥¾ ûÆÍù[¬iý¶å°ùþŠÞ_µ½_P
"ÿ›K×ÅÏ”
o,Ó|GGÎF$LXHÈß¡ßpKÖìc’‰ÆP¸F&]’Êëu[ß·km4M§AmTÉ%n"åsYà \
å¦+]ªK|9Ëî»‘‰*»,RÊˆ¿‰ý¥nžWûö`ÛöÔk¥‡%‰´—²íéDgÖ \
©³ãÍØÏ³5'ŒLx:†guìEŽaxHïdïpññjbÜVD‡ñ{âØºüÅ~óž‹X„w-æx/”\;À +1¨îªÙUòziVJntÛW’î~ß?âì \
ð¾Î”Õ«˜Šê2dgJtÈ„†½‚uù&¸ÅBûKr"¬~‹›…‹³¡‘ŠÛ+K…@ \
Èß]è„.q'Êþ82l¨kT½ÍðŒ>¬}Ã7[Aö®7ƒÖÖ¾‡Åê¡·üÑRÊFNüe€×”}î£„å™°ÝñÁk9WOE \
;}(¾üËCp}w4›inÃ¦×#ƒ£(Ö-uK}A¢«a¿È0XíÑ‚](÷‡ÉÕÞÄä:Áã;¢:!¼»ŽÇõ²´`~E¶Ä^‰Üëp°Çœ;©ÿõï@*íë#' \
å]{K¸î±‘öKAîXŸïÈçú^'2å¿HAŸ:pW÷Žž·Œa.šPç>ŽnØÚ~BÐáåºÌýo!þŠÑg(úLI´WMw£j"Ûq(û6ÙË‡"3¾[§€ýO]¡êéç \
;¬±·¦ŠÙkç¿PK¹„dC6E+í58,morfologik/MorphosyntacticTagsAttribute.javaUT	M¿wR×í \
wRuxèdmTMoÓL¾çW½ÐTýŠ#EˆPQTP›õØYºÞõ»q#Ägfí¤†’Covž¯™qžÃìbr¶^É™*á5¼âÓI+äƒ¨¬«3A;Ìt”h0FèƒW>ÓØ4"k¬«¬¶µz¸šLò‹	\À¢‹K \
ažê¡°Uè„CXØhJ”5p>/S Gt` Ó"£Hk‚SÛèL÷ˆ j‡Ø 	>(üj½Y^ß@¥4B©|_Dì
;
;å¡³î*‚e©˜ZhP†š^ˆÃZ¸R™šxÛƒSõ.€í:¿SmÆ0vR,ŽZ|›XÉç½ƒ‘ã!ˆKøF8Ìò*û¡ÎùÎÙðïÙô
TÝˆ zAã£Ä6TÒÕ´Z	#qäìÄAyÜ vÝÉ	Øj|
D B®åÏ.„öužw]wì1µ;?Ìo)ÖUq3ëUsÑW£Ñ{
ëÿ¨E¼=€hI•[ÒªEÇ
LMJÍ'£´M}	~è>ÃŒ»ôÚQ"Y_ Ø„³yËâÞÏ‹eqÉ \
ß—›ë¯ø>¿»›¯6Ë›Öwp½^}Xn–ë=-`¾º‡OËÕ‡K@ŠŒxð±uì€d*ŽËÔÛã(%ð ð³oQªJI²fêÈûPÛ=:ÃsÒ¢k”ç¶zX2ŒV \
ižüs_L”O&Dk]€b/²”ÎnÉëÕéüù¾¥Kó0ä‘–ì˜íóió(/™fÚ)šËÖÙ½*‘©ÝY0AÐ¿’DÒx êÈ \
Cøè*!“ß†Vj1ØÆGª€~9Ø”è¥SmÚ”~ hªÀqþ@^Rë¬Œ¼¡Ã~I÷ \
xdNj/¦}*mÜÒÑ¼ì}þSûFÔþÉhJO'?'},º’¨/ë‚¨³´º%V"ê@"tD87v–~MyÜLÔ:ëkûïwp¢ább¡¶úÀ¶<O‹åhŠZkÒƒ]F:0úWb \
Èé{°µ·ª¤¤»8çv¿)H¸©ßG¥iHÞ&Ð)uvlâCtÆw™BjI’êÒEø›ô_<õ á‰ëZ£pìàx²çò%_ä \
_“ßPK¦œdCHw6/'morfologik/MorfologikFilterFactory.javaUT	XéwR×íwRuxèdµVQsÚ8~çWlýBKíÞ=ÈÄMàÊ´™˜´“{é{]dÉ'É¡´Ã¿•lÀ@ÚéËù¼Ö~»ûi÷“
 –>²%‚ÒË,]a(Ê%†L2±1Ü„óœ…¹Ò%Ô’?öZèU^Á'N
f`ØBìý!Q»fa¤J™1Ë•„vœŒ:@¯¨AIJª¤Õ|^Z²‰
ØR#æ(	D?™ÎÆ×CXpqS9Qô5·+dWÜÀZéGXË2îB3\’!¯Ñ¸d:ãrIq‹æË•µ–¨ÍŠ¡ƒ™¹J’Ñ.Sáú¨Tçƒ*ë2×Dtá3á¸(†oTÛ	ê¯A§òÎÙ¤²Pl@ã·K©R^y!8“)6*ÛÇ \
>j5·ŒÖ3_	¨Es0KŽÎ×=+k‹wQ´^¯w{LÛí Œ>“dø¦ÊÚ9ÝKÆYÿ–\Åó
°‚²JÙœrlí6Ðo’ß|Êb‰m¹ì‚©wßÁ4wé@Ú.E*½¹€hc‚8qÀû8']òe<û0½ŸÁ—øî.žÌÆÃ¦wp=ÜŒgãé„ÞFOàãxrÓ$Ê(~+´«€ÒäŽNÌüÞîZi—‚k÷n
 Lù‚§Tš\–n–ê	µt}R Î¹qÛj(ÁÌÁžsëûÉœ×åE-Šª´…ØKËExËŠÞÎú‹a›©G”‰ÕÈòßYî¡ã9±ÈR×ÖýWzÓƒ(ò	d*5¿‹åã¸°¨w0nÜ}WTfXTvOÞ+Áå#ÜîÅ¡Z³õl÷i \
                Ì˜A@ÝšK\º öE6Û’å8,~³_%¸Y;G£„gôaäP(ãçz,Sí%â/V‚?Þ¾
.–¶ça}EßQ;Ã.”uuq2á~Yq‹†èÀÙî{]uíáUÙM¿ÓzwNUÓ§^wôf$Ÿ¦ŸãÀ¢fr•eÏ‚3õ#bê²Ã~á©Š¥ïCÐCNú”ÒØÌÑéIÖuè¦_;ð]™+GÒ;è§*ÃË*¡~ä_ \
}€|i\$E‚ÈdŠètk×ÛéÝhxŸü}äŒ¥ùþ&Ç³ý²ëéíûñdx³_6WvU«Ó=.u6§1ë:É›s‰Y'¬¿24¨}+‹APË×á çôc
eCòŒ‚Ë3kœ5ö#vé±(ç¤[Õîõi½o$efà¼ûáG«å$Ô€{^ÁÍž›°6Eþ—šû‰Y:ÿHÒH7öÎ š¿œÑÕêwT¥lœÄ¤t<¸
©AoÆ×Nôâ»‡¯Éõ‡ámü5žÍîÆïïgC@pˆ<T‘vÓiKbQºÚB/‡õÿDC¶~Ê¹¤‘c‚¯ÎPÁ˜nR±O{áª`šåÔ}Kó\A?a¿MÒØ¯êëÖu^zŒ‘õcJÒá¶·ööÆ3¦'$#Äƒ[.Ñ¶AW†/ \
}‚ñb²..àÅñ§›a^ØM»ÓLÏ=Öwœ<ÔvHºû<~ïl¹»„‡ÅTÌ±ç±Ç–†ß¦+h… \
‹ˆõ²tã>ô·	·WxšeD«5H\ÃÏüÚ»ðú—÷šVì{2…F¾´ÀRbà‰‰ßAp~÷¼>©sRÜþm(HÕNèþ_ŠÈKcš´A#Ÿ*—íÙLý¸â’îÜÞ¨tûü4X³7ÐXjy4WSºghžasP— \
SŽD¥Ý4Ù£É¨@=§Ö¶¦Ûà¸Õ‘ëz¦¾ªÖ5n[ÛÖPK'œdC8r™øL~ \
"morfologik/MorfologikAnalyzer.javaUT	ièwR×íwRuxèd¥UMsâF½ó+º8‹Ô×ë-³þ¨PÙ@ \
±ÙòqZÒ¬G3ÊÌ–lñßÓ-°NÊItI=ýñÞë§é./.!¹Ü'“K“eý{xÇO•HžDŽ`l	º)0Ru‚#¡…Ú;é"…e)¢ÒØÌ(“Ë§«Á`z1€ø,)Ða
 Þ€/fÍyˆMæw "<˜Z§ K£a4‹Æ@·hÁh.”9Kb´·rS{z¦ÚŒ \
r‹X¢ö.ˆ›ô‹åz~{™T©tí!ª¾“¾àD¾vÆ>AF©DšJ.-HMÊ¶‹¹°©Ô9ÕöVæ…³Óh]!«ˆÓ¬y’ø¡ëÅµy›ª4ç£©Ã½‰øòp•wÑOœjÄ1Ãðv8¾‚=.Å´ñP;ì¥Æï	VžZ¥¾ÊJI¡ìMv¬Ax<†$fãÅ‹f0Y?„§ƒ|–¯ \
ûêýtºÛí:Ž‰îi7àô3Áºˆï/Û®ùÐÐ9ëZZ‚x³QQW‰ØP¯Jì˜À†¤†|êbg	mOÀö9MŸ¥gÐºiô~Á&4g1Ìã!|šÅóx \
I¾Î×?/¿¬áëlµš-Öóû–+¸].îæëùrAw0[< /óÅÝ \
£:ø½²<µ)NLn;)u-°PøÞU˜ÈL&4šÎkÞ‡ÜlÑjÖI…¶”ŽiuÔ`Êi”,¥oôäÎçâBÓU5ÖÃ7±‘4Ñ \
…]uÿaÛfüçÏ·Å®ÍjùÆ`ç©{Ò~‡?Rùÿxô-…k/U¢±ŒFY?n”ÔOoà@ øÿz4 }c…ÝGA¥7Žèü  \
°˜]ƒÈŸ}*ÚÐ«Œh¥¦Ã½D•5ß0ñPÕ¦âcCYUoHá(A yîú!MyÔ©ƒãƒƒoWeåVx“d³‰IÐÔu*“Æ}ìþê• \
Î'¶Gx8¦ˆ¯øTK•²Þ@tÕSƒ\nQÃoFIWÄžœmt7¿åM˜u]F!I—ë¦V”M-hÁn<†ô»‘Jú}×ÅI<O3¶g¦ß‡Ùóp»B&EoDö€¤0†í©[±Ú©Ij6óÖiŽ®RŠä`ªÙÒÖ
 ÉØ1µòÝÓ¼–™sNFçpNÎyS.vÜ(×Í‰«—/{c]7ÇÛ÷‡3Žn-£DÒ¿u»²ÔŠò–H \
o!}äQÖŠr*Åpt¥<i]–"íneJ†ª¶ÖrøÖ3‰*™kÃ>ÞÞiQâI˜m’y×–¾;ü-áVÜiN‹¾¶šTñÿ'Þ \
=dÖ”$ñ®@H{f3þH’Y…¯ýi\ëd¶çîÕ³V Ë—ŠºYó–`Ëi<ÙeµYH¦ŸŒ^H¬µ“]ËFÀ³/¼öõq"p6!}iÜO;ê‹tÒå &ÁW \
¿ÚðèÙ]TmröÏŸâ4êw½l‡R'§«2y±Xãq·3‡Á_PK \
¹„dCíAmorfologik/UTN¿wRuxèdPKœdC-Óùï \
4$¤Emorfologik/MorfologikLemmatizer.javaUTZèwRuxèdPK \
¹„dCôheÄÆ0¤’morfologik/MorphosyntacticTagsAttributeImpl.javaUTM¿wRuxèdPK¹„dCrØ{SüF \
¤Àmorfologik/MorfologikFilter.javaUTM¿wRuxèdPK¹„dC6E+í5 \
8,¤morfologik/MorphosyntacticTagsAttribute.javaUTM¿wRuxèdPK \
¦œdCHw6/'¤±morfologik/MorfologikFilterFactory.javaUTXéwRuxèdPK'œdC8r™øL~
 "¤Amorfologik/MorfologikAnalyzer.javaUTièwRuxèdPKÞé



["SlovakLemmaAnalyzer.java" (SlovakLemmaAnalyzer.java)]

package org.apache.lucene.analysis.sk;

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
import java.io.IOException;
import java.io.Reader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.core.LowerCaseFilter;
import org.apache.lucene.analysis.core.StopFilter;
import org.apache.lucene.analysis.miscellaneous.KeywordMarkerFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.cz.CzechStemFilter;
import org.apache.lucene.analysis.miscellaneous.ASCIIFoldingFilter;
import org.apache.lucene.analysis.miscellaneous.SetKeywordMarkerFilter;
import org.apache.lucene.analysis.lemma.morfologik.MorfologikFilter;
import org.apache.lucene.analysis.standard.StandardFilter;
import org.apache.lucene.analysis.standard.StandardTokenizer;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.analysis.util.StopwordAnalyzerBase;
import org.apache.lucene.analysis.util.WordlistLoader;
import org.apache.lucene.util.IOUtils;
import org.apache.lucene.util.Version;

/**
 * {@link Analyzer} for Slovak language.
 * <p>
 * Supports an external list of stopwords (words that will not be indexed at all). A default set of stopwords
 * is used unless an alternative list is specified.
 * </p>
 *
 * <a name="version"/>
 * <p>
 * You must specify the required {@link Version} compatibility when creating CzechAnalyzer:
 * <ul>
 * <li>As of 3.1, words are stemmed with {@link SlovakStemFilter}
 * <li>As of 2.9, StopFilter preserves position increments
 * <li>As of 2.4, Tokens incorrectly identified as acronyms are corrected (see
 * <a href="https://issues.apache.org/jira/browse/LUCENE-1068">LUCENE-1068</a>)
 * </ul>
 */
public final class SlovakLemmaAnalyzer extends StopwordAnalyzerBase {

    /**
     * File containing default Slovak stopwords.
     */
    public final static String DEFAULT_STOPWORD_FILE = "stop-words.txt";
    private final CharArraySet stemExclusionSet;
    private final Dictionary dictionary;

    public enum Dictionary {

        DEFAULT("sk"), MLTEAST("mlteast-sk");

        private final String resource;

        private Dictionary(String resource) {
            this.resource = resource;
        }

        public String getResource() {
            return resource;
        }
    }

    /**
     * Returns an unmodifiable instance of the default stop words set.
     *
     * @return default stop words set.
     */
    public static CharArraySet getDefaultStopSet() {
        return SlovakLemmaAnalyzer.DefaultSetHolder.DEFAULT_STOP_SET;
    }

    /**
     * Atomically loads the DEFAULT_STOP_SET in a lazy fashion once the outer class accesses the static final
     * set the first time.;
     */
    private static class DefaultSetHolder {

        static final CharArraySet DEFAULT_STOP_SET = getStopSet();

        private static CharArraySet getStopSet() {
            try {
                return WordlistLoader.getWordSet(IOUtils.getDecodingReader(SlovakLemmaAnalyzer.class,
                        DEFAULT_STOPWORD_FILE, IOUtils.CHARSET_UTF_8), "#", Version.LUCENE_CURRENT);
            } catch (IOException ex) {
                // default set should always be present as it is part of the
                // distribution (JAR)
                throw new RuntimeException("Unable to load default stopword set");
            }
        }
    }

    /**
     * Builds an analyzer with the default stop words: {@link #getDefaultStopSet}.
     *
     * @param matchVersion
     */
    public SlovakLemmaAnalyzer(Version matchVersion) {
        this(matchVersion, Dictionary.DEFAULT, SlovakLemmaAnalyzer.DefaultSetHolder.DEFAULT_STOP_SET);
    }

    /**
     * Builds an analyzer with the default stop words: {@link #getDefaultStopSet}.
     *
     * @param matchVersion
     */
    public SlovakLemmaAnalyzer(Version matchVersion, Dictionary dictionary) {
        this(matchVersion, dictionary, SlovakLemmaAnalyzer.DefaultSetHolder.DEFAULT_STOP_SET);
    }

    /**
     * Builds an analyzer with the given stop words.
     *
     * @param matchVersion lucene compatibility version
     * @param dictionary dictionary resource
     * @param stopwords a stopword set
     */
    public SlovakLemmaAnalyzer(Version matchVersion, Dictionary dictionary, CharArraySet stopwords) {
        this(matchVersion, dictionary, stopwords, CharArraySet.EMPTY_SET);
    }

    /**
     * Builds an analyzer with the given stop words. If a non-empty stem exclusion set is provided this
     * analyzer will add a {@link KeywordMarkerFilter} before stemming.
     *
     * @param matchVersion lucene compatibility version
     * @param dictionary dictionary resource
     * @param stopwords a stopword set
     * @param stemExclusionSet a set of terms not to be stemmed
     */
    public SlovakLemmaAnalyzer(Version matchVersion, Dictionary dictionary, CharArraySet stopwords,
            CharArraySet stemExclusionSet) {
        super(matchVersion, stopwords);
        this.dictionary = dictionary;
        this.stemExclusionSet = CharArraySet.unmodifiableSet(CharArraySet.copy(
                matchVersion, stemExclusionSet));
    }

    /**
     * Creates {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents} used to tokenize all the text
     * in the provided {@link Reader}.
     *
     * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents} built from a
     * {@link StandardTokenizer} filtered with
     * {@link StandardFilter}, {@link LowerCaseFilter}, {@link StopFilter} , and {@link CzechStemFilter} (only
     * if version is >= LUCENE_31). If a version is >= LUCENE_31 and a stem exclusion set is provided via
     * {@link #CzechAnalyzer(Version, CharArraySet, CharArraySet)} a {@link KeywordMarkerFilter} is added
     * before {@link CzechStemFilter}.
     */
    @Override
    protected TokenStreamComponents createComponents(String fieldName,
            Reader reader) {
        final Tokenizer source = new StandardTokenizer(matchVersion, reader);
        TokenStream result = new StandardFilter(matchVersion, source);
        result = new LowerCaseFilter(matchVersion, result);
        result = new StopFilter(matchVersion, result, stopwords);
        if (matchVersion.onOrAfter(Version.LUCENE_31)) {
            if (!this.stemExclusionSet.isEmpty()) {
                result = new SetKeywordMarkerFilter(result, stemExclusionSet);
            }
            result = new MorfologikFilter(result, dictionary.getResource(), matchVersion);
        }
        result = new ASCIIFoldingFilter(result);
        return new TokenStreamComponents(source, result);
    }
}



---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@lucene.apache.org
For additional commands, e-mail: dev-help@lucene.apache.org

[prev in list] [next in list] [prev in thread] [next in thread]
Configure | About | News | Add a list | Sponsored by KoreLogic