'more generic lucene-morfologik integration'

[prev in list] [next in list] [prev in thread] [next in thread] 

List:       solr-dev
Subject:    more generic lucene-morfologik integration
From:       Michal Hlavac <hlavki () hlavki ! eu>
Date:       2013-12-03 12:07:28
Message-ID: 2559310.0YUvc6vo1E () hlavki
[Download RAW message or body]

Hi,

I have little proposal for morfologik lucene module. Current module is tightly coupled with polish DICTIONARY enumeration.
But other people (like me) can build own dictionaries to FSA and use it with lucene. 
You can find proposal in attachment and also example usage in analyzer (SlovakLemmaAnalyzer).
It uses dictionary property as String resource from classpath, not enumeration.
One change is, that dictionary variable must be set in MofologikFilterFactory (no default value).

thanks, m.

["morfologik.zip" (morfologik.zip)]

PK
¹„dCmorfologik/UT	N¿wRØíwRuxèdPKœdC-Óùï4$morfologik/MorfologikLemmatizer.javaUT	ZèwR×íwRuxèdUßOÛ0~¯ÔÿáÄSÚ
 —½ÒR!!uCZ'íÙI®©cg¶CÇPÿ÷4IC`<Ìâ¡Øßýúî»KÎ“ß h³a<çÉ™,TÈ¸âòÉ
Ë$fg™6k-õFì¦ÃÁp ²\ü‘³ \
É®áOKaÝôµGÛ÷rçÐp§MßÛ©·&f¥$Ô†ÝˆÄ	¸yz/n©õ®ÈßFßü/4o£~j“ÞpÇ“ñx8€1\CZ‡:¹ÅléÖÚ€äjSÝ~l…Ÿþ*„A\Áíêú<ÑY.$Ù6ÎÀiˆrB¡r \
T—HnmÎÝ–\X]˜-óáqÏïãLœ½ç<pƒ ´£+ƒœäkd³I<¯-ñ]<zôd8È‹XŠÖ‚$SÅøZ[/½|œøCu›$&Êß \
‘ãKœ	Ã³§è”´ú3†&6ÈR”¸áÙ3)äF<Òu•WÑ¬›ø¼6†+P¸‡Z¾/¡ÑhÚ—Oè`¢•u¦HHÁ@ÿ %œà’ŠMa/¨-âBHw.T»—^s!íc
åD†€¿Ì=„oÖ±Z¶Å÷Ž†DHO[]|
^äÜð¬eÓ¥§ìV_‡¢•3Ôç–íÈ7ªSÎÓ4ò¬u¹Šš¶Aw«Í²R|Ôr9ò„z‡>^ŸBmÑw£“ÃkÅíI+ÍAWÕ)sqÿˆÆˆOª-n”V*)ú¼åfECˆ*Áàû¤ljFT—n‰§hWWðéäO™GCQ]ŒX$ø6@i±ë£“ \
mÌzRNO‘~¡DÝgã²ÎâE–•mp[¢_Ë°M@°8V?‡‹ÑK˜?1”]ÇÅ¡—¥à°MÇš(¿´ \
5õ¸”í‰(k±4‚4u4h®µZ»«¡_ÇP‹wQ]EÿU	×ê€–³Þ‡Õô½Ü_ŽË!:û¦«üüª”ø/†.ÔÉ×&³—pÖß¥å¾³Ìérâ›ªœOQ3¥§Í¡¿¿PK \
¹„dCôheÄÆ0morfologik/MorphosyntacticTagsAttributeImpl.javaUT	M¿wR×íwRuxèdVMsÚH½ó \
+z9	±q’5qìZjØ²È¦|DKL<ÌhgFÖÅßîÑrÌâ¸\.4L¿î~ý^Ë£œŸCz¾N¦ç&Ëú·pÉ§½B¤"G06=¬0VeŠc¡…Ú9éb…ëµˆ×ÆfF™\>^õz£³œÁgI.Áð+„qˆ‡Äd~+, \
)õRxi4DãänôˆŒæt@€È(©ÑÞÊEééLUˆ r‹¸Fí] øél>¹¹…L*„¥tUeßJ¿b \
¿’¶Æ>BFPb¹”œZ(šÖU!sa—Rç”·ØY™¯<˜FëV²ˆfÎ$wM-®  Y©ÏSÖmt:®‰ \
ß„ÃY.ã7ñ~ýmp;Š^‹hã¡tØÆ)žJ¥ºÖ…’B§Øé¬ÍA|<Ô fáÝ¡0Y÷OË?+ï‹·£Ñv»mfLã5 \
Ž>Óäö¼ªšƒ¾j…ÎYÿ”ÒÅ‹ˆ‚ªJÅ‚jUbËC Ã§*¶–ØÖù\=}†éNé@ZS"µÞ½@´	
ýq“¤ÇÉ$2È·ÉüÙ×9|ßß§óÉm³{¸™M?Mæ“Ù”žî`<}€?'ÓOC@¢Œòà rT¦d:qfÛH©)… \
Ï®ÀTf2¥Öt^²r³A«Y'Úµt<VG.FÉµôAOîe_œhÔëQZc=|—^ªøìª=|i¶pcìk2&TrpYÆc‹•q;íEê©F¡I>uvnÀ•6ihfíB›×Žúü)l.r×&%å‚&
 ©DÔ©Û\1êQ/<?íAà·òêI!Ü(r~Ð…Ñ/õMºJþÛM4AýäðÃõÔ¿Vk4€§}›‚þ%cšóì’ P#œ“a#,yÍ»V
ii-}O²~D‡àÚÊð<dçß%”LçK©höB4®N¶{ô¥Õ.þ5KB¦Ú žäÃ$»@³º&Ò• ™’óVÀ0|WJª’—e \
:")Òèx—>]+©áYQ{7€¦‚—ŒôŒ©sb8PZ¡!ÉòoCAlb±1’mª1%ç»ƒ5ÒŽ&ç+eÒJo>®gä+—xË1jrô<ž‡ÒFabjÆö½ãP¡”T¡°mdPÁ{Ð¥R§"ÆP˜âO(Íß1¥±óRhdQ8 \
½å</Z¢þ”¦šÀ¶üñ´â¶Á!DÑiªˆCÄà* \
î»ÄdT4¶ý5¢{ÖTÓ“ºBóñò'~Õ¼¯¸‚ß!R—ÍÓÞÒãE\³CqƒSdJòÁJ¸ÕYâ‹r÷ÕPÚLožâCPßz#A_ƒÐiÅV>äwM†–%ßü7‘Ë \
êàÚ8¼“é×fpá%JîàÝ§tÄäjÖÿÏ¿Ìmý¢JÉŸs=_‹^Xsƒy,g°î²#èJ—!óoÍ°Ù.“_ÇÖŠÝÈ;Ú¤´ \
lµèÙ=XÔC:À7	búŸ)âÏ¢ÅnßQìkr¯9ˆæ«'õöêK(`´Jüµë o¯¿5®
¨§Ú©¹~uVµÞ1G©$%WŽ¿Žmúïê·Ü‡~c Cd•hßûPK¹„dCrØ{SüF \
morfologik/MorfologikFilter.javaUT	M¿wR×íwRuxèd¥YmoÛ8þî_1Í{rbËipÀuÔ›6Xc}É"v¯(÷–h›YÔ’T\ßnþûÍ”LË²Û½Š$¤æýåáP \
Þ‡¤?gZ$}¹XhnÞÁív –<³%©–1ÃÅŠÇY™ðœÇ,gÙVg|½fñZª…ÌäR<;ÁyÎa"PóŒ³â0²ü0•³aŠÃ½,ó”!sˆFÓû.à’+9©ÈIJ"s \
£Ä¼4¸—9‰À–Šó5ÏŽ¦œ[ñ³ñÝGXˆŒC*´cBíaV$È¬„†TÏ°@Q,M©fˆ7ÖÎÅ—L¥"_¢Þb«Äre@nr®ôJ1‰™‘'ÓûÊíäZèçYz7} \
zðO”CZ®âKÍ™{Ö ¹×l¹4Pjˆæ_^4íZ™`y Ïj/^ˆœ†ôÌzr’3ÈH¼ô¬Œ)Þ \
›Í¦Ê1¦{P98˜`X¦ûÎjbú”g\kÖo¥PâùXV%lŽ¶flC	´I²ÉG+6 £/{ \
}öIL˜¥]Ð*ÑõÃÆr8Ma<=ƒGÓñ´GB>g?=~šÁçÑÓÓèa6þ8…Ç'¸{|ø0žpu£‡/ðóøáC8†õð¯…"ÐLAáä©ÍmUJ•	T(´ÖOÄB$èZ¾,©–ò…«œê¤àj-4¥U£)‰ÉÄZ[OúÐ/R4è \
V©üÊ^X,d<~ühŒ,Ã½w¥Y|Ž-å7wmkƒ‡„¯O´éL>óü^d†«á÷’Oâlý=ä†È™ñÙÒñÝŠ©FfTmý/B~æ[ì×ôÿ’ñ‹Ô¶ÏÇy¢,dü)i6üäK0nŸp \
¥O°ÕÉœÛ6ùý}&òg"ÿŠmMEó:X,sÅÔ6öµ{ã8,þacqUò¤XI½ÅýÄˆdÆ–ºvêµ›•HVP(ù"R„§õ>5é`9Œ¯O*q¤MÑƒ,”#¦V}˜™Ê¤¤ð9˜$®”£]™®¯‘éšÁJñÅÍ™‡” \
\çøKÒÄ`ƒ³Û@4ªÿ•' l¬ë»µ
R”sÄH2†mzþÕð<Õahá÷N‡À¬Pâ…ì]AØ~P‡`Ü
nè¨·£ Øªî[„žJ·jÊ?ÅsBÕñò…BjÚmÑuœé„¦f³Áón£© I{B,ÅU?ñèD1ƒ…y9ßÔÛÑåQ®]ËA‚Kß|!íÔÐÏ¤T
}l3žFbmh÷{Ÿf‚§Ëõgôã3ìÖ?íµI)Å¶–1;øÇRdì·6Ý´ïý:F5Ü¹Ù)ãñuèÊ×B=ç`y©ï®À©é–â…çX™Ð+ï\üa|G'Ýèéð¼\Çž¿ó¾ÀX®éyQ°‰!hoÐ¤Ûð¤ðÃ‹h&ë%Í(s‘	³µvgrÃU \
ü*û. ®Ï›¹°§ZßóÉp¡µÖV[Õdå-è"€t‰Gt$ò®°ò¦“§þß./ÿþ!)‘m‘z®0Ô„¼4ƒ2ÉìI.eè éM++hŽT[œ‡´,U \
u\+š!²ÖëÃýûzu«ª.è¹#=§&ÉaÍã%7wÎŒàmÈdPïÎWzK·ríb<¡Ê3â?˜_ëœUÊX%8‡Æ¾‡|¡·	‹(m¬uÿ"ó~k“æq® \
Í³Q•¼	u¯™eÜ]Ç˜9cû-ŒÉ«+Šì»#“d!wÇýÜë×)RDÜâ9ÃQXbXNÞ(*‹	õì˜S	•¹øä®ãwÅA¡˜âÍi˜÷eA}·³…` J»ËÝn*Ž¹¨ \
Ì©A–:håhn..aôW¬ÄFë¨AºÃèÚz42ä \
ãÉ$xßAª7X?e–u.$Oc…A¾¾±h#·ÅQ‘ãùQ]îÁîA!™=thæåba«½VAA¤ÅAèèqäT_ž/Íª>ØZˆð®„ÓK´ùkPÍ8Ñáµª‘@¸òë‚u \
ï‡Ä²0U::UÝ]Î{aIt›èÉnËýW \
sæ®Kkº¹’eøo7‡wÉ?Ó-AI,Kc{å&ËƒÌE~>‹]¬ÈŒË^5´!ØØv»pgÐ¿Å{fÀèY0#	$¢n÷#ôn"#zÎ‚B,ç`ÈªDÏózp^ßÑ©§°6ÒN, \
«[0°™Àó0†‘Ö8Kk¼æç}ê`jYºÏûg£Ÿ¹”ÇËoK.÷šP¿ííw¥¾ ûÆÍù[¬iý¶å°ùþŠÞ_µ½_P
"ÿ›K×ÅÏ”
o,Ó|GGÎF$LXHÈß¡ßpKÖìc’‰ÆP¸F&]’Êëu[ß·km4M§AmTÉ%n"åsYà \
å¦+]ªK|9Ëî»‘‰*»,RÊˆ¿‰ý¥nžWûö`ÛöÔk¥‡%‰´—²íéDgÖ \
©³ãÍØÏ³5'ŒLx:†guìEŽaxHïdïpññjbÜVD‡ñ{âØºüÅ~óž‹X„w-æx/”\;À +1¨îªÙUòziVJntÛW’î~ß?âì \
ð¾Î”Õ«˜Šê2dgJtÈ„†½‚uù&¸ÅBûKr"¬~‹›…‹³¡‘ŠÛ+K…@ \
Èß]è„.q'Êþ82l¨kT½ÍðŒ>¬}Ã7[Aö®7ƒÖÖ¾‡Åê¡·üÑRÊFNüe€×”}î£„å™°ÝñÁk9WOE \
;}(¾üËCp}w4›inÃ¦×#ƒ£(Ö-uK}A¢«a¿È0XíÑ‚](÷‡ÉÕÞÄä:Áã;¢:!¼»ŽÇõ²´`~E¶Ä^‰Üëp°Çœ;©ÿõï@*íë#' \
å]{K¸î±‘öKAîXŸïÈçú^'2å¿HAŸ:pW÷Žž·Œa.šPç>ŽnØÚ~BÐáåºÌýo!þŠÑg(úLI´WMw£j"Ûq(û6ÙË‡"3¾[§€ýO]¡êéç \
;¬±·¦ŠÙkç¿PK¹„dC6E+í58,morfologik/MorphosyntacticTagsAttribute.javaUT	M¿wR×íwRuxè \
dmTMoÓL¾çW½ÐTýŠ#EˆPQTP›õØYºÞõ»q#Ägfí¤†’Covž¯™qžÃìbr¶^É™*á5¼âÓI+äƒ¨¬«3A;Ìt”h0FèƒW>ÓØ4"k¬«¬¶µz¸šLò‹	\À¢‹K \
ažê¡°Uè„CXØhJ”5p>/S Gt` Ó"£Hk‚SÛèL÷ˆ j‡Ø 	>(üj½Y^ß@¥4B©|_Dì
;
;å¡³î*‚e©˜ZhP†š^ˆÃZ¸R™šxÛƒSõ.€í:¿SmÆ0vR,ŽZ|›XÉç½ƒ‘ã!ˆKøF8Ìò*û¡ÎùÎÙðïÙô
TÝˆ zAã£Ä6TÒÕ´Z	#qäìÄAyÜ vÝÉ	Øj|
D B®åÏ.„öužw]wì1µ;?Ìo)ÖUq3ëUsÑW£Ñ{
ëÿ¨E¼=€hI•[ÒªEÇ
LMJÍ'£´M}	~è>ÃŒ»ôÚQ"Y_ Ø„³yËâÞÏ‹eqÉ ß—›ë¯ø>¿»›¯6Ë›Öwp½^}Xn–ë=-`¾º‡OËÕ‡K@ŠŒxð±uì€d*ŽËÔÛã(%ð \
ð³oQªJI²fêÈûPÛ=:ÃsÒ¢k”ç¶zX2ŒV ižüs_L”O&Dk]€b/²”ÎnÉëÕéüù¾¥Kó0ä‘–ì˜íóió(/™fÚ)šËÖÙ½*‘©ÝY0AÐ¿’DÒx
êÈ Cøè*!“ß†Vj1ØÆGª€~9Ø”è¥SmÚ”~ hªÀqþ@^Rë¬Œ¼¡Ã~I÷ \
xdNj/¦}*mÜÒÑ¼ì}þSûFÔþÉhJO'?'},º’¨/ë‚¨³´º%V"ê@"tD87v–~MyÜLÔ:ëkûïwp¢ább¡¶úÀ¶<O‹åhŠZkÒƒ]F:0úWb \
Èé{°µ·ª¤¤»8çv¿)H¸©ßG¥iHÞ&Ð)uvlâCtÆw™BjI’êÒEø›ô_<õ á‰ëZ£pìàx²çò%_ä \
_“ßPK¦œdCHw6/'morfologik/MorfologikFilterFactory.javaUT	XéwR×íwRuxèdµVQsÚ8~çWlýBKíÞ=ÈÄMàÊ´™˜´“{é{]dÉ'É¡´Ã¿•lÀ@ÚéËù¼Ö~»ûi÷“
 –>²%‚ÒË,]a(Ê%†L2±1Ü„óœ…¹Ò%Ô’?öZèU^Á'N
f`ØBìý!Q»fa¤J™1Ë•„vœŒ:@¯¨AIJª¤Õ|^Z²‰
ØR#æ(	D?™ÎÆ×CXpqS9Qô5·+dWÜÀZéGXË2îB3\’!¯Ñ¸d:ãrIq‹æË•µ–¨ÍŠ¡ƒ™¹J’Ñ.Sáú¨Tçƒ*ë2×Dtá3á¸(†oTÛ	ê¯A§òÎÙ¤²Pl@ã·K©R^y!8“)6*ÛÇ \
>j5·ŒÖ3_	¨Es0KŽÎ×=+k‹wQ´^¯w{LÛí Œ>“dø¦ÊÚ9ÝKÆYÿ–\Åó
°‚²JÙœrlí6Ðo’ß|Êb‰m¹ì‚©wßÁ4wé@Ú.E*½¹€hc‚8qÀû8']òe<û0½ŸÁ—øî.žÌÆÃ¦wp=ÜŒgãé„ÞFOàãxrÓ$Ê(~+´«€ÒäŽNÌüÞîZi—‚k÷n
 Lù‚§Tš\–n–ê	µt}R Î¹qÛj(ÁÌÁžsëûÉœ×åE-Šª´…ØKËExËŠÞÎú‹a›©G”‰ÕÈòßYî¡ã9±ÈR×ÖýWzÓƒ(ò	d*5¿‹åã¸°¨w0nÜ}WTfXTvOÞ+Áå#ÜîÅ¡Z³õl÷i \
                Ì˜A@ÝšK\º öE6Û’å8,~³_%¸Y;G£„gôaäP(ãçz,Sí%â/V‚?Þ¾
.–¶ça}EßQ;Ã.”uuq2á~Yq‹†èÀÙî{]uíáUÙM¿ÓzwNUÓ§^wôf$Ÿ¦ŸãÀ¢fr•eÏ‚3õ#bê²Ã~á©Š¥ïCÐCNú”ÒØÌÑéIÖuè¦_;ð]™+GÒ;è§*ÃË*¡~ä_ \
}€|i\$E‚ÈdŠètk×ÛéÝhxŸü}äŒ¥ùþ&Ç³ý²ëéíûñdx³_6WvU«Ó=.u6§1ë:É›s‰Y'¬¿24¨}+‹APË×á çôc
eCòŒ‚Ë3kœ5ö#vé±(ç¤[Õîõi½o$efà¼ûáG«å$Ô€{^ÁÍž›°6Eþ—šû‰Y:ÿHÒH7öÎ š¿œÑÕêwT¥lœÄ¤t<¸
©AoÆ×Nôâ»‡¯Éõ‡ámü5žÍîÆïïgC@pˆ<T‘vÓiKbQºÚB/‡õÿDC¶~Ê¹¤‘c‚¯ÎPÁ˜nR±O{áª`šåÔ}Kó\A?a¿MÒØ¯êëÖu^zŒ‘õcJÒá¶·ööÆ3¦'$#Äƒ[.Ñ¶AW†/ \
}‚ñb²..àÅñ§›a^ØM»ÓLÏ=Öwœ<ÔvHºû<~ïl¹»„‡ÅTÌ±ç±Ç–†ß¦+h… \
‹ˆõ²tã>ô·	·WxšeD«5H\ÃÏüÚ»ðú—÷šVì{2…F¾´ÀRbà‰‰ßAp~÷¼>©sRÜþm(HÕNèþ_ŠÈKcš´A#Ÿ*—íÙLý¸â’îÜÞ¨tûü4X³7ÐXjy4WSºghžasP— \
SŽD¥Ý4Ù£É¨@=§Ö¶¦Ûà¸Õ‘ëz¦¾ªÖ5n[ÛÖPK'œdC8r™øL~ \
"morfologik/MorfologikAnalyzer.javaUT	ièwR×íwRuxèd¥UMsâF½ó+º8‹Ô×ë-³þ¨PÙ@ \
±ÙòqZÒ¬G3ÊÌ–lñßÓ-°NÊItI=ýñÞë§é./.!¹Ü'“K“eý{xÇO•HžDŽ`l	º)0Ru‚#¡…Ú;é"…e)¢ÒØÌ(“Ë§«Á`z1€ø,)Ða \
Þ€/fÍyˆMæw "<˜Z§ K£a4‹Æ@·hÁh.”9Kb´·rS{z¦ÚŒ \
r‹X¢ö.ˆ›ô‹åz~{™T©tí!ª¾“¾àD¾vÆ>AF©DšJ.-HMÊ¶‹¹°©Ô9ÕöVæ…³Óh]!«ˆÓ¬y’ø¡ëÅµy›ª4ç£©Ã½‰øòp•wÑOœjÄ1Ãðv8¾‚=.Å´ñP;ì¥Æï	VžZ¥¾ÊJI¡ìMv¬Ax<†$fãÅ‹f0Y?„§ƒ|–¯ \
ûêýtºÛí:Ž‰îi7àô3Áºˆï/Û®ùÐÐ9ëZZ‚x³QQW‰ØP¯Jì˜À†¤†|êbg	mOÀö9MŸ¥gÐºiô~Á&4g1Ìã!|šÅóx \
I¾Î×?/¿¬áëlµš-Öóû–+¸].îæëùrAw0[< /óÅÝ \
£:ø½²<µ)NLn;)u-°PøÞU˜ÈL&4šÎkÞ‡ÜlÑjÖI…¶”ŽiuÔ`Êi”,¥oôäÎçâBÓU5ÖÃ7±‘4Ñ \
…]uÿaÛfüçÏ·Å®ÍjùÆ`ç©{Ò~‡?Rùÿxô-…k/U¢±ŒFY?n”ÔOoà@ øÿz4 }c…ÝGA¥7Žèü  \
°˜]ƒÈŸ}*ÚÐ«Œh¥¦Ã½D•5ß0ñPÕ¦âcCYUoHá(A yîú!MyÔ©ƒãƒƒoWeåVx“d³‰IÐÔu*“Æ}ìþê• \
Î'¶Gx8¦ˆ¯øTK•²Þ@tÕSƒ\nQÃoFIWÄžœmt7¿åM˜u]F!I—ë¦V”M-hÁn<†ô»‘Jú}×ÅI<O3¶g¦ß‡Ùóp»B&EoDö€¤0†í©[±Ú©Ij6óÖiŽ®RŠä`ªÙÒÖ
 ÉØ1µòÝÓ¼–™sNFçpNÎyS.vÜ(×Í‰«—/{c]7ÇÛ÷‡3Žn-£DÒ¿u»²ÔŠò–H \
o!}äQÖŠr*Åpt¥<i]–"íneJ†ª¶ÖrøÖ3‰*™kÃ>ÞÞiQâI˜m’y×–¾;ü-áVÜiN‹¾¶šTñÿ'Þ \
=dÖ”$ñ®@H{f3þH’Y…¯ýi\ëd¶çîÕ³V Ë—ŠºYó–`Ëi<ÙeµYH¦ŸŒ^H¬µ“]ËFÀ³/¼öõq"p6!}iÜO;ê‹tÒå &ÁW \
¿ÚðèÙ]TmröÏŸâ4êw½l‡R'§«2y±Xãq·3‡Á_PK \
¹„dCíAmorfologik/UTN¿wRuxèdPKœdC-Óùï4$ \
¤Emorfologik/MorfologikLemmatizer.javaUTZèwRuxèdPK¹„dCôheÄÆ0 \
¤’morfologik/MorphosyntacticTagsAttributeImpl.javaUTM¿wRuxèdPK¹„dCrØ{SüF \
¤Àmorfologik/MorfologikFilter.javaUTM¿wRuxèdPK¹„dC6E+í58, \
¤morfologik/MorphosyntacticTagsAttribute.javaUTM¿wRuxèdPK¦œdCHw6/ \
'¤±morfologik/MorfologikFilterFactory.javaUTXéwRuxèdPK'œdC8r™øL~
 "¤Amorfologik/MorfologikAnalyzer.javaUTièwRuxèdPKÞé


["SlovakLemmaAnalyzer.java" (SlovakLemmaAnalyzer.java)]

package org.apache.lucene.analysis.sk;

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
import java.io.IOException;
import java.io.Reader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.core.LowerCaseFilter;
import org.apache.lucene.analysis.core.StopFilter;
import org.apache.lucene.analysis.miscellaneous.KeywordMarkerFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.cz.CzechStemFilter;
import org.apache.lucene.analysis.miscellaneous.ASCIIFoldingFilter;
import org.apache.lucene.analysis.miscellaneous.SetKeywordMarkerFilter;
import org.apache.lucene.analysis.lemma.morfologik.MorfologikFilter;
import org.apache.lucene.analysis.standard.StandardFilter;
import org.apache.lucene.analysis.standard.StandardTokenizer;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.analysis.util.StopwordAnalyzerBase;
import org.apache.lucene.analysis.util.WordlistLoader;
import org.apache.lucene.util.IOUtils;
import org.apache.lucene.util.Version;

/**
 * {@link Analyzer} for Slovak language.
 * <p>
 * Supports an external list of stopwords (words that will not be indexed at all). A default set of stopwords
 * is used unless an alternative list is specified.
 * </p>
 *
 * <a name="version"/>
 * <p>
 * You must specify the required {@link Version} compatibility when creating CzechAnalyzer:
 * <ul>
 * <li>As of 3.1, words are stemmed with {@link SlovakStemFilter}
 * <li>As of 2.9, StopFilter preserves position increments
 * <li>As of 2.4, Tokens incorrectly identified as acronyms are corrected (see
 * <a href="https://issues.apache.org/jira/browse/LUCENE-1068">LUCENE-1068</a>)
 * </ul>
 */
public final class SlovakLemmaAnalyzer extends StopwordAnalyzerBase {

    /**
     * File containing default Slovak stopwords.
     */
    public final static String DEFAULT_STOPWORD_FILE = "stop-words.txt";
    private final CharArraySet stemExclusionSet;
    private final Dictionary dictionary;

    public enum Dictionary {

        DEFAULT("sk"), MLTEAST("mlteast-sk");

        private final String resource;

        private Dictionary(String resource) {
            this.resource = resource;
        }

        public String getResource() {
            return resource;
        }
    }

    /**
     * Returns an unmodifiable instance of the default stop words set.
     *
     * @return default stop words set.
     */
    public static CharArraySet getDefaultStopSet() {
        return SlovakLemmaAnalyzer.DefaultSetHolder.DEFAULT_STOP_SET;
    }

    /**
     * Atomically loads the DEFAULT_STOP_SET in a lazy fashion once the outer class accesses the static final
     * set the first time.;
     */
    private static class DefaultSetHolder {

        static final CharArraySet DEFAULT_STOP_SET = getStopSet();

        private static CharArraySet getStopSet() {
            try {
                return WordlistLoader.getWordSet(IOUtils.getDecodingReader(SlovakLemmaAnalyzer.class,
                        DEFAULT_STOPWORD_FILE, IOUtils.CHARSET_UTF_8), "#", Version.LUCENE_CURRENT);
            } catch (IOException ex) {
                // default set should always be present as it is part of the
                // distribution (JAR)
                throw new RuntimeException("Unable to load default stopword set");
            }
        }
    }

    /**
     * Builds an analyzer with the default stop words: {@link #getDefaultStopSet}.
     *
     * @param matchVersion
     */
    public SlovakLemmaAnalyzer(Version matchVersion) {
        this(matchVersion, Dictionary.DEFAULT, SlovakLemmaAnalyzer.DefaultSetHolder.DEFAULT_STOP_SET);
    }

    /**
     * Builds an analyzer with the default stop words: {@link #getDefaultStopSet}.
     *
     * @param matchVersion
     */
    public SlovakLemmaAnalyzer(Version matchVersion, Dictionary dictionary) {
        this(matchVersion, dictionary, SlovakLemmaAnalyzer.DefaultSetHolder.DEFAULT_STOP_SET);
    }

    /**
     * Builds an analyzer with the given stop words.
     *
     * @param matchVersion lucene compatibility version
     * @param dictionary dictionary resource
     * @param stopwords a stopword set
     */
    public SlovakLemmaAnalyzer(Version matchVersion, Dictionary dictionary, CharArraySet stopwords) {
        this(matchVersion, dictionary, stopwords, CharArraySet.EMPTY_SET);
    }

    /**
     * Builds an analyzer with the given stop words. If a non-empty stem exclusion set is provided this
     * analyzer will add a {@link KeywordMarkerFilter} before stemming.
     *
     * @param matchVersion lucene compatibility version
     * @param dictionary dictionary resource
     * @param stopwords a stopword set
     * @param stemExclusionSet a set of terms not to be stemmed
     */
    public SlovakLemmaAnalyzer(Version matchVersion, Dictionary dictionary, CharArraySet stopwords,
            CharArraySet stemExclusionSet) {
        super(matchVersion, stopwords);
        this.dictionary = dictionary;
        this.stemExclusionSet = CharArraySet.unmodifiableSet(CharArraySet.copy(
                matchVersion, stemExclusionSet));
    }

    /**
     * Creates {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents} used to tokenize all the text
     * in the provided {@link Reader}.
     *
     * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents} built from a
     * {@link StandardTokenizer} filtered with
     * {@link StandardFilter}, {@link LowerCaseFilter}, {@link StopFilter} , and {@link CzechStemFilter} (only
     * if version is >= LUCENE_31). If a version is >= LUCENE_31 and a stem exclusion set is provided via
     * {@link #CzechAnalyzer(Version, CharArraySet, CharArraySet)} a {@link KeywordMarkerFilter} is added
     * before {@link CzechStemFilter}.
     */
    @Override
    protected TokenStreamComponents createComponents(String fieldName,
            Reader reader) {
        final Tokenizer source = new StandardTokenizer(matchVersion, reader);
        TokenStream result = new StandardFilter(matchVersion, source);
        result = new LowerCaseFilter(matchVersion, result);
        result = new StopFilter(matchVersion, result, stopwords);
        if (matchVersion.onOrAfter(Version.LUCENE_31)) {
            if (!this.stemExclusionSet.isEmpty()) {
                result = new SetKeywordMarkerFilter(result, stemExclusionSet);
            }
            result = new MorfologikFilter(result, dictionary.getResource(), matchVersion);
        }
        result = new ASCIIFoldingFilter(result);
        return new TokenStreamComponents(source, result);
    }
}



---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@lucene.apache.org
For additional commands, e-mail: dev-help@lucene.apache.org

[prev in list] [next in list] [prev in thread] [next in thread]
Configure | About | News | Add a list | Sponsored by KoreLogic