Solr sammendrag juli 2010

Som vanlig, er juli en av de tregere måneder i Solr verdenen, men vi klarte å finne noen interessante temaer:

Interessante funksjonen kan legges til med Solr-1979 – Create LanguageIdentifierUpdateProcessor. Den vil gi mulighet til å håndtere tekst på ulike språk (tenk på stemming i analyse, for eksempel) ved å detektere språket automatisk. Denne issue er helt ny, så arbeidet med denne og noen brukbare patcher kommer en gang i fremtiden. Men hvis du trenger noe som fungerer nå, har Sematext noen produkter for flerspråklig funksjonalitet, for eksempel, flerspråklig indeksering eller Språkidentifikator .
En annen interessant ting kommer med Solr-1980 – Boundary match support. Dette vil muliggjøre søtte for søk på ord i starten eller på slutten av feltet, og dermed unngå falske delvise treff. Dette vil kunne gi mer relevante søkeresultater i noen spesielle tilfeller. Denne ticket er også i sin spede begynnelse, og har ingen patcher ennå, så vi får vente og se hvordan det utvikler seg.
Noen ganger ønsker vi å lagre (store) noe annet enn den rå input-verdien av et felt (husk, Solr lagrer en “stored” og en “indexed” versjon, og det som returneres er den rå input-verdien til, ikke dens analysert versjon). En fiks for dette finnes allerede i en ganske fersk JIRA ticket – Solr-1997 – Lagre intern verdi i stedet for input-verdi.
Er du klar til å begynne å bruke Solr, men er usikker på hvilken versjon du bør bruke? Ikke bekymre deg, forvirring om Solr’s versjoner startet denne våren (se Solr May 2010 Digest ), men ting har stabilisert seg i det siste. Den siste release-utgaven er 1.4.1, med mange feilrettinger. Den neste versjonen vil bli 3.1, og du finner kildekoden på branch_3x grenen. Du finner de nattlige byggene her . TRUNK brukes fremdeles for “ustabil” utvikling og den framtidige 4.0-versjonen. For mer informasjon, sjekk disse siste trådene på Solr mailingliste: her og her .
Mange vil nok være enig i at Solr SpellCheckComponent ikke er veldig nyttig i real life applikasjoner. Et av de største problemene er at det dårlig håndterer spørringer med flere ord, der forslagene i “collate” gir beste forslag for hvert ord i spørringen, slik at du ofte får forslag som gir 0 treff. I tillegg får man ikke vite viktig meta-informasjon, som hvor mange treff søket vil generere og hvilke resultater det vil gi. Noen av disse problemene kan være løst en dag med Solr-2010 – Improvements to SpellCheckComponent Collate functionality. Den første versjonen av oppdateringen er allerede klar. Men hvis du vil bruke slik funksjonalitet i produksjon i dag, kan du vurdere en mye mer sofistikert og produksjons-klar komponent utviklet av Sematext – DYM ReSearcher – du kan se Dym ReSearcher i aksjon på Search-Lucene.com, for eksempel.
En mindre funksjonalitet er lagt til QueryElevationComponent – Add option to return only the specified results. Den kom i JIRA issue Solr-1966 og er allerede portet til 3.x og TRUNK.

Denne artikkelen er norsk oversettelse av Sematext’s Solr Digest.

Cominvent AS - Enterprise search consultants

Search, and you will find!

Leave a comment Cancel reply