Fortsatt fokus på FAST->Solr migreringer

En stor del av Cominvent’s prosjekter de siste årene har vært migreringer fra FAST ESP til Solr. Noen kunder har et kostnadsfokus mens andre trenger en søkemotor som kjører på Linux. Uansett grunn, med mer enn 10 års FAST erfaring er Cominvent en autoritet på området og sikrer en vellykket transisjon.

Eksempelvis har vi nylig migrert Dagens Næringsliv (www.dn.no) og flere andre norske online aviser fra FAST til Solr, inkludert norsk lingvistikk og Escenic ECM intregrasjon.

Våre venner i Lucid Imagination holder et gratis webinar om dette emnet den 18. november, ikke gå glipp av det hvis du ønsker å høre flere suksesshistorier.

Se også vår side om migrering.

Publisert i Søketeknologi | Skriv en kommentar

Kan Oracle stoppe Java fra å åpnes opp?

Det pågår en krig om den fremtidige åpenheten til Java-plattformen. Oracle prøver å kapitalisere på sitt eget eierskap eller forvalterskap av Java-plattformen (som de arvet fra Sun), ved å bl.a. ta betalt for en enterprise versjon av JVM, såvel som å stoppe konkurrenter som Google i å lykkes med Java. Oravle vil gjøre Java mer lukket, for å berike seg selv – en strategi som kun skader fellesskapet, brukerne, og til sist Oracle’s egne kunder.

Siste trekk er fra Apache Software Foundation, hvis Apache-lisensierte “Harmony” implemensjon av Java-VMen blir bannlyst av Oracle fordi de vil at deres OpenJDK skal være den eneste frie implementasjonen av Java (åpenbart for å kunne ha et salgsgrunnlag for JRockit fra Oracle, og for å beholde kontrollen). Som et gjensvar truer Apache denne uken med å forlate sin plass i JCP (Java Community Process) hvis Oracle ikke gir Harmony-prosjektet dens lovfestede rett til å bli en sertifisert Java-distribusjon ved hjelp av den såkalte TCK.

Personlig heier jeg på Apache og håper de andre JCP-medlemmene vil støtte kampanjen, og med hjelp fra Google (og forhåpentligvis IBM) til slutt se en sann åpen modell for forvalterskapet av Java, inkludert en Apache lisensiert JVM som alle kan bruke fritt. Det er det som virkelig ville hjulpet Java å tiltrekke seg mer momentum og flere utviklere i fremtiden.

Publisert i Åpen kildekode, I nyhetene | Merket med | Skriv en kommentar

Solr sammendrag Oktober

Vi fortsetter å gi deg sammendrag av hva som skjer på Solr fronten. Takk til Sematext for nok et bra referat.

Funksjonalitet som er committet (lagt inn i kildekoden)

Spennende funksjonalitet under utvikling

  • Fasettering er en mye brukt funksjonalitet, men av og til ønsker folk seg mer avanserte fasetter. Hierarchical faceting (hierarkiske fasetter) er en slik ting. Utviklingen har pågått en god stund, og til tross for at det også finnes noen patcher er den fortsatt ikke committet. En annen liknende issue er Pivot (aka Decision Tree) Faceting Component som blir å finne som en ny søke-komponent. Denne har sett endel mer aktivitet i det siste så vi kommer nok til å se utvidet fasetterings-støtte i Sorl etterhvert.

Interessant ny funksjonalitet

  • Det å utvide SchemaField med egne atributter jobbes det med i Custom SchemaField object issuen.
  • Det å forbedre relevans er alltid en stor og viktig aktivitet, og er ofte en stor del av våre konsulentoppdrag, uansett hvor god Solr sin ut-av-boksen relevas er. Et nyttig tillegg til vår verktøykasse kan komme fra Anti-phrasing funksjonen. Tanken er at visse ord-sekvenser i en spørring er irrelevante for spørringens innhold (som f.eks. “Hvor finner jeg” eller “Hvor er”), og kan/burde ignoreres i selve søket. Denne JIRA saken (som Jan Høydahl har laget) er fortsatt helt fersk, så ikke hold pusten for en implementering neste uke, men forvent den i en av de fremtidige Solr versjonene.
  • Hvis du ofte jobber med finansielle data kan du finne noe nyttig i denne: Money FieldType. Dette er en ny felt-type som støtter desimaltall og range spørringer, sortering og valutakurs-omregning.
  • Lucene sin ICUTokenizer er nyttig til flerspråklig tokenisering, men den har hittil ikke vært tilgjengelig for Solr. JIRA-saken Provide Solr FilterFactory for Lucene ICUTokenizer vil gi oss en FilterFactory som lar oss bruke denne fra Solr. Patchen finnes allerede og kan testes ut! Hvis du behøver ytterligere multispråk støtte i Solr kan du også kikke på Sematext’s Multilingual Indexer.

Diverse

  • Et emne som vi har skrevet om før og som skaper litt forvirring, handler om de ulike Solr versjonene. Emnet diskuteres fortsatt, og her er en tråd fra mailingslistene: Which version of Solr to use?. For å oppsummere. Solr 1.5 blir antakelig aldri sluppet. Kildekode-grenen branch_3x er stabil og danner grunnlag for neste versjon som er 3.1. Trunk-versjonen inneholder relativt stabil kode, og er utviklingsversjonen av hva som en dag vil bli Solr 4.0.
  • Hvis du bruker fasetter i din applikasjon kan du kanskje finne ideer til hvordan du kan optimalisere den her: Faceting and first letter of fields.
  • Det er også oppdaget at Solr har problemer med å kjøre på Tomcat 7. Dette gjelder alle versjoner av Solr. For å lese mer om dette kan du se på disse: Problems running on tomcat og SOLR-2022 .
  • Replikerings-funksjonen mellom master og slave fungerer ikke om disse kjører forskjellig versjon av Solr. Grunnen kan du se i denne saken: Cross-version replication broken by new javabin format. Det er altså fordi et nytt javabin format er lansert i versjon 3.x, så i tilfelle f.eks. master 1.4.1, og slave 3x vil du støte på problemet. Husk på det hvis du planlegger replikering på tvers av versjoner (noe som ikke er så lurt).

Dette var de mest interessante highlights for oktober. Les den engelske originalen her.

Skriv en kommentar

Solr sammendrag august 2010

Dette er en norsk oversettelse av Sematext’s nyttige “Solr Digest, August 2010“.

Det har vært mye aktivitet i Solr-verdenen i august, og vi har valgt ut de mest interessante for deg, gruppert i fire kategorier:

Ny funksjonalitet som kommer i neste versjon

  • Du finner info om tidligere jobb på CollapsingComponentJune’s digest (Sematext blog) i issue SOLR-1682. Mye jobb ble lagt ned i denne komponenten og det virker som den snart kan committes. Patchene som er vedlagt fungerer (mot trunk) så du kan teste de allerede.
  • SpellCheckComponent har fått en forbedring relatert til Lucene endringer –  Add support for specifying Spelling SuggestWord Comparator to Lucene spell checkers for SpellCheckComponent. Issue SOLR-2053 er allerede fikset og en patch er lagt ved hvis du trenger det, men den er også committet til 3_x branch, altså neste versjon av Solr.
  • En annen mindre funksjon er forbedring av WordDelimiterFilter SOLR-2059 – Allow customizing how WordDelimiterFilter tokenizes text. Patchen er allerede der og committet til trunk og 3_x.
  • Ytelsesforbedring for fasetter finner vi i SOLR-2089 – Faceting: order term ords before converting to values. Bak denne tittelen finner vi en real hastighetsforbedring for tilfeller der facet.limit er høy. Patchen er tilgjengelig og den er committet til trunk og 3_x branch.

Nye funksjoner under utvikling

  • En veldig viktig (og antakelig ønsket) funksjon har nettopp fått sin Jira issue – SOLR-2080 – Create a Related Search Component. Denne er opprettet av Grant Ingersoll, så vi kan forvente kvalitetsarbeid her som vanlig. Det er ingen patch så langt, da denne nettopp har startet, men du kan følge med på utviklingen i ticketen. Dersom du trenger noe før denne patchen er ferdig, har Sematext en kommersiell komponent som heter  RelatedSearches som du kan sjekke ut.
  • Jira issue SOLR-2026 – Need infrastructure support in Solr for requests that perform multiple sequential queries – vil gi noen interessante muligheter for søkekomponenter (search components); spesielt dersom du skriver dine egne. Hvis Solr får bedre støtte for kjøring av flere parallelle spørringer fra en enkelt forespørsel vil visse komponenter bli enklere å implementere.
  • Defining QueryComponent’s default query parser (SOLR-2031) lar deg konfigurere default query parser i solrconfig.xml, hvis du noen gang har følt at du behøver det.
  • Det ser også ut til at QueryElevationComponent kan få en forbedring: Distinguish Editorial Results from “normal” results in the QueryElevationComponent. Jira issue SOLR-2037 er der du kan følge med på denne.

Noen nye bugs

  • DataImportHandler har en feil – Multivalued fields with dynamic names does not work properly with DIH – som enda ikke er rettet, men hvis du har dette problemet kan du sjekke status her.
  • En annen bug i DataImportHandler har med connection lekkasje å gjøre – DIH doesn’t release JDBC connections in conjunction with DB2. Det er ingen fiks så langt, men du kan følge med selv i Jira.

Andre interessante nyheter

  • Et potensielt nyttig verktøy du bør se på er SolrMeter. Det er et selvstendig verktøy for ytelsestesting av Solr. Utviklerne beskriver det selv slik: Hovedmålet med dette åpne kildekode-verktøyet er å gi Solr bruker-miljøet et “generisk verktøy for å teste Solr spesifikt”. Det sender spørringer og legger til dokumenter for å forsikre at Solr implementasjonen din kommer til å tåle realistisk bruk. Med SolrMeter kan du simulere lasten mot Solr og få ut grafisk statistikk..
  • Hvilket utviklingsmiljø bruker du mot Solr/Lucene? Hvis du bruker IntelliJ og vil sette den opp mot Lucene eller Solr kan du sjekke denne nyttige diskusjonen og patch i LUCENE-2611 – IntelliJ IDEA setup.
Skriv en kommentar

Solr sammendrag juli 2010

Som vanlig, er juli en av de tregere måneder i Solr verdenen, men vi klarte å finne noen interessante temaer:

  • Interessante funksjonen kan legges til med Solr-1979 – Create LanguageIdentifierUpdateProcessor. Den vil gi mulighet til å håndtere tekst på ulike språk (tenk på stemming i analyse, for eksempel) ved å detektere språket automatisk. Denne issue er helt ny, så arbeidet med denne og noen brukbare patcher kommer en gang i fremtiden. Men hvis du trenger noe som fungerer nå, har Sematext noen produkter for flerspråklig funksjonalitet, for eksempel, flerspråklig indeksering eller Språkidentifikator .
  • En annen interessant ting kommer med Solr-1980Boundary match support. Dette vil muliggjøre søtte for søk på ord i starten eller på slutten av feltet, og dermed unngå falske delvise treff. Dette vil kunne gi mer relevante søkeresultater i noen spesielle tilfeller. Denne ticket er også i sin spede begynnelse, og har ingen patcher ennå, så vi får vente og se hvordan det utvikler seg.
  • Noen ganger ønsker vi å lagre (store) noe annet enn den rå input-verdien av et felt (husk, Solr lagrer en “stored” og en “indexed” versjon, og det som returneres er den rå input-verdien til, ikke dens analysert versjon). En fiks for dette finnes allerede i en ganske fersk JIRA ticket – Solr-1997 – Lagre intern verdi i stedet for input-verdi.
  • Er du klar til å begynne å bruke Solr, men er usikker på hvilken versjon du bør bruke? Ikke bekymre deg, forvirring om Solr’s versjoner startet denne våren (se Solr May 2010 Digest ), men ting har stabilisert seg i det siste. Den siste release-utgaven er 1.4.1, med mange feilrettinger. Den neste versjonen vil bli 3.1, og du finner kildekoden på branch_3x grenen. Du finner de nattlige byggene her . TRUNK brukes fremdeles for “ustabil” utvikling og den framtidige 4.0-versjonen. For mer informasjon, sjekk disse siste trådene på Solr mailingliste: her og her .
  • Mange vil nok være enig i at Solr SpellCheckComponent  ikke er veldig nyttig i real life applikasjoner. Et av de største problemene er at det dårlig håndterer spørringer med flere ord, der forslagene i “collate” gir beste forslag for hvert ord i spørringen, slik at du ofte får forslag som gir 0 treff. I tillegg får man ikke vite viktig meta-informasjon, som hvor mange treff søket vil generere og hvilke resultater det vil gi. Noen av disse problemene kan være løst en dag med Solr-2010Improvements to SpellCheckComponent Collate functionality. Den første versjonen av oppdateringen er allerede klar. Men hvis du vil bruke slik funksjonalitet i produksjon i dag, kan du vurdere en mye mer sofistikert og produksjons-klar komponent utviklet av Sematext – DYM ReSearcher – du kan se Dym ReSearcher i aksjon på Search-Lucene.com, for eksempel.
  • En mindre funksjonalitet er lagt til QueryElevationComponent – Add option to return only the specified results. Den kom i JIRA issue Solr-1966 og er allerede portet til 3.x og TRUNK.

Denne artikkelen er norsk oversettelse av Sematext’s Solr Digest.

Skriv en kommentar