Solr sammendrag august 2010

Dette er en norsk oversettelse av Sematext’s nyttige “Solr Digest, August 2010“.

Det har vært mye aktivitet i Solr-verdenen i august, og vi har valgt ut de mest interessante for deg, gruppert i fire kategorier:

Ny funksjonalitet som kommer i neste versjon

  • Du finner info om tidligere jobb på CollapsingComponentJune’s digest (Sematext blog) i issue SOLR-1682. Mye jobb ble lagt ned i denne komponenten og det virker som den snart kan committes. Patchene som er vedlagt fungerer (mot trunk) så du kan teste de allerede.
  • SpellCheckComponent har fått en forbedring relatert til Lucene endringer –  Add support for specifying Spelling SuggestWord Comparator to Lucene spell checkers for SpellCheckComponent. Issue SOLR-2053 er allerede fikset og en patch er lagt ved hvis du trenger det, men den er også committet til 3_x branch, altså neste versjon av Solr.
  • En annen mindre funksjon er forbedring av WordDelimiterFilter SOLR-2059 – Allow customizing how WordDelimiterFilter tokenizes text. Patchen er allerede der og committet til trunk og 3_x.
  • Ytelsesforbedring for fasetter finner vi i SOLR-2089 – Faceting: order term ords before converting to values. Bak denne tittelen finner vi en real hastighetsforbedring for tilfeller der facet.limit er høy. Patchen er tilgjengelig og den er committet til trunk og 3_x branch.

Nye funksjoner under utvikling

  • En veldig viktig (og antakelig ønsket) funksjon har nettopp fått sin Jira issue – SOLR-2080 – Create a Related Search Component. Denne er opprettet av Grant Ingersoll, så vi kan forvente kvalitetsarbeid her som vanlig. Det er ingen patch så langt, da denne nettopp har startet, men du kan følge med på utviklingen i ticketen. Dersom du trenger noe før denne patchen er ferdig, har Sematext en kommersiell komponent som heter  RelatedSearches som du kan sjekke ut.
  • Jira issue SOLR-2026 – Need infrastructure support in Solr for requests that perform multiple sequential queries – vil gi noen interessante muligheter for søkekomponenter (search components); spesielt dersom du skriver dine egne. Hvis Solr får bedre støtte for kjøring av flere parallelle spørringer fra en enkelt forespørsel vil visse komponenter bli enklere å implementere.
  • Defining QueryComponent’s default query parser (SOLR-2031) lar deg konfigurere default query parser i solrconfig.xml, hvis du noen gang har følt at du behøver det.
  • Det ser også ut til at QueryElevationComponent kan få en forbedring: Distinguish Editorial Results from “normal” results in the QueryElevationComponent. Jira issue SOLR-2037 er der du kan følge med på denne.

Noen nye bugs

  • DataImportHandler har en feil – Multivalued fields with dynamic names does not work properly with DIH – som enda ikke er rettet, men hvis du har dette problemet kan du sjekke status her.
  • En annen bug i DataImportHandler har med connection lekkasje å gjøre – DIH doesn’t release JDBC connections in conjunction with DB2. Det er ingen fiks så langt, men du kan følge med selv i Jira.

Andre interessante nyheter

  • Et potensielt nyttig verktøy du bør se på er SolrMeter. Det er et selvstendig verktøy for ytelsestesting av Solr. Utviklerne beskriver det selv slik: Hovedmålet med dette åpne kildekode-verktøyet er å gi Solr bruker-miljøet et “generisk verktøy for å teste Solr spesifikt”. Det sender spørringer og legger til dokumenter for å forsikre at Solr implementasjonen din kommer til å tåle realistisk bruk. Med SolrMeter kan du simulere lasten mot Solr og få ut grafisk statistikk..
  • Hvilket utviklingsmiljø bruker du mot Solr/Lucene? Hvis du bruker IntelliJ og vil sette den opp mot Lucene eller Solr kan du sjekke denne nyttige diskusjonen og patch i LUCENE-2611 – IntelliJ IDEA setup.
Dette innlegget ble publisert i Ukategorisert. Bokmerk permalenken.