Wer sich mit der Indexierung von deutschsprachigen Inhalten beschäftigt und dabei Apache Solr und Tomcat als Backend verwendet, wird relativ schnell auf ein merkwürdiges Phänomen stoßen: Aufgrund der Default-ISO-Einstellung von Tomcat (zumindest bei Tomcat 5.5 in Ubuntu), werden für Suchanfragen mit Sonderzeichen (z.B. "Zürich") keine Ergebnisse gefunden.
Abhilfe schafft hier die richtige Tomcat-Konfiguration in der server.xml. Um die UTF-8-Unterstützung zu aktivieren, reicht es aus durch den Parameter "URIEncoding" auf "UTF-8" zu setzen.
Vorher:
<Connector port="8080" maxHttpHeaderSize="8192" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"/>
Nacher:
<Connector port="8080" maxHttpHeaderSize="8192" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8"/>
Nach dem Neustart von Tomcat mit "/etc/init.d/tomcat5.5 restart" sollte einer korrekten Indexierung und der Ergebnisauslieferung trotz Sonderzeichen nichts mehr im Wege stehen.










