solrwordpdf 如何使用solr创建富文本索引

作者: 用户119103814
来源: 51数据库
2020-04-21

Solr支持从富文本文件中，如pdf,word中抽取内容建立索引。

首先，需要配置支持这一功能的requestHandler。编辑solrconfig.xml,加入：

<requestHandlername="/update/extract"class="solr.extraction.ExtractingRequestHandler">

<lstname="defaults">

<strname="fmap.content">content</str>

<strname="fmap.Content-Type">Content-Type</str>

<strname="uprefix">ignored_</str>

</lst>

<lstname="date.formats">

</lst>

</requestHandler>

solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包：solr-dataimporthandler-extras.jar到lib目录，并确认solrconfig.xml中的lib配置包含它。

ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的，

</div>

调用/update/extract完成文件索引

调用/update/extrac的方式有很多种，下面介绍使用solr4j api在java工程里调用：

//建立客户端连接

SolrClientclient=newHttpSolrClient("http://localhost:8080/solr/core1");

//单个文件索引

publicvoidindexFromFile(StringfileName,Stringid)throwsException{

//ContentStreamUpdateRequest是专门用来提交文件的

ContentStreamUpdateRequestrequest=newContentStreamUpdateRequest("/update/extract");

StringcontentType="application/text";

request.addFile(newFile(fileName),contentType);

//literal.xxx文件以外的字段，xxx将直接映射到schema.xml中的同名字段

request.setParam("literal.id",String.valueOf(id));

request.setParam("literal.author",author);

request.setParam("literal.title",tilte);

request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE,true,true);

client.request(request);

client.commit();

}

publicstaticvoidmain(String[]args){

try{

SolrManangerclient=newSolrMananger();

client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf",1,"Justn","solr-ref");

}catch(Exceptione){

e.printStackTrace();

}

运行后，查看solr控制台，使用query验证文件是否成功索引。

bitnami apache solr 怎么用

BitNami Apache Solr Stack是一个来开发和部署Java应用程序的环境，它包括预配置，Apache和MySQL的准备运行的版本，使用户可以得到环境和回答了几个问题后，在几分钟内运行。支持在Windows，Linux，Linux的64和Mac OS X操作系统。

BitNami Apache Solr实现栈是从Apache Lucene项目的企业平台。其主要功能包括强大的全文搜索，命中高亮面搜索，动态聚类，数据库整合，丰富的文档（如Word，PDF格式）处理，地理信息搜索。

GitHub上面有哪些经典的java框架源码

Bazel：来自Google的构建工具，可以快速、可靠地构建代码。官网
Gradle：使用Groovy（非XML）进行增量构建，可以很好地与Maven依赖管理配合工作。官网
Buck：Facebook构建工具。官网

字节码操作

编程方式操作字节码的开发库。

ASM：通用底层字节码操作和分析开发库。官网
Byte Buddy：使用流式API进一步简化字节码生成。官网
Byteman：在运行时通过DSL（规则）操作字节码进行测试和故障排除。官网
Javassist：一个简化字节码编辑尝试。官网

集群管理

在集群内动态管理应用程序的框架。

Apache Aurora：Apache Aurora是一个Mesos框架，用于长时间运行服务和定时任务（cron job）。官网
Singularity：Singularity是一个Mesos框架，方便部署和操作。它支持Web Service、后台运行、调度作业和一次性任务。官网

代码分析

测量代码指标和质量工具。

Checkstyle：代码编写规范和标准静态分析工具。官网
Error Prone：将常见编程错误作为运行时错误报告。官网
FindBugs：通过字节码静态分析查找隐藏bug。官网
jQAssistant：使用基于Neo4J查询语言进行代码静态分析。官网
PMD：对源代码分析查找不良的编程习惯。官网
SonarQube：通过插件集成其它分析组件，对过去一段时间内的数据进行统计。官网

编译器生成工具

用来创建解析器、解释器或编译器的框架。

ANTLR：复杂的全功能自顶向下解析框架。官网
JavaCC：JavaCC是更加专门的轻量级工具，易于上手且支持语法超前预测。官网

外部配置工具

支持外部配置的开发库。

config：针对JVM语言的配置库。官网
owner：减少冗余配置属性。官网

约束满足问题求解程序

帮助解决约束满足问题的开发库。

Choco：可直接使用的约束满足问题求解程序，使用了约束规划技术。官网
JaCoP：为FlatZinc语言提供了一个接口，可以执行MiniZinc模型。官网
OptaPlanner：企业规划与资源调度优化求解程序。官网
Sat4J：逻辑代数与优化问题最先进的求解程序。官网

持续集成

Bamboo：Atlassian解决方案，可以很好地集成Atlassian的其他产品。可以选择开源许可，也可以购买商业版。官网
CircleCI：提供托管服务，可以免费试用。官网
Codeship：提供托管服务，提供有限的免费模式。官网
fabric8：容器集成平台。官网
Go：ThoughtWork开源解决方案。官网
Jenkins：支持基于服务器的部署服务。官网
TeamCity：JetBrain的持续集成解决方案，有免费版。官网
Travis：通常用作开源项目的托管服务。官网
Buildkite: 持续集成工具，用简单的脚本就能设置pipeline，而且能快速构建，可以免费试用。官网

CSV解析

简化CSV数据读写的框架与开发库

uniVocity-parsers：速度最快功能最全的CSV开发库之一，同时支持TSV与固定宽度记录的读写。官网

数据库

简化数据库交互的相关工具。

Apache Phoenix：HBase针对低延时应用程序的高性能关系数据库层。官网
Crate：实现了数据同步、分片、缩放、复制的分布式数据存储。除此之外还可以使用基于SQL的语法跨集群查询。官网
Flyway：简单的数据库迁移工具。官网
H2：小型SQL数据库，以可以作为内存数据库使用著称。官网
HikariCP：高性能JDBC连接工具。官网
JDBI：便捷的JDBC抽象。官网
Protobuf：Google数据交换格式。官网
SBE：简单二进制编码，是最快速的消息格式之一。官网
Wire：整洁轻量级协议缓存。官网

帮实现依赖翻转范式的开发库。官网

Apache DeltaSpike：CDI扩展框架。官网
Dagger2：编译时注入框架，不需要使用反射。官网
Guice：可以匹敌Dagger的轻量级注入框架。官网
HK2：轻量级动态依赖注入框架。官网

开发流程增强工具

从最基本的层面增强开发流程。

ADT4J：针对代数数据类型的JSR-269代码生成器。官网
AspectJ：面向切面编程（AOP）的无缝扩展。官网
Auto：源代码生成器集合。官网
DCEVM：通过修改JVM在运行时支持对已加载的类进行无限次重定义。官网
HotswapAgent：支持无限次重定义运行时类与资源。官网
Immutables：类似Scala的条件类。官网
JHipster：基于Spring Boot与AngularJS应用程序的Yeoman源代码生成器。官网
JRebel：无需重新部署，可以即时重新加载代码与配置的商业软件。官网
Lombok：减少冗余的代码生成器。官网
Spring Loaded：类重载代理。官网
vert.x：多语言事件驱动应用框架。官网

分布式应用

用来编写分布式容错应用的开发库和框架。

Akka：用来编写分布式容错并发事件驱动应用程序的工具和运行时。官网
Apache Storm：实时计算系统。官网
Apache ZooKeeper：针对大型分布式系统的协调服务，支持分布式配置、同步和名称注册。官网
Hazelcast：高可扩展内存数据网格。官网
Hystrix：提供延迟和容错。官网
JGroups：提供可靠的消息传递和集群创建的工具。官网
Orbit：支持虚拟角色（Actor），在传统角色的基础上增加了另外一层抽象。官网
Quasar：为JVM提供轻量级线程和角色。官网

分布式数据库

对应用程序而言，在分布式系统中的数据库看起来就像是只有一个数据源。

Apache Cassandra：列式数据库，可用性高且没有单点故障。官网
Apache HBase：针对大数据的Hadoop数据库。官网
Druid：实时和历史OLAP数据存储，在聚集查询和近似查询方面表现不俗。官网
Infinispan：针对缓存的高并发键值对数据存储。官网

发布

以本机格式发布应用程序的工具。

Bintray：发布二进制文件版本控制工具。可以于Maven或Gradle一起配合使用。提供开源免费版本和几种商业收费版本。官网
Central Repository：最大的二进制组件仓库，面向开源社区提供免费服务。Apache Maven默认使用Central官网Repository，也可以在所有其他构建工具中使用。
IzPack：为跨平台部署建立创作工具（Authoring Tool）。官网
JitPack：打包GitHub仓库的便捷工具。可根据需要构建Maven、Gradle项目，发布可立即使用的组件。官网
Launch4j：将JAR包装为轻量级本机Windows可执行程序。官网
Nexus：支持代理和缓存功能的二进制管理工具。官网
packr：将JAR、资源和JVM打包成Windows、Linux和Mac OS X本地发布文件。官网

文档处理工具

处理Office文档的开发库。

Apache POI：支持OOXML规范（XLSX、DOCX、PPTX）以及OLE2规范（XLS、DOC、PPT）。官网
documents4j：使用第三方转换器进行文档格式转换，转成类似MS Word这样的格式。官网
jOpenDocument：处理OpenDocument格式（由Sun公司提出基于XML的文档格式）。官网

函数式编程

函数式编程支持库。

Cyclops：支持一元（Monad）操作和流操作工具类、comprehension（List语法）、模式匹配、trampoline等特性。官网
Fugue：Guava的函数式编程扩展。官网
Functional Java：实现了多种基础和高级编程抽象，用来辅助面向组合开发（composition-oriented development）。官网
Javaslang：一个函数式组件库，提供持久化数据类型和函数式控制结构。官网
jOOλ：旨在填补Java 8 lambda差距的扩展，提供了众多缺失的类型和一组丰富的顺序流API。官网

游戏开发

游戏开发框架。

jMonkeyEngine：现代3D游戏开发引擎。官网
libGDX：全面的跨平台高级框架。官网
LWJGL：对OpenGL/CL/AL等技术进行抽象的健壮框架。官网

GUI

现代图形化用户界面开发库。

JavaFX：Swing的后继者。官网
Scene Builder：开发JavaFX应用的可视化布局工具。官网

高性能计算

涵盖了从集合到特定开发库的高性能计算相关工具。

Agrona：高性能应用中常见的数据结构和工具方法。官网
Disruptor：线程间消息传递开发库。官网
fastutil：快速紧凑的特定类型集合（Collection）。官网
GS Collections：受Smalltalk启发的集合框架。官网
HPPC：基础类型集合。官网
Javolution：实时和嵌入式系统的开发库。官网
JCTools：JDK中缺失的并发工具。官网
Koloboke：Hash set和hash map。官网
Trove：基础类型集合。官网
High-scale-bli:Cliff Click 个人开发的高性能并发库官网

IDE

简化开发的集成开发环境。

Eclipse：老牌开源项目，支持多种插件和编程语言。官网
IntelliJ IDEA：支持众多JVM语言，是安卓开发者好的选择。商业版主要针对企业客户。官网
NetBeans：为多种技术提供集成化支持，包括Java SE、Java EE、数据库访问、HTML5
Imgscalr：纯Java 2D实现，简单、高效、支持硬件加速的图像缩放开发库。官网
Picasso：安卓图片下载和图片缓存开发库。官网
Thumbnailator：Thumbnailator是一个高质量Java缩略图开发库。官网
ZXing：支持多种格式的一维、二维条形码图片处理开发库。官网
im4java: 基于ImageMagick或GraphicsMagick命令行的图片处理开发库，基本上ImageMagick能够支持的图片格式和处理方式都能够处理。官网
Apache Batik：在Java应用中程序以SVG格式显示、生成及处理图像的工具集，包括SVG解析器、SVG生成器、SVG DOM等模块，可以集成使用也可以单独使用，还可以扩展自定义的SVG标签。官网

JSON

简化JSON处理的开发库。

Genson：强大且易于使用的Java到JSON转换开发库。官网
Gson：谷歌官方推出的JSON处理库，支持在对象与JSON之间双向序列化，性能良好且可以实时调用。官网
Jackson：与GSON类似，在频繁使用时性能更佳。官网
LoganSquare：基于Jackson流式API，提供对JSON解析和序列化。比GSON与Jackson组合方式效果更好。官网
Fastjson：一个Java语言编写的高性能功能完善的JSON库。官网
Kyro：快速、高效、自动化的Java对象序列化和克隆库。官网

JVM与JDK

目前的JVM和JDK实现。

JDK 9：JDK 9的早期访问版本。官网
OpenJDK：JDK开源实现。官网

基于JVM的语言

除Java外，可以用来编写JVM应用程序的编程语言。

Scala：融合了面向对象和函数式编程思想的静态类型编程语言。官网
Groovy：类型可选（Optionally typed）的动态语言，支持静态类型和静态编译。目前是一个Apache孵化器项目。官网
Clojure：可看做现代版Lisp的动态类型语言。官网
Ceylon：RedHat开发的面向对象静态类型编程语言。官网
Kotlin：JetBrain针对JVM、安卓和浏览器提供的静态类型编程语言。官网
Xtend：一种静态编程语言，能够将其代码转换为简洁高效的Java代码，并基于JVM运行。官网

日志

记录应用程序行为日志的开发库。

Apache Log4j 2：使用强大的插件和配置架构进行完全重写。官网
kibana：分析及可视化日志文件。官网
Logback：强健的日期开发库，通过Groovy提供很多有趣的选项。官网
logstash：日志文件管理工具。官网
Metrics：通过JMX或HTTP发布参数，并且支持存储到数据库。官网
SLF4J：日志抽象层，需要与具体的实现配合使用。官网

机器学习

提供具体统计算法的工具。其算法可从数据中学习。

Apache Flink：快速、可靠的大规模数据处理引擎。官网
Apache Hadoop：在商用硬件集群上用来进行大规模数据存储的开源软件框架。官网
Apache Mahout：专注协同过滤、聚类和分类的可扩展算法。官网
Apache Spark：开源数据分析集群计算框架。官网
DeepDive：从非结构化数据建立结构化信息并集成到已有数据库的工具。官网
Deeplearning4j：分布式多线程深度学习开发库。官网
H2O：用作大数据统计的分析引擎。官网
Weka：用作数据挖掘的算法集合，包括从预处理到可视化的各个层次。官网
QuickML：高效机器学习库。官网、GitHub

消息传递

在客户端之间进行消息传递，确保协议独立性的工具。

Aeron：高效可扩展的单播、多播消息传递工具。官网
Apache ActiveMQ：实现JMS的开源消息代理（broker），可将同步通讯转为异步通讯。官网
Apache Camel：通过企业级整合模式（Enterprise Integration Pattern EIP）将不同的消息传输API整合在一起。官网
Apache Kafka：高吞吐量分布式消息系统。官网
Hermes：快速、可靠的消息代理（Broker），基于Kafka构建。官网
JBoss HornetQ：清晰、准确、模块化，可以方便嵌入的消息工具。官网
JeroMQ：ZeroMQ的纯Java实现。官网
Smack：跨平台XMPP客户端函数库。官网
Openfire：是开源的、基于XMPP、采用Java编程语言开发的实时协作服务器。 Openfire安装和使用都非常简单，并可利用Web界面进行管理。官网GitHub
Spark：是一个开源，跨平台IM客户端。它的特性支持集组聊天，电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。官网GitHub
Tigase：是一个轻量级的可伸缩的 Jabber/XMPP 服务器。无需其他第三方库支持，可以处理非常高的复杂和大量的用户数，可以根据需要进行水平扩展。官网

杂项

未分类其它资源。

Design Patterns：实现并解释了最常见的设计模式。官网
Jimfs：内存文件系统。官网
Lanterna：类似curses的简单console文本GUI函数库。官网
LightAdmin：可插入式CRUD UI函数库，可用来快速应用开发。官网
OpenRefine：用来处理混乱数据的工具，包括清理、转换、使用Web Service进行扩展并将其关联到数据库。官网
RoboVM：Java编写原生iOS应用。官网
Quartz：强大的任务调度库.官网

应用监控工具

监控生产环境中应用程序的工具。

AppDynamics：性能监测商业工具。官网
JavaMelody：性能监测和分析工具。官网
Kamon：Kamon用来监测在JVM上运行的应用程序。官网
New Relic：性能监测商业工具。官网
SPM：支持对JVM应用程序进行分布式事务追踪的性能监测商业工具。官网
Takipi：产品运行时错误监测及调试商业工具。官网

原生开发库

用来进行特定平台开发的原生开发库。

JNA：不使用JNI就可以使用原生开发库。此外，还为常见系统函数提供了接口。官网

自然语言处理

用来专门处理文本的函数库。

Apache OpenNLP：处理类似分词等常见任务的工具。官网
CoreNLP：斯坦佛CoreNLP提供了一组基础工具，可以处理类似标签、实体名识别和情感分析这样的任务。官网
LingPipe：一组可以处理各种任务的工具集，支持POS标签、情感分析等。官网
Mallet：统计学自然语言处理、文档分类、聚类、主题建模等。官网

网络

网络编程函数库。

Async Http Client：异步HTTP和WebSocket客户端函数库。官网
Grizzly：NIO框架，在Glassfish中作为网络层使用。官网
Netty：构建高性能网络应用程序开发框架。官网
OkHttp：一个Android和Java应用的HTTP+SPDY客户端。官网
Undertow：基于NIO实现了阻塞和非阻塞API的Web服务器，在WildFly中作为网络层使用。官网

ORM

处理对象持久化的API。

Ebean：支持快速数据访问和编码的ORM框架。官网
EclipseLink：支持许多持久化标准，JPA、JAXB、JCA和SDO。官网
Hibernate：广泛使用、强健的持久化框架。Hibernate的技术社区非常活跃。官网
MyBatis：带有存储过程或者SQL语句的耦合对象（Couples object）。官网
OrmLite：轻量级开发包，免除了其它ORM产品中的复杂性和开销。官网
Nutz：另一个SSH。官网，Github
JFinal：JAVA WEB + ORM框架。官网，Github

PDF

用来帮助创建PDF文件的资源。

Apache FOP：从XSL-FO创建PDF。官网
Apache PDFBox：用来创建和操作PDF的工具集。官网
DynamicReports：JasperReports的精简版。官网
flyingsaucer：XML/XHTML和CSS 2.1渲染器。官网
iText：一个易于使用的PDF函数库，用来编程创建PDF文件。注意，用于商业用途时需要许可证。官网
JasperReports：一个复杂的报表引擎。官网

性能分析

性能分析、性能剖析及基准测试工具。

jHiccup：提供平台中JVM暂停的日志和记录。官网
JMH：JVM基准测试工具。官网
JProfiler：商业分析器。官网
LatencyUtils：测量和报告延迟的工具。官网
VisualVM：对运行中的应用程序信息提供了可视化界面。官网
YourKit Java Profiler：商业分析器。官网

响应式开发库

用来开发响应式应用程序的开发库。

Reactive Streams：异步流处理标准，支持非阻塞式反向压力（backpressure）。官网
Reactor：构建响应式快速数据（fast-data）应用程序的开发库。官网
RxJava：通过JVM可观察序列（observable sequence）构建异步和基于事件的程序。官网

REST框架

用来创建RESTful 服务的框架。

Dropwizard：偏向于自己使用的Web框架。用来构建Web应用程序，使用了Jetty、Jackson、Jersey和Metrics。官网
Feign：受Retrofit、JAXRS-2.0和WebSocket启发的HTTP客户端连接器（binder）。官网
Jersey：JAX-RS参考实现。官网
RESTEasy：经过JAX-RS规范完全认证的可移植实现。官网
RestExpress：一个Java类型安全的REST客户端。官网
RestX：基于注解处理和编译时源码生成的框架。官网
Retrofit：类型安全的REST客户端。官网
Spark：受到Sinatra启发的Java REST框架。官网
Swagger：Swagger是一个规范且完整的框架，提供描述、生产、消费和可视化RESTful Web Service。官网
Blade：国人开发的一个轻量级的MVC框架. 它拥有简洁的代码，优雅的设计。官网

科学计算与分析

用于科学计算和分析的函数库。

DataMelt：用于科学计算、数据分析及数据可视化的开发环境。官网
JGraphT：支持数学图论对象和算法的图形库。官网
JScience：用来进行科学测量和单位的一组类。官网

搜索引擎

文档索引引擎，用于搜索和分析。

Apache Solr：一个完全的企业搜索引擎。为高吞吐量通信进行了优化。官网
Elasticsearch：一个分布式、支持多租户（multitenant）全文本搜索引擎。提供了RESTful Web接口和无schema的JSON文档。官网
Apache Lucene：是一个开放源代码的全文检索引擎工具包，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。官网

安全

用于处理安全、认证、授权或会话管理的函数库。

Apache Shiro：执行认证、授权、加密和会话管理。官网
Bouncy Castle，涵盖了从基础的帮助函数到PGP/SMIME操作。官网：多途加密开发库。支持JCA提供者（JCA provider)
Cryptomator：在云上进行客户端跨平台透明加密。官网
Keycloak：为浏览器应用和RESTful Web Service集成SSO和IDM。目前还处于beta版本，但是看起来非常有前途。官网
PicketLink：PicketLink是一个针对Java应用进行安全和身份认证管理的大型项目（Umbrella Project）。官网

序列化

用来高效处理序列化的函数库。

FlatBuffers：高效利用内存的序列化函数库，无需解包和解析即可高效访问序列化数据。官网
Kryo：快速、高效的对象图形序列化框架。官网
FST：提供兼容JDK的高性能对象图形序列化。官网
MessagePack：一种高效的二进制序列化格式。官网

应用服务器

用来部署应用程序的服务器。

Apache Tomcat：针对Servlet和JSP的应用服务器，健壮性好且适用性强。官网
Apache TomEE：Tomcat加Java EE。官网
Jetty：轻量级、小巧的应用服务器，通常会嵌入到项目中。官网
WebSphere Liberty：轻量级、模块化应用服务器，由IBM开发。官网
WildFly：之前被称作JBoss，由Red Hat开发。支持很多Java EE功能。官网

模板引擎

在模板中替换表达式的工具。

Apache Velocity：提供HTML页面模板、email模板和通用开源代码生成器模板。官网
FreeMarker：通用模板引擎，不需要任何重量级或自己使用的依赖关系。官网
Handlebars.java：使用Java编写的模板引擎，逻辑简单，支持语义扩展（semantic Mustache）。官网
Thymeleaf：旨在替换JSP，支持XML文件的工具。官网

测试

测试内容从对象到接口，涵盖性能测试和基准测试工具。

Apache JMeter：功能性测试和性能评测。官网
Arquillian：集成测试和功能行测试平台，集成Java EE容器。官网
AssertJ：支持流式断言提高测试的可读性。官网
Awaitility：用来同步异步操作的DSL。官网
Cucumber：BDD测试框架。官网
Gatling：设计为易于使用、可维护的和高性能负载测试工具。官网
Hamcrest：可用来灵活创建意图（intent）表达式的匹配器。官网
JMockit：用来模拟静态、final方法等。官网
JUnit：通用测试框架。官网
Mockito：在自动化单元测试中创建测试对象，为TDD或BDD提供支持。官网
PowerMock：支持模拟静态方法、构造函数、final类和方法、私有方法以及移除静态初始化器的模拟工具。官网
REST Assured：为REST/HTTP服务提供方便测试的Java DSL。官网
Selenide：为Selenium提供精准的周边API，用来编写稳定且可读的UI测试。官网
Selenium：为Web应用程序提供可移植软件测试框架。官网
Spock：JUnit-compatible framework featuring an expressive Groovy-derived specification language.官网兼容JUnit框架，支持衍生的Groovy范的语言。
TestNG：测试框架。官网
Truth：Google的断言和命题（proposition）框架。官网
Unitils：模块化测试函数库，支持单元测试和集成测试。官网
WireMock：Web Service测试桩（Stub）和模拟函数。官网

通用工具库

通用工具类函数库。

Apache Commons：提供各种用途的函数，比如配置、验证、集合、文件上传或XML处理等。官网
args4j：命令行参数解析器。官网
CRaSH：为运行进行提供CLI。官网
Gephi：可视化跨平台网络图形化操作程序。官网
Guava：集合、缓存、支持基本类型、并发函数库、通用注解、字符串处理、I/O等。官网
JADE：构建、调试多租户系统的框架和环境。官网
javatuples：正如名字表示的那样，提供tuple支持。尽管目前tuple的概念还有留有争议。官网
JCommander：命令行参数解析器。官网
Protégé：提供存在论（ontology）编辑器以及构建知识系统的框架。官网

网络爬虫

用于分析网站内容的函数库。

Apache Nutch：可用于生产环境的高度可扩展、可伸缩的网络爬虫。官网
Crawler4j：简单的轻量级网络爬虫。官网
JSoup：刮取、解析、操作和清理HTML。官网

Web框架

用于处理Web应用程序不同层次间通讯的框架。

Apache Tapestry：基于组件的框架，使用Java创建动态、强健的、高度可扩展的Web应用程序。官网
Apache Wicket：基于组件的Web应用框架，与Tapestry类似带有状态显示GUI。官网
Google Web Toolkit：一组Web开发工具集，包含在客户端将Java代码转为JavaScript的编译器、XML解析器、RCP官网API、JUnit集成、国际化支持和GUI控件。
Grails：Groovy框架，旨在提供一个高效开发环境，使用约定而非配置、没有XML并支持混入（mixin）。官网
Ninja：Java全栈Web开发框架。非常稳固、快速和高效。官网
Pippo：小型、高度模块化的类Sinatra框架。官网
Play：使用约定而非配置，支持代码热加载并在浏览器中显示错误。官网
PrimeFaces：JSF框架，提供免费和带支持的商业版本。包括若干前端组件。官网
Ratpack：一组Java开发函数库，用于构建快速、高效、可扩展且测试完备的HTTP应用程序。官网
Spring Boot：微框架，简化了Spring新程序的开发过程。官网
Spring：旨在简化Java EE的开发过程，提供依赖注入相关组件并支持面向切面编程。官网
Vaadin：基于GWT构建的事件驱动框架。使用服务端架构，客户端使用Ajax。官网
Blade：国人开发的一个轻量级的MVC框架. 它拥有简洁的代码，优雅的设计。官网

业务流程管理套件

流程驱动的软件系统构建。

jBPM：非常灵活的业务流程管理框架，致力于构建开发与业务分析人员之间的桥梁。官网
Activity：轻量级工作流和业务流程管理框架。官网github

资源

社区

知识管理系统的应用介绍

知识库系统：

知识库是TFS IRP系统里主要的对象，负责组织和管理知识。可以根据需要，为企业创建不同的知识库。TFS IRP系统支持多个知识库同时存在。支持可视化的工作流引擎驱动知识进行全生命周期管理。支持自定义审批业务规则，结合工作流进行知识的快速审批。支持与各业务系统进行知识交换的WebService、API接口支持知识的打分、评价、收藏、转发，利用群体智慧来挖掘经典知识。专家系统：

作为企业智力资源的载体，专家集中了企业的经验和智慧，发掘和利用专家的经验和智慧，可以更好的完成知识的传递和转换。

用户可以通过专家系统，找到系统内的专家，对专家进行点对点的提问。

问答系统：

一个好问题胜过一个好答案，用户在日常工作生活中遇到的各种问题，都可以通过问答系统进行提问，其他用户可以对问题进行回答，也可以通过问答系统直接向专家进行提问，专家用户在登录系统后，可以在问答系统中直接进行答复和处理。

项目管理系统：

每一项工作的完成都离不开团队的协作，如何将协作中产生的点滴信息和知识进行记录和总结是项目管理系统要解决的问题。

在项目管理中，可以进行项目的全周期管理，可以进行项目的创建、授权、记录项目动态，进行任务分配，总结项目文档等工作，可以全面的完成项目过程的记录和总结。

微博系统

微博系统可以让用户将日常的点滴知识进行记录，可以对别人的知识进行转发和评论，使知识可以在组织内流转。

社会化传播系统

以社会化传播为手段，通过社会化传播，让信息动起来！社会化传播可以加速信息的流动，同时，关注关系可以让合适的知识传递到需要的人面前。在IRP内，一切皆微博，每个业务动作都会自动的以微博的方式传递出去。

全文检索系统

基于solr和切词系统的全文搜索服务器。

智能推荐系统

根据用户的浏览轨迹、收藏行为、检索行为，关注行为、知识等级等信息，系统自动推荐给用户与之最相关的知识。

统计排行系统

系统可以统计用户信息、登录信息、浏览信息、知识的数量、评论的数量、关注的数量等各种信息，系统提供相应的报表信息，对系统运营数据进行解读。

智能关联系统

系统可以根据知识相关信息，自动的相互管理关联。

LOTUS知识管理体系

IBM/LOTUS围绕着知识管理包含的“人、场所和事件”三要素，建立专家网络和内容管理，方便用户和员工获得所需的知识，设立企业社区供员工共享知识和相互协作，开展企业培训，帮助员工自主学习，以提高企业的整体素质。IBM/LOTUS提出了从总体上可分为企业应用集成层、协同工作/发现层、知识管理应用层和知识门户层的知识管理框架，每层都着重介绍了其所使用的知识管理技术和工具。

LOTUS所提出的知识管理体系框架涉及的技术工具包括文档管理技术、群件技术、LOTUSNOTES、LOTUSKstation、LOTUSDiscouveryServer和IBMDomino等。其中，LOTUSKstation是具备知识管理功能的知识门户服务器，LOTUSDiscouveryServer是知识发现服务器。两者共同组成了LOTUS的知识发现系统(KnowledgeDiscoverySystem)，并与IBMDomino服务器结合提供当前市场上功能最强大的知识管理解决方案。

西门子公司的知识管理体系

虽说在知识管理方面走在前列的大多为软件、咨询公司，但作为传统企业代表的西门子公司，早在1997年就通过构建和利用适合自身发展的知识管理体系，达到了整体提升公司核心竞争力的目的。西门子的知识管理体系分为企业内外两个部分，外部主要涉及到企业日常对外活动、活动场所和活动主体；内部可以分为战略及评价、运作业务和支撑结构三大类。

具体包括制定知识作为公司资产的商业战略、培养相互信赖的知识共享文化和知识型组织，建立知识市场、确立知识资产，确定知识内容和结构、设置知识度量制并建立评估系统和模型、培养知识工人、采用知识技术使新知识行为成为可能并驱动其产生。整个框架内外部通过信息、最佳实践和研究、经验反馈等进行交流。西门子除了采用通信网络、文档管理、群件技术等常见技术外，最为关键的是采取了门户技术。在一个集成的门户中，员工可以有权限地交流和共享知识，并通过搜索跨越不同部门的障碍获得所需的知识。

万宝公司的知识管理体系

国内构建知识管理体系的企业对知识管理体系结构可谓仁者见仁，智者见智。作为国内首个知识管理畅饮者的万宝公司对企业构建知识管理体系也有自己独特的看法：企业首先应该意识到知识是企业无形的资产和财富，只有通过知识管理，利用科技将人与信息充分结合并创造出知识分享的文化，加速人员学习、创造及应用知识，才能达到组织目的，进而提高企业的核心竞争力。万宝公司提出的知识管理体系是建构在加强人员交流互动协作和良好的组织文化环境之上的，通过知识地图、社群运作模式和知识分享文化及行为规范来建立企业的知识网。

在国外，知识管理体系已被成功地实施于众多企业，尤其在咨询业、制造业、IT业等行业。不同行业中的知识管理体系有不同的着重点：咨询业在设计知识管理体系结构时，需要系统综合地考虑局部创新力量如何积累、如何传递到应用中、如何在应用中再创新、如何形成良性循环等，因此大多从整体着眼，对克服企业中存在的进程障碍和文化障碍给予同等的重视。制造业的知识管理体系主要应用于集成设计、管理和运营等环节中，关注焦点为集成设计的多样性、同步性、生产管理、质量管理、结构化定位等，以满足其在全球化制造业竞争环境中产品和经营革新过程的需要，因此其知识管理体系偏重技术支持。IT业的知识管理体系偏重IT技术的应用，利用在线系统实现对知识的整理分类、检索、共享、传递，提高企业的工作效率和应变能力。知识型组织如大学中的知识管理体系强调的是知识的开发、积累和创新，充分利用知识管理的技术和技巧，在降低成本、改进学术和管理服务的同时成为知识管理活动在经济社会扩散的载体，为知识管理的推广创造条件。

在国内，对知识管理体系的研究偏重理论，成功实施知识管理体系的企业可分属于咨询、制造和IT行业；国外咨询公司的中国区分支大多推行总公司的知识管理体系模式，实现员工培训，满足和创新客户需求和创业增值；作为国家经济主体的制造业的知识管理体系是对原有的信息管理系统的改进，有重点地对企业资源和活动进行有效的管理。IT企业普遍关注知识管理的体系结构，具备先进的知识管理技术和工具，但专门投资并获得成效的较少。

通过比较IBMLOTUS、西门子和蓝凌公司，以及考察众多的知识管理体系案例，我们不难看出：

①在知识管理体系的目标确定与构建方面，国外开发的知识管理体系有明确的构建理念、知识管理目标、功能强大的知识管理系统和先进的IT技术支持；而国内的知识管理体系缺乏自己的构建理念，着重开发知识管理软件工具来实现知识管理目标。

②在知识管理体系的运作当中，国外企业将知识管理体系与企业整体战略进行整合，在制定激励机制和培养共享文化的基础上，选择适当的技术工具进行系统建设与实施，以最终达到知识管理的目标；而国内企业往往缺乏对企业制度的制定和企业文化的培养，急于硬件建设和软件开发，难免使实施效果大打折扣。

深蓝海域kmpro知识管理体系

kmpro知识体系基本介绍

KMPRO知识管理平台——是深蓝海域公司历时5年自主研发，基于B/S架构，快速分析企业知识结构、分类存储知识数据、共享知识应用、提升企业管理效率，增值企业知识资产，提升企业核心竞争力的软件系统。

Kmpro知识管理系统(3.0)结合国内企业实际需求，构建了起知识管理平台，实现对知识的精确存储、版本、权限、共享、培训、重用，延长知识的生命周期，首创性的实现组织结构型、人力结构型知识地图（K－Map），将知识与人、岗位、工作流程的关系明确，提升人对知识应用的目的性和高效性。引入知识管理的自我学习、在线培训、积分激励、专家问答、报表管理、决策支持等辅助技术系统，推动了知识管理深入关键业务领域的应用。

Kmpro知识管理系统是应用最为广泛的知识管理平台之一，基于互联网架构，提升企业核心竞争力的软件平台，经过试用我们认为该平台具有以下优势：

Kmpro知识管理平台由深蓝公司在多年知识管理实践中所积累并独创的5大核心理念作为理论支撑：

1）认知世界五大模式理念：构建“分类、搜索、人际、推荐、和关联”的知识获取模型。

2）知识管理全生命周期理念：从知识的需求、生产、评审、共享、消化、应用、创新、生命健康等全程13个环节。

3）多维度知识地图理念：支持多种维度和角度建立企业知识地图。

4）知识云理念：支持多渠道、多IT系统的知识沉淀和知识反哺。

5）双轨实施理念：从IT和管理两个角度双线落地实施，相辅相成。 kmpro功能覆盖了知识管理全流程，实现了“知识需求（地图）、知识生产、知识评审、知识获取、知识互动、知识激励、知识审计”等11个大模块，150个功能点。可以说kmpro是同类产品中功能最为强大的平台，平台用户需求一次性满足率达到90%以上，一般只需少量定制开发即可上线应用。

kmpro系统技术路线适应复杂的企业异构环境，采用JAVA技术开发，适应Unix、Linux、Windows等多种操作系统，支持Oracle、SqlServer、DB2、Mysql等多种常见数据库。

该系统已经成功应用于银行金融业、制造业、咨询业、快速消费品、汽车业、旅游业等多个领域，运行效果良好，广泛受到客户的好评。

深蓝海域kmpro知识管理平台，依靠其在知识应用领域的强大研发实力，贴近用户需求率一般会达到80%以上。

kmpro知识管理体系的思想

KMpro知识管理平台提出了自己的IT系统世界观，对于知识管理系统，深蓝海域经过深入的研究知识管理理论，结合用户的实际需求，以及切身的产品实践，我们将KMpro知识管理系统的核心点定义为“分类+搜索+人+应用+咨询”，并以此作为我们看待知识管理系统的IT世界观。

分类，是指对知识进行分门别类，做到快速、准确的定义知识的分类，让用户获取所需。虽然分类是最为古老的一种工作方式，但也是最为有效的方式之一，KMpro知识管理平台创新的提出了“多维度知识分类、智能知识分类”，并针对分类体系提出了一系列分类模型、分类标准等，将知识的分类体系推向新的高度。

搜索，是指通过搜索引擎，快速、准确的找到用户所需知识。针对知识管理领域，深蓝海域提出了“知识搜索引擎”的概念，并研发推出了CICADA知识搜索引擎，既保证了系统通过全文搜索获取快速、准确的结果，又通过结合数据库搜索的方式实现时间、来源、好评度等多种数据库字段的查询，这两者的结合使搜索结果更为符合用户的搜索诉求。

人，是参与到知识管理过程中的全部用户的集合，不同的用户拥有不同的角色与权限，面向不同的知识。KMpro知识管理强调组织中的人、岗位，都应该参与到知识的建设和应用过程中来，形成专家地图。知识是围绕人的应用而生产和运营的，强调用户的参与性，强调知识和知识，知识和人，人和人之间的互动是KMpro知识管理系统的重要观点。

应用，是指系统提供出来给用户使用的，有效处理知识的功能。这样的功能越丰富，越贴近用户的工作方法就越高效。KMpro知识管理系统特别注重提炼用户需求，开发出了一系列应用功能如知识问答、培训考试、知识关联地图、人力地图等。经调研系统的功能一次性满足率达到80%以上，只需少量定制开发即可满足用户上线需求。

咨询，知识管理的实施过程当然不仅仅是一个IT系统上线这么简单，需要辅助以专业的理论和实践经验指导，才能够少走弯路。

KMpro帮助客户不仅仅完成系统的建设，更重要的是建立一套运行机制与体系。深蓝海域除提供系统技术服务之外，还可以提供从全系列的项目落地服务，包括“知识需求分析、知识分类、知识标准、知识应用、知识管理制度、知识组织架构、系统上线培训”等每个关键环节的咨询服务，强调不但要从技术角度建好系统，更要协助客户运营使用好系统。

“分类+搜索+人+应用+咨询”是KMpro的核心观点，“分类和搜索”解决了技术上怎么实现的问题，“人和应用”解决了知识管理做什么的问题，而“咨询”则解决了项目的实施经验协助问题。五位一体的组合，让KMpro不仅是一套软件系统，更是一套针对知识管理工作的完美解决方案。

kmpro系统的秉承“把知识管理起来”的企业使命，致力促进知识管理理念导入、系统研发、软件实施和知识财富管理与增值，为客户提供安全、易用、专业的Kmpro知识管理软件，梳理知识地图，整合分散的知识渠道，汇聚知识资产，建立清晰的知识管理体系，有效避免知识财富流失。创造性的提出“百宝箱”+“垃圾箱”的知识管理模型，把知识管理从口号、理念变为切实可行的日常工作，脚踏实地的为客户提供知识管理的全方位服务。

kmpro知识管理系统3.0

据悉，在kmpro2.0的基础上，深蓝海域公司推出了更为强大的kmpro3.0系统。从知识需求、知识生产、知识审核、知识获取、知识互动、知识转移、知识激励、知识审计、知识安全、知识应用等10大知识管理全生命流程j进行了全面升级，功能更为强大，产品化程度更高的KM系统，对企业级知识管理用户来说是一个高性价比的选择。

kmpro知识管理系统2.0功能

1.强大的非结构化知识处理能力。可将现存在大量的文档和历史知识，这部分非结构化的文档，需要能够进行快速的导入和管理起来，并能够进行全文、附件内容的检索。

2.结构化知识处理能力。对日常工作运行中产生的结构化数据，能够进行自定义发布为知识，搜索引擎可对结构化知识进行全文检索。

3.征询管理系统。可实现运营过程中征询业务的全面应用。

4.便捷的呼引导解答应用。可自定义问题分解步骤，可关联子问题关系，可以预设问题答案，为有效利用知识库内已有知识提供便利工具。

5.完善的文档及内容管理子模块。支持对知识的管理需要进行数据分析、批量导入、版本管理，建立知识发布、管理、应用及审核处理等流程定义。

6.权限管理系统。能够定义用户的角色，并对角色进行权限设定，不同用户拥有不同的权限，保证系统的文件安全性。

7.知识维度的自由设定。支持有权限的应用者自行设定部门或板块的知识结构。

8.个人知识门户。支持对每个用户建立个人知识结构，知识文集，知识收藏等，个人培训计划，便于岗位知识的传承与管理。

9.知识地图。支持能够全局预览本企业知识架构的知识地图和不同岗位具有不同知识结构的岗位知识地图。

10.知识培训。支持从知识库中选取知识，对某一类用户进行培训。

11.知识统计功能。支持对知识库的库存、使用率的统计表现。

12.版本管理功能。支持知识从发布起便记录其历史版本，能够查询每个修改过的版本情况。

13.elearning，基于知识库的培训考试系统。

14.人才库管理。支持知识管理按照专家进行分类管理，找到专家后，系统定位到专家发布的知识。

全面精准的知识搜索引擎。

1. 支持对知识标题、正文、关键字附件文件名的搜索。

2. 支持对附件文档内容的搜索。

3. 支持全文与附件的组合关键字搜索。

4. 支持搜索结果的相关度排序和知识访问率排序。

5. 支持搜索引擎与维度绑定，在维度范围内进行关键字搜索。

6. 经组合关键字测试，需要的知识在正文搜索结果中前十名命中概率在98%以上，在附件搜索结果中前十名命中概率在95%以上。

7. 经单组关键字测试，需要的知识在正文搜索结果中前五名命中概率在98%以上，在附件搜索结果中前五名命中概率在95%以上。

8.支持知识内容中标签进行搜索的功能，按照标签搜索题目相近的知识。

1）、以解决用户实际问题为核心理念，以分类、搜索、权限分离为核心的基础平台，配合用户个性化的知识应用规则定义，快速解决用户存在的知识管理困境；

2）、高效性、高稳定性，高扩展集成性，荆轮式事件触发管理可在稳定高效的基础平台上，提供个性个功能事件组合；

3）、成熟的系统实施经验，政府、电信运营商、金融、生产企业等等多行业实践经验构建一支卓越的系统实施和项目管理团队；

4）、稳定的系统底层架构，支持大规模用户、海量数据、多套系统集群。

知识资产地图：通过地图模式，明晰企业知识体系、各部门知识结构、各岗位知识内容，评估企业知识资本，企业运行更具条理，效率大幅提高，业绩不断增长。

知识自动存储：公司历史、团队活动、企业文化等图片、影音资料分门别类存档，随时可提取使用，彻底解决资料存放凌乱，用时找不到的尴尬。

知识查询调用：撰写新的工作方案，随时可以找到以前类似文档借鉴，复杂文档迅速成型，快速应用到生意。

知识版本管理：文件资料从第一稿开始到最后一个版本，均有版本记录保存并可查。

知识问答：基于知识库建立各部门各岗位的学习计划，自我充电，通过平台交互学习，成为“学习型团队”。

企业文化积累：公司积累数据和经验完整的保存，企业发展，点滴记录，高层言论到员工活动均有记载，建立完整的文化体系。

智能学习计划：新员工入职，接受基于知识库制定的学习计划，通过培训交流平台快速了解业务，进入工作状态。基于知识库建立各部门各岗位的学习计划，自我充电，成为“学习型团队”。

研发成果积累：研发成果入库，技术团队充分应用公司技术积累，避免永远从零开始，开发速度明显加快。

关键员工知识：关键岗位、核心员工知识资源设置管理，其工作技能、策划文案、工作经验、工作记录和关系资源都由系统保留，人走技能不走。

异地协同：通过互联网知识平台，同步各分公司的知识内容，提高异地协作能力，提高企业运作效率。

简单易用的发布界面

所有用户均可以通过基于Web界面的知识采编系统,只要有一点计算机使用基础，就可以使用系统。

无限层级栏目设置

知识平台，提供无限层级的目录结构设计，可以适应各种复杂的知识分类要求。

所见即所得编辑器

知识平台，提供了所见即所得的编辑器,并支持从 Word 到所见即所得编辑器的直接粘贴。

文件管理功能

内建强大的文档树管理机制，清晰记录文档的使用状况。

支持多种资料来源

可将不同格式的资料（HTML/Word/TXT/PDF 等）存储于同一系统中，建立一致的索引及关联。

大容量、大传输量存储

通过技术手段处理，解决了知识管理中文件数据量大，传输困难等问题。

知识搜索引擎：

企业级海量数据搜索引擎信息检索技术是知识管理实现的核心技术。

知识平台，提供了算法先进，高效率海量数据搜索引擎。允许用户在海量数据和各种数据格式中进行全文检索和特征检索，支持关键字检索，条件搜索等高级搜索功能。

知识平台，提供了基于文档格式的选择，区分不同的文件格式，检索到你所需要的类型。

用户和角色管理

对系统管理员，普通用户等进行权限设定和管理

系统备份和还原

知识管理平台创建了自动和手动备份机制，通过数据备份确保知识管理的安全，避免知识灾难。

数据库备份文件名采用日期时间进行保存。还原时选择备份文件即可。

亿榕知识管理体系

福建亿榕信息技术有限公司的知识管理体系是集知识战略、组织流程、知识导航、知识社区、知识中心于一体的企业级知识管理系统解决方案，为企业提供完善的知识管理支撑平台。该体系采用标准J2EE技术体系架构、基于B/S结构进行研发，并结合SOA优点，提高系统的先进性、兼容性和平台无关性。平台利用世界领先的内容管理平台Documentum平台实现内容存储和知识的全生命周期管理；利用企业级搜索引擎Autonomy实现知识的全文检索和智能服务。

系统功能

知识管理系统是企业知识管理的基础平台，该平台实现了包括企业内各应用系统的知识整合和知识集成。并为不同应用系统提供了统一的知识接口，实现了知识的导入、知识的导出以及知识的推送，实现了知识跨系统、跨地域的共享和应用，使知识积极参与了企业各个业务应用领域，提升了知识的价值。系统主要包括知识中心、知识地图、专家黄页、你问我答、虚拟团队、我的空间、知识统计、知识检索等功能和系统管理基础组件。

1 知识中心：知识中心是企业知识文档的主要存放仓库，通过系统提供的多维度分类功能，管理和沉淀企业知识，并通过评价、推荐等机制推动知识共享。

2知识地图：知识地图可以将“知识中心”中存储的文档按照用户指定的方式进行组织，便于用户按照特定的主题进行知识浏览，包括用户手动创建的知识地图，和系统自动聚类形成的知识集。

3 专家黄页：任何一个在某一领域有特长的员工均可申请成为专家。用户可以在“专家黄页”中查找专家，查看专家信息，感知专家的在线状态，联系专家。

4 你问我答：你问我答通过问答的方式，促进员工之间的知识交流，在利用知识解决问题的同时，将隐性知识转化为显性知识，形成知识沉淀。

5 虚拟团队：虚拟团队支持企业内员工跨部门交流，员工可依据兴趣、工作职能或临时性任务自由组建虚拟团队，完成团队内知识交流、学习培训、知识创新、协同工作等活动。

6 我的空间：“我的空间”是用户查看个人资料、进行个人知识管理、处理各项知识管理事务的场所。

7全文检索：全文检索是对各个模块检索功能的补充，检索内容包括知识中心、知识地图、专家黄页、你问我答其他系统知识。应包含相关度排序、日期升降排序、记录用户搜索行为、支持搜索导航，应道用户找到想要的结果。

8 知识统计：对企业内知识管理效果进行统计分析，出具报表，供决策参考。

9 系统管理：系统管理是IT系统管理员对知识管理系统进行初始化配置和IT系统维护的场所。功能包括：集团组织架构管理、用户管理、系统全局配置。

系统特点

企业级的知识管理是以信息为基础的活动，通过组织性学习创造显性和隐性知识,并负责如何在适当的时间、适当的地方拥有适当的知识。这样可以帮助每一个企业成员共享信息,并进而将其通过不同的方式付诸实践,最终达到提高组织业绩的目的。让企业级知识管理体系及其知识库已成为企业进一步发展的基础设施以及企业决策的专家支持系统。

亿榕信息企业级知识管理系统具有以下特点：

● 灵活的角色和权限配置：支持不同企业的知识管理组织架构设计，形成知识管理长效管理机制。

● 统一知识目录、多维通用属性和专有属性：支持知识资源多维度展现，方便知识获取。

● 个性化知识门户、个性化知识树：在恰当的时间向恰当的人提供恰当的知识。

● 丰富的知识地图和专题知识运营服务：促进员工获取知识、学习知识和应用知识，发挥知识价值。

● 多样化的知识社区应用：专家黄页、你问我答、虚拟团队、师带徒、专家博客等。

● 强大的知识统计和知识积分机制：通过对各种知识行为予以激励，推动知识管理在组织内推广和深化应用。

● 全面的知识管理流程：全面支持知识获取、知识共享、知识应用和知识创新过程。

求搜索引擎中预处理部分的源码

你可以去看下java开源搜索引擎的源代码

Java开源搜索引擎

Egothor

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性，Egothor能应用于任何环境的应用，既可配置为单独的搜索引擎，又能用于你的应用作为全文检索之用。

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Lucene

Apache Lucene是一个基于Java全文搜索引擎，利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引，索引让搜寻的效率比传统的逐字比较大大提高，Lucen提供一组解读，过滤，分析文件，编排和使用索引的API，它的强大之处除了高效和简单外，是最重要的是使使用者可以随时应自已需要自订其功能。

Oxyus

是一个纯java写的web搜索引擎。

BDDBot

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行，将结果保存在一个数据库中。它也支持一个简单的Web服务器，这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

Zilverline

Zilverline是一个搜索引擎，它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。

XQEngine

XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合. 有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.

MG4J

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.

JXTA Search

JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上.

YaCy

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.

Red-Piranha

Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha可作为你桌面系统 (Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序 (Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等.

LIUS

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如：

Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如：Hibernate,JDO,Torque,TopLink进行开发时。

Aperture

Aperture这个Java框架能够从各种各样的资料系统(如：文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下：

Plain text

HTML, XHTML

XML

PDF (Portable Document Format)

RTF (Rich Text Format)

Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher

Microsoft Works

OpenOffice 1.x: Writer, Calc, Impress, Draw

StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw

OpenDocument (OpenOffice 2.x, StarOffice 8.x)

Corel WordPerfect, Quattro, Presentations

Emails (.eml files)

Apache Solr

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema来定义字段，类型和设置文本分析，提供基于Web的管理界面等。

Paoding

Paoding中文分词是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding 填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

转载请注明出处51数据库 » solrwordpdf 如何使用solr创建富文本索引