1:Lucene是一个全文检索项目
2:想要研究数据,必须先爬虫
3:Nutch是一个包括全文搜索和Web爬虫搜索引擎
3:爬虫之后,需要存储数据,存储的数据需要分析数据。
4:google的三篇论文GFS, Map-Reduce, BigTable
5:对应现在的hadoop hdfs, Map-Reduce, HBase