开发者社区> 问答> 正文

nutch抓取种子过多时抓取数据不全。用solr为其建索引时也不全? 400 报错

nutch抓取种子过多时抓取数据不全。用solr为其建索引时也不全? 400 报错

nutch抓取数据,种子过多时,nutch抓取的数据不全,在数据不全的情况下用solr建索引时,建的索引在这些数据的基础上也是不全,不知道是哪的问题。

建索引的时候我配置了index-more插件,结果nutch建索引的时候出错:

org.apache.solr.common.SolrException: Bad Request


Bad Request


request: http://172.16.78.145:8983/solr/update?wt=javabin&version=2
at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:430)
at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:244)
at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105)
at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:49)
at org.apache.nutch.indexer.solr.SolrWriter.write(SolrWriter.java:79)
at org.apache.nutch.indexer.IndexerOutputFormat$1.write(IndexerOutputFormat.java:45)
at org.apache.nutch.indexer.IndexerOutputFormat$1.write(IndexerOutputFormat.java:40)
at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:639)
at org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80)
at org.apache.nutch.indexer.IndexerJob$IndexerMapper.map(IndexerJob.java:111)
at org.apache.nutch.indexer.IndexerJob$IndexerMapper.map(IndexerJob.java:61)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.Child.main(Child.java:249)

展开
收起
爱吃鱼的程序员 2020-06-02 17:34:34 394 0
1 条回答
写回答
取消 提交回答
  • https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

    大家帮帮忙啊!

    2020-06-02 17:34:49
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载