2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎(一)

请问您今天要来个引擎吗? 看哭李彦宏, 震惊马化腾

最终项目上线演示地址: http://search.mtianyan.cn

  • 第一节:开始我的表演之前, 先讲讲我们会学到什么,点上面链接看看我们能做一个什么。

Github地址: https://github.com/mtianyan/ArticleSpider

简介

聚焦Python分布式爬虫必学框架Scrapy打造搜索引擎

人工智能时代,数据先行。围绕着数据可以做的事情越来越多。

mark

比如上面这些领域所需要的数据都是可以通过爬虫来完成收集的。

通过Scrapy分布式爬虫爬取数据,以及结合elasticsearch与Django搭建搜索引擎。

适用人群:初学者,与想进阶的开发者。

收获:获取想要的数据 && 深入认知网络知识和编程知识。

课程学习流程目录:

  1. 环境配置和基础知识铺垫
  2. 爬取真实数据:三个主流网站(伯乐在线, 知乎, 拉钩网)
  3. scrapy突破反爬虫技术
  4. scrapy进阶开发
  5. scrapy redis 分布式爬虫:可以快速搭建一套分布式爬虫。
  6. elasticsearch django 实现搜索引擎

爬虫基础知识:

  1. 正则表达式
  2. 深度优先和广度优先遍历算法
  3. url去重的常见策略

爬取三个网站

介绍完基础知识通过爬取:

技术社区(伯乐在线), 问答网站(知乎), 知名招聘网站(拉钩网) 来介绍Scrapy常用功能以及分析网站结构和网络请求。

学会通过xpath + css 提取数据, 爬取时也会使用模拟登录

mark

会对Scrapy的spider item item loader pipeline feed export CrawSpider
都进行学习。

介绍如何突破网站对于爬虫的限制:

mark

scrapy进阶开发中介绍: scrapy的原理, 基于scrapy的中间件开发。

mark

对于上面这些小的知识点也都进行讲解。

通过scrapy redis搭建一套分布式爬虫。

充分利用多台服务器效率。让爬取速度更快。

  • 通过源码分析: 让大家理解scrapy-redis分布式爬虫
  • 集成bloomfilter到scrapy-redis中

elasticsearch 结合 django 制作搜索引擎

elasticsearch 作为当前最流行的的分布式搜索引擎,被用到很多大公司。我们将用它结合django做一个搜索引擎。

文章搜索 && 问答搜索 && 职位搜索

下面还会有热门搜索我的搜索。输入关键词之后联想输入点击搜索,进入详情页面。
对搜索关键字进行标红处理,对于数据进行了统计,可以收起左侧。右侧可以看到热门, 和我的记录, 下方有一个分页的效果。点击某一项会跳转到网站。

课程的收获:

  • 开发爬虫所需要用到的技术以及网站分析技巧
  • 理解scrapy的原理和所有组件的使用以及分布式爬虫scrapy-redis的使用和原理。
  • 理解分布式开源搜索引擎elasticsearch的使用以及搜索引擎的原理
  • 体验django如何快速搭建网站
-------------本文结束感谢您的阅读-------------

本文标题:2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎(一)

文章作者:mtianyan

发布时间:2018年01月29日 - 01:01

最后更新:2018年02月02日 - 20:02

原始链接:http://blog.mtianyan.cn/post/54943bfb.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

请博主吃包辣条
0%