网络爬虫培训班
来自:lgjut
目标:高端网络爬虫软件开发工程师 网络爬虫开发是一项极富前景的工作,市场对网络爬虫软件开发工程师的需求极其旺盛。大型搜索门户需要大量专门的网络爬虫软件开发人才,而众多中小型网站及企业也需要采集信息丰富网站内容。搜索引擎软件开发工程师培训将提供业界流行的基于Linux的开源解决方案培训,以及网络信息抓取实用培训,文本挖掘等智能软件技术的深入应用培训。 完成培训的学员具有高端网络爬虫软件开发工程师的资质。 内容:高端爬虫软件技术 在培训名师的亲自带领下,通过完成一个基于Java爬虫核心的、Windows/Linux平台、以Nutch或Hadoop为采集集群平台、使用HTTPClient和HTMLParser技术创建网络爬虫,完成一个包括网络信息抓取,自动分类的高性能,智能垂直职位搜索系统。培训学员全程参与软件产品的分析、设计和开发。掌握开发大型分布式爬虫集群所需要的算法基础、实践经验。 前导知识简介: 希望学员在学这门课程时必须具备的知识是:CoreJava。如果学员具备以下知识点:数据结构、编译原理、概率论,会帮助学员更深刻的理解搜索。没有这些基础的学员也不必担心,随着课程的进行老师会帮大家整理相关知识点。 五大热点技术: 信息采集:信息采集与增量更新。 网页正文提取:正则表达式或DOM树等。 分布式爬虫:多节点的分布式采集、Hadoop分布式计算环境。 信息提取:提取出有效信息。 自动分类:根据机器学习的方法对信息自动分类。 真实项目实战: 通过完成由北京盈智星科技发展有限公司提供的智能垂直人才招聘搜索的开发,精通全套智能搜索开发技术,掌握算法原理,实践和架构,积累1-2年的搜索软件开发经验。 就业通道: 北京国贸附近的央企 Alexa排名几千名以内的各大网站: Google、百度、阿里巴巴、搜狐、Ebay、搜房网、猫扑网、趣拿网、中华英才、前程无忧、163。 各大行业网站: 化工网、自动化网、医药网、律师网。 热门行业: 电信,电力,银行、证券、广电等。 授课方式: 人手一机。提供基于Linux集群的Nutch分布式搜索实战环境。 入学条件:理工科本科以上学历 从基础开始,由浅入深,循序渐进,适合理工科本科以上或同等学历者。 课程安排: 全日班,2个月。 周末班,3个月。 培训价格:Java搜索班3000元/月。 联系方式: QQ: 270954928