开课吧《大数据技术四大揭秘》课程正在开课中!
![]() |
开课吧《大数据技术四大揭秘》课程正在开课中,请大家多多关注和支持开课吧!
数据爆炸时代的大数据技术
——邹志乐
大数据技术可运用到各行各业。宏观经济方面,IBM日本公司建立经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算采购经理人指数的预测值。印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。制造业方面,华尔街对冲基金依据购物网站的顾客评论,分析企业产品销售状况;一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。
课程的重要学习知识点和技能:
1、能够理解大数据的概念;
2、了解其核心技术;
3、掌握搜索引擎技术。
关于课程
大数据技术可运用到各行各业。宏观经济方面,IBM日本公司建立经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算采购经理人指数的预测值。印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。制造业方面,华尔街对冲基金依据购物网站的顾客评论,分析企业产品销售状况;一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。
BigData作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。所以我们需要掌握大量的相关知识才能感到融会贯通。
通过本课程您可以学到什么:
(1)理解大数据的基本概念,要知道我们当今是处于一个大数据的时代;
(2)要掌握大数据的核心技术;
(3)知道搜索引擎的工作原理;
(4)了解HADOOP,Hbase等大数据平台技术,各种NoSQL分布式存储方案等。
先修知识
熟悉C/C++/Java/C#/python任意一门语言、计算机体系结构、操作系统、熟悉Oracle数据库、MySQL或SQLServer任意一门数据库服务器知识。
课程大纲
一、我们生活在数据爆炸的时代
我们生活在数据爆炸的时代
什么是大数据,大数据应用举例
典型的大数据的生产者
二、常见的大数据系统
互联网广告平台之用户分析
搜索引擎
物联网
大数据核心技术
三、计算文档相似度
Jaccard相似度
Shingling
K‐Shingle的长度
对K‐Shingle进行哈希
特征矩阵
Minhash
Minhash和Jaccard
Signatures
Minhash Signatures
计算MinhashSignatures
四、k-Means
k-means聚类算法
k-means归属矩阵
K-means实现步骤
K-means编程步骤
五、大数据-向量空间模型
向量的基础知识
向量空间模型
构建向量——布尔模型
构建向量——频率模型
构建向量——TFIDF
文档的余弦相似度
六、大数据-协同过滤
推荐系统
亚马逊购物推荐
推荐方法分类–基于数据
推荐方法分类–基于算法
基于用户的协同过滤
MovieLens测试结果
Item-based CF算法
两种协同过滤方法的比较
七、搜索引擎-基本原理与系统架构
搜索引擎搜索举例
什么是搜索引擎
数据规模
搜索引擎体系结构
有向图
网页搜集
全文索引和检索服务
相关性排序
文本权值、开源搜索引擎
搜索引擎对我们的启示
问题和答疑
八、搜索引擎-下载系统
下载系统架构
UC介绍
cu介绍
EU介绍
九、搜索引擎-索引&检索
检索基础
索引实现
检索实现
google的“AK-47”
十、大数据介绍
主要内容简介
什么是大数据
大数据的“4V”特性
数据处理步骤
大数据参考架构
十一、Hadoop
Hadoop的历史
Hadoop生态系统
Hadoop在国内的现状
Hadoop成功的原因
Hadoop详解
十二、HDFS基本概念
HDFS
HDFS设计理念
HDFS的基本概念
更多内容请大家到开课吧平台上详细浏览!