在线虚拟实验环境

随时随地动手练习

学生直接在浏览器上进行实验,界面分为左右两栏,左栏为实验指导书,右侧为一个真实的虚拟机环境。学习者无需配置繁琐的本地环境,随时随地在线流畅使用,极佳的用户体验。

快速部署和归档

借助虚拟机管理平台实现多节点实验服务器快速部署,节约学生安装实验环境花费的时间,随时随地在线流畅使用。实验后能够长期保存学生实验过程资料。

轻松衔接现有服务器设备

支持任何虚拟化技术,可以充分利用学校现有的计算中心(云计算中心)物理设备,为学校打造计算机实验在线机房。

大数据专业一体化支撑平台

完善的课程管理与考试平台

支撑整个大数据专业的教学过程,实现在线资源的统一管理。

支持各类题型(填空、选择、判断、文件上传、简答、编程等)、在线作业、在线实验、在线考试、在线答疑等课程管理功能,支持MOOC视频播放。

代码自动评判

利用代码自动评判功能支持大数据基础课程(Python、Java等)编程语言教学。 深入了解

教育大数据沉淀

CG平台完整汇集学生在整个培养阶段的学习过程数据、项目实践数据、考试成绩数据,沉淀自己学校专属的大数据。

CG大数据解决方案特色

一门课仅需一台服务器。基于虚拟机多用户共享,和Hadoop集群共享计算环境,极大节约计算资源,一台服务器支撑300人同时在线实验。

CG大数据 其它
软件平台与硬件松耦合
独立建设、独立维护升级换代

一体机模式,与服务器和虚拟化软件紧耦合
对专业支撑的全面性
支撑所有大数据专业课程的教学与实验

昂贵的软硬件,只能做有限的大数据实验,无法支持相关课程的实验,例如数据库、编程语言、操作系统等
资源的可扩展性
轻松自建教学与实验资源

教学与实验资源固化
使用体验
B/S架构图形桌面,客户端分辨率自适应

C/S架构或者命令行界面
基于云计算技术,实验所需数据、软件共建和硬件实验设备均抽象为实验资源,提高了软硬件资源利用率,并利于系统维护和升级换代。

工业生产级实验环境架构

传统的人工智能与大数据的实验模式是给每个学生分配1台虚拟机,在虚拟机内预装人工智能和大数据的实验工具。受限于单台虚拟机的存储能力和计算能力,每个学生只能进行简单的“伪大数据”实验。

CG实验架构具有以下几方面优势

大幅减少服务器数量。采用桌面和作业分离的架构,可大幅降低对硬件服务器资源的要求。在CG的工业生产级实验架构中,即每台服务器可支撑300人同时进行基于虚拟桌面的在线实验。CG大数据是目前唯一能够做到单台服务器支持300人并发的虚拟桌面在线实验环境。

体会大数据工具真正的魅力。事实上,如果集群的规模不够大,大数据工具的处理性能比单机上由C语言实现的具有同样功能的程序的性能还要差很多。只有作业集群的规模足够大时,学生才会体会到大数据工具在编程模型、弹性调度、水平扩展、运行时容错、高可靠设计等方面的魅力。

支撑学生开展大型实验。工业生产级集群为每个学生提供了更强大的存储能力和计算能力,为学生开展大型人工智能和大数据实训项目提供了基本条件。

高质量的教学资源

大数据知识体系图

大数据课程体系内相关课程: Python实训 Java程序设计 关系数据库实验 操作系统 算法与数据结构

大数据课程实验资源:Hadoop大数据开发Spark大数据开发NoSQL数据库机器学习数据采集技术数据可视化分析数据挖掘R语言实训

课程 实验分类 实验内容 实验手册 实验代码 实验数据

Hadoop大数据开发

Hadoop基础
Hadoop基本操作:启动、停止、日志分析、Web端查看
分析Hadoop配置文件中各参数的含义
HDFS
HDFS基本操作
HDFS编程:目录操作
HDFS编程:文件操作
HDFS编程:其它操作
设计并实现一个HDFS Shell
MapReduce
MapReduce编程:WordCount源码透析
MapReduce编程:基数排序
MapReduce编程:祖孙辈关系
设计并实现基于MapReduce的索引倒排
分析基于MapReduce实现的PageRank算法
HBase
HBase基本操作:创建表、增删改查、退出
HBase编程:表的创建、删除、遍历
HBase编程:增、删、改、查、Scan、过滤器
设计并实现一个HBase Shell
Hive
Hive的基本操作
Hive应用实例:词频统计

Spark大数据开发

Spark基础
Spark Shell基本操作:启动、读取文件、词频统计
RDD基本操作:分区、依赖、计算、创建、执行、转换等
基于Spark实现词频统计
RDD操作:创建、执行、转换、持久化、存储
基于Java语言的Spark独立应用程序
GraphX
GraphX操作:创建、结构、转换、聚合等
SQL
Spark SQL:DataFrame创建、保存、常见操作
Spark SQL:学生信息管理系统综合案例(整合Hive)
Streaming
Spark Streaming:DStream基本操作
Spark Streaming:数据源
Spark Streaming:编程

NoSQL数据库

Redis
Redis基本操作:表创建、增、删、改、查等
Redis编程:表的创建/删除/查看
Reids编程:表内数据的增删改查
Redis编程:订阅/发布
Redis编程:持久化
MongoDB
MongoDB基本操作:集合创建、增、删、改、查等
MongoDB编程:集合的创建/删除/查看
MongoDB编程:集合内部数据的增删改查
MongoDB编程:聚合

数据采集技术

Hadoop大数据采集
Flume实验:接收AvroSource的信息
Flume实验:文件数据Flume至HDFS
Kafka实验:Kafka订阅/推送
Sqoop实验:和MySQL对接
Python爬虫
Python爬虫基础
Python抓取网页获取字幕语料
Python抓取微信群聊天语料

数据可视化分析

Easel.ly 使用方法
魔镜的使用方法
D3可视化库使用方法
ECharts的使用方法
Matplotlib基本使用方法
Matplotlib绘图与可视化进阶
R语言数据可视化分析
octave使用方法
二元分类效果的图像展示
鸢尾花数据可视化
标签

R语言实训

变量的基本操作
循环与条件
基础绘图操作
多元线性回归
聚类分析
R语言文本分析基础

机器学习

监督学习
kNN算法
基于kNN的手写字识别
基于kNN的约会网站配对效果改进
基于kNN的乳腺癌诊断
基于kNN的IRIS分类
决策树算法
基于决策树的隐形眼镜选择
朴素贝叶斯算法
基于朴素贝叶斯算法的言论过滤器
基于朴素贝叶斯算法的垃圾邮件过滤器
基于朴素贝叶斯算法的新浪新闻分类
逻辑回归算法
基于逻辑回归的病马死亡率预测
支持向量机算法(SVM)
基于支持向量机的手写字识别
AdaBoost算法
一元线性回归算法
多元线性回归算法
多项式回归算法
基于线性回归预测鲍鱼年龄
基于线性回归预测乐高玩具套装价格
树回归算法
无监督学习
K均值聚类算法
使用K均值聚类对地图上的点进行聚类
Apriori算法
基于Apriori算法的投票模式挖掘
基于Apriori算法发现毒蘑菇相似特征
FP-Growth算法
基于FP-Growth算法Twiter数据挖掘
基于FP-Growth算法新闻网站点击流挖掘
数据降维
PCA算法
基于PCA算法的半导体制造数据降维
SVD算法
基于SVD的图像压缩
推荐系统
协同过滤算法
基于协同过滤的推荐引擎
基于SVD的餐馆推荐引擎

数据挖掘

数据挖掘实训
电力窃漏电用户自动识别
航空公司客户价值分析
中医证型关联规则挖掘
基于水色图像的水质评价
家用电器用户行为分析与事件识别
应用系统负载分析与磁盘容量预测
电子商务网站用户行为分析及服务推荐
财政收入影响因素分析及预测
基于基站定位数据的商圈分析
电商产品评论数据情感分析
特征工程
PCA算法
利用机器学习做缺失数据补全
R语言特征工程实践
基于IRIS数据集的特征工程实战