各有关机构、学员:
科技立则民族立,科技强则国家强。新一轮科技革命与产业变革迅猛发展,科技创新已经成为国际战略博弈的主战场。党的二十大报告中提出,教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力。深入实施科教兴国战略、人才强国战略、创新驱动发展战略,开辟发展新领域新赛道,不断塑造发展新动能新优势。而实现这一战略的关键是有足够数量和质量的人才。为加强新时代高技能人才队伍建设,深化产教融合,校企合作,提升相关从业人员的职业技能,拟开展网络舆情与情感分析人才培养。
一、举办单位
主办单位:中国高等教育培训中心
承办单位:北京华业大教育科技有限公司
二、研修时间
时间:2023年7月15日--7月21日
地点:北京(线下详细报到路线将在第二轮通知中告知)
线 上:直播+回放(毛豆课堂,无需下载任何软件)
三、培训对象
各高等院校/职业院校新闻、传播、心理、逻辑、新媒体、网络传播、电子商务、网络舆情管理、社会心理、统计学、数学、计算机、经济学、社会学、管理学、数据科学与大数据技术、大数据与审计专业、数据采集、数据分析、数学建模等相关专业的学院领导、专业教学带头人、实验室教学技术人员及骨干教师,研究生;互联网企业、金融机构、科研院所等从事网络舆情与情感分析技术人员。
四、培训目的
为党政、企业、民生网络舆情快速发展保驾护航,搭建校企互动交流平台,提升教师专业实践能力,加强新时代网络舆情与情感分析高技能人才队伍建设,有效提高各院校网络舆情与情感分析专业的课程教学质量,使教育教学体系真正与就业接轨,实现人才培养与人才就业无缝对接,助力行业健康发展。
五、培训内容
第一天
Python编程基础
1.1 认识Python
1.2.1 Python开发环境介绍
1.2.2 Python解释器下载安装
1.3.1 安装PyCharm
1.3.2 使用PyCharm
1.3.3 在PyCharm中使用交互模式执行代码
2.1.1 编写第一个Python程序
2.1.2 缩进代码
2.2.1 字符串基本操作
2.2.2 字符串的索引及切片操作
2.2.3 任务实现-字符串与数值处理
2.3.1 Python常用运算符介绍
2.3.2 任务实现-计算圆形的各参数
3.1 认识Python数据结构
3.2.1 创建列表
3.2.2 列表索引及切片操作
3.2.3 为列表添加元素
3.2.4 列表元素的删除及修改操作
3.2.5 列表推导式
3.2.6 任务实现-求解曲边图形面积
3.3.1 创建字典
3.3.2 字典的增删改查操作
3.3.3 任务实现-单词词频统计
4.1.1 考试成绩等级划分-任务描述
4.1.2 条件判断及分支语句
4.1.3 try-except语句
4.1.4 任务实现-考试成绩等级划分
4.2.1 循环语句
4.2.2 任务实现-实现一组数的连加与连乘操作
4.3 冒泡排序法排序
5.1.1 使用def定义函数
5.1.2 任务实现-自定义求列表均值的函数
5.2 使用lambda创建匿名函数
5.3 存储并导入函数模块
6.1 认识面向对象
6.2.1 创建Human类
6.2.2 创建对象
7.1.1 读取文件数据
7.1.2 任务实现-文件数据读取及词频统计
7.2 将数据写入文件
8 模块和第三方库
第二天
Python数据分析与应用
1 Python数据分析概述
1.1 认识数据分析
1.2 熟悉Python数据分析的工具
1.3 安装anaconda与启动Jupyter Notebook
1.4 掌握Jupyter Notebook常用功能
2 NumPy数值计算基础
2.1 掌握NumPy数组对象
2.1.1NumPy简介
2.1.2 数组创建及基础属性
2.1.3 初识数组的特点
2.1.4 创建常用数组
2.1.5 数组数据类型
2.1.6 生成随机数
2.1.7 一维数组的索引
2.1.8 逻辑型索引
2.1.9 多维数组的索引
2.1.10 求解距离矩阵
2.1.11 变化数组shape
2.2 掌握NumPy矩阵与通用函数
2.2.1 NumPy矩阵介绍
2.2.2 NumPy通用函数介绍
2.2.3 通用函数的广播机制
2.3 利用NumPy进行统计分析
2.3.1 NumPy读写二进制文件
2.3.2 NumPy读写txt文件
2.3.3 利用NumPy对数据进行简单统计分析
3 Matplotlib数据可视化基础
3.1 掌握绘图基础语法与常用参数
3.1.1 Matplotlib介绍
3.1.2 基础图形绘制
3.1.3 常用参数设置
3.2 分析特征间关系
3.2.1 绘制散点图
3.2.2 散点图参数设置
3.2.3 绘制折线图
3.3 分析特征内部数据分布与分散情况
3.3.1 绘制直方图
3.3.2 绘制饼图
3.3.3 绘制箱线图
4 Pandas统计分析基础
4.1 Pandas简介
4.2 读写不同数据源的数据
4.2.1 Pandas读取文本数据
4.2.2 存储数据框
4.2.3 Pandas读取excel文件
4.2.4 将数据框存储为excel文件
4.3 数据框与数据框元素
4.3.1 构建数据框
4.3.2 查看数据框的常用属性
4.3.3 按行列顺序访问数据框中的元素
4.3.4 按行列名称访问数据框中的元素
4.3.5 修改数据框中的元素
4.3.6 删除数据框中的元素
4.3.7 描述分析数据框中的元素
4.4 转换与处理时间序列数据
4.4.1 转换成时间类型数据
4.4.2 时间类型数据的常用操作
4.5 使用分组聚合进行组内计算
4.5.1 groupby分组操作
4.5.2 agg聚合操作
4.6 创建透视表与交叉表
4.6.1 生成透视表
4.6.2 生成交叉表
5 使用Pandas进行数据预处理
5.1 合并数据
5.1.1 表堆叠
5.1.2 主键合并
5.1.3 重叠合并
5.2 清洗数据
5.2.1 检测与处理重复值
5.2.2 检测与处理缺失值
5.2.3 检测与处理异常值
5.3 标准化数据
5.4 转换数据
5.4.1 哑变量处理
5.4.2 离散化连续型数据
第三天
网络舆情与情感分析概述
1.网络舆情概论
2.网络舆情分析技术
3.网络信息采集技术
4.话题检测与跟踪技术
5.文本分割技术基础概念
6.基于LDA模型的文本分割
7.基于VSM模型的文本分割
8.文本情感分析技术基本概念
9.情感信息分类
10.情感信息的检索与归纳
第四天
Python机器学习实战
1机器学习绪论
1.1引言
1.2基本术语
1.3假设空间&归纳偏好
2模型评估与选择
2.1经验误差与过拟合
2.2评估方法
2.3性能度量
2.4性能度量Python实现
3回归分析
3.1线性回归基本形式
3.2线性回归模型的Python实现
3.3波士顿房价预测的Python实现
3.4逻辑回归介绍
3.5研究生入学录取预测的Python实现
第五天
4.1从女生相亲到决策树
4.2明天适合打球吗
4.3决策树拆分属性选择
4.4决策树算法家族
4.5泰坦尼克号生还者预测—数据预处理
4.6泰坦尼克号生还者预测—模型构建与预测
5.1聚类分析概述
5.2相似性度量
5.3K-Means聚类分析算法介绍
5.4利用K-Means算法对鸢尾花进行聚类
5.5聚类结果的性能度量
5.6调用sklearn实现聚类分析
6.1间隔与支持向量
6.2对偶问题
6.3核函数
6.4软间隔与正则化
6.5支持向量机算法的Python实现
第六天
Python网络爬虫实战
1Python爬虫环境与爬虫简介
1.1认识爬虫
1.1.1常见网上冲浪过程
1.1.2爬虫的概念
1.1.3爬虫合法性
1.2认识反爬虫
1.3配置Python爬虫环境
2网页前端基础
2.1认识网络信息传输过程
2.1.1网络传输模型
2.1.2网络信息传输过程
2.2认识HTTP
2.2.1认识HTTP
2.2.2熟悉Cookie
3简单静态网页爬取
3.1认识静态网页
3.2实现HTTP请求
3.2.1创建工程
3.2.2生成HTTP请求
3.2.3完善HTTP请求
3.3解析网页
3.3.1为什么要解析网页
3.3.2初识Xpath
3.3.3Xpath相对路径及属性查找
3.3.4使用BeautifulSoup解析网页
3.3.5网页解析小结
3.4存储数据
3.4.1认识chrome开发者工具
3.4.2任务演练:爬取并存储泰迪科技官网首页数据
第七天
4认识动态网页
4.1认识动态网页
4.2逆向分析爬取动态网页
4.2.1通过网页源码追踪目标数据文件地址
4.2.2通过开发者工具追踪目标数据文件地址
4.2.3爬取数据并进行保存
4.3使用Selenium库爬取动态网页
4.3.1搭建Selenium环境
4.3.2利用Selenium获取网页数据
4.3.3利用Selenium控制点击操作
第八天
Python文本挖掘实战
1 自然语言处理简介
2 开源中文NLP系统介绍
3 中文分词介绍
4 机械分词法
5 机器学习算法分词
6 NLP概率图介绍
7 jieba分词演示
8 文本的one-hot表达
9 tf-idf权值策略实现
10 文本的TF-IDF表达
11 模型训练与预测
第九天
实战案例:微博疫情评论数据爬虫
1 背景与目标
2.1 评论结构分析
2.2 数据接口分析
3.1.1 微博页面接口分析
3.1.2 微博id获取
3.1.3 微博接口数据获取
3.1.3 微博接口请求
3.1.4 长文本获取
3.1.5 单页微博获取
3.1.6 单页微博获取函数
3.2.1 评论数据接口分析
3.2.2 单页评论获取
3.2.3 多页评论翻页
3.3 评论回复数据爬取
3.4 单页微博及评论数据爬取
3.5 多线程爬虫
4 小结
第十天
实战案例:基于情感分析的疫情期间网民情绪识别
1 背景与目标
2.1 情感分析介绍
2.2 数据预处理
2.3 官方数据删除
2.4 BosonNLP情感词典打分
2.5 SnowNLP情感分析
3.1 情感分类-数据预处理
3.2 分词和去停用词
3.3 TF-IDF词向量
3.4 朴素贝叶斯
3.5 朴素贝叶斯情感分类
3.6 模型预测和总结
第十一天
实战案例:网络问政平台数据爬虫
1 背景与目标
2.1 网址分析
2.2 留言id获取
2.3 留言详情获取
2.4 留言详情回复获取
2.5 函数整合
2.6 多线程爬取
第十二天
实战案例:智慧政务下的问政舆情分析
1 背景与目标分析
2.1 样本量分析
2.2 重复数据处理
2.3 文本预处理
2.4 分词和去停用词
2.5 词云图分词
2.6 词向量获取
2.7 SVM文本分类
2.8 模型应用
3.1 热点数据预处理
3.2 热点数据转化
3.3 密度聚类简介
3.4 热点聚类
3.5 超参数选择
3.6 热度排序
4 小结
六、报名及缴费
1.报名材料及要求
报名申请表、身份证号码、两寸近期正面免冠彩色半身证件照电子版( 背景:白色,格式:JPG,大小:14-20K);学历证明、工作年限证明或相关专业证书(电子版);参加培训人员需自带笔记本电脑。
2.报名时间:2023年5月22日--6月8日。
3.收费标准:本期研修班线下收费标准为机器学习与大数据分析人才(高级)2480元/人(此外无任何费用)。
本次培训由北京华业大教育科技有限公司收取费用并开具电子发票。
七、结业证书
参训学员按照规定完成研修课时,由中国高等教育培训中心颁发《机器学习与大数据分析》电子版“结业证书”,证书中注明研修课程名称及学时。
八、联系方式
联系人:董老师
电话:15727391920(微信同号)
邮箱:andrew_0001@163.com
地址:北京市海淀区清华科技园
常年开班,获取最新开班时间或课程报名,欢迎您联系董老师
序号 | 昵称 | 年级 | 性别 | 备注 |
---|---|---|---|---|
暂无数据 |
序号 | 课堂内容 | 开始时间 | 备注 | 课堂回放 |
---|---|---|---|---|
暂无数据 |