华业大教育 - 文本分析与挖掘人才培训

课程培训

文本分析与挖掘人才培训

任课教师:

学生人数: 人

¥ 2480

课程介绍

报名成员(0)

课堂回放(0)

各有关机构、学员：

随着社会的发展，人类积累了越来越多的文本。在科学研究中，一方面，利用人工的方式处理这些海量的文本越发不现实，人们迫切需要利用信息技术手段进行文本分析；另一方面，随着计算机技术和计算技术（主要是算法）的不断进步，人类处理海量文本的技术越发成熟，计算机软硬件支持下的文本分析能力越来越强大。本课程聚焦于教学科学中的文本分析技术，结合Python软件包，讲授文本采集、清洗、分词、相似度分析、情感极性分析、主题分析等研究工作的所涉及的若干理论、方法和技术；并通过若干研究实例的讲解，教会学员使用文本分析的相关技术解决科学研究中的具体问题。为加强新时代高技能人才队伍建设，深化产教融合，校企合作，提升相关从业人员的职业技能，拟开展文本分析与挖掘人才培养。

一、举办单位

主办单位：中国高等教育培训中心

承办单位：北京华业大教育科技有限公司

二、研修时间

时间：2023年7月15日--7月21日

地点：北京（线下详细报到路线将在第二轮通知中告知）

线上：直播+回放（毛豆课堂，无需下载任何软件）

三、培训对象

各高等院校大数据相关学科、计算机、软件、电子商务、金融、工商管理、数理统计专业等科研、教学带头人、骨干教师、博士生、硕士生，机器学习、文本挖掘工程师、数据挖掘工程师、数据分析师及数据挖掘技术相关研究人员。企事业单位从事文本分析与挖掘技术人员等。

四、研修目的

培养学员利用文本分析方法进行科学研究的思想和能力，提升学员的信息素养和信息能力，让学员理解并掌握文本分析的相关技术和工具。教会学员在科学研究中正确使用包括python在内的各种工具进行文本采集、文本清洗、存储、分词、特征抽取、特征计算、极性分析、语义分析、结果展示等工作；教会学员构建并使用停用词表、命名实体库、极性词库；结合python，让学员掌握科学研究中用到的整套文本分析技术。为文本分析与挖掘在教学产业发展保驾护航，搭建校企互动交流平台，提升教师专业实践能力，加强新时代高技能人才队伍建设，有效提高各院校文本分析与挖掘专业的课程教学质量，使教育教学体系真正与就业接轨，实现人才培养与人才就业无缝对接，助力行业健康发展。

五、研修内容

第一天

Python编程基础

1.1 认识Python

1.2.1 Python开发环境介绍

1.2.2 Python解释器下载安装

1.3.1 安装PyCharm

1.3.2 使用PyCharm

1.3.3 在PyCharm中使用交互模式执行代码

2.1.1 编写第一个Python程序

2.1.2 缩进代码

2.2.1 字符串基本操作

2.2.2 字符串的索引及切片操作

2.2.3 任务实现-字符串与数值处理

2.3.1 Python常用运算符介绍

2.3.2 任务实现-计算圆形的各参数

3.1 认识Python数据结构

3.2.1 创建列表

3.2.2 列表索引及切片操作

3.2.3 为列表添加元素

3.2.4 列表元素的删除及修改操作

3.2.5 列表推导式

3.2.6 任务实现-求解曲边图形面积

3.3.1 创建字典

3.3.2 字典的增删改查操作

3.3.3 任务实现-单词词频统计

4.1.1 考试成绩等级划分-任务描述

4.1.2 条件判断及分支语句

4.1.3 try-except语句

4.1.4 任务实现-考试成绩等级划分

4.2.1 循环语句

4.2.2 任务实现-实现一组数的连加与连乘操作

4.3 冒泡排序法排序

5.1.1 使用def定义函数

5.1.2 任务实现-自定义求列表均值的函数

5.2 使用lambda创建匿名函数

5.3 存储并导入函数模块

6.1 认识面向对象

6.2.1 创建Human类

6.2.2 创建对象

7.1.1 读取文件数据

7.1.2 任务实现-文件数据读取及词频统计

7.2 将数据写入文件

8 模块和第三方库

第二天

Python数据分析与应用

1 Python数据分析概述

1.1 认识数据分析

1.2 熟悉Python数据分析的工具

1.3 安装anaconda与启动Jupyter Notebook

1.4 掌握Jupyter Notebook常用功能

2 NumPy数值计算基础

2.1 掌握NumPy数组对象

2.1.1NumPy简介

2.1.2 数组创建及基础属性

2.1.3 初识数组的特点

2.1.4 创建常用数组

2.1.5 数组数据类型

2.1.6 生成随机数

2.1.7 一维数组的索引

2.1.8 逻辑型索引

2.1.9 多维数组的索引

2.1.10 求解距离矩阵

2.1.11 变化数组shape

2.2 掌握NumPy矩阵与通用函数

2.2.1 NumPy矩阵介绍

2.2.2 NumPy通用函数介绍

2.2.3 通用函数的广播机制

2.3 利用NumPy进行统计分析

2.3.1 NumPy读写二进制文件

2.3.2 NumPy读写txt文件

2.3.3 利用NumPy对数据进行简单统计分析

3 Matplotlib数据可视化基础

3.1 掌握绘图基础语法与常用参数

3.1.1 Matplotlib介绍

3.1.2 基础图形绘制

3.1.3 常用参数设置

3.2 分析特征间关系

3.2.1 绘制散点图

3.2.2 散点图参数设置

3.2.3 绘制折线图

3.3 分析特征内部数据分布与分散情况

3.3.1 绘制柱形图

3.3.2 绘制饼图

3.3.3 绘制箱线图

4 Pandas统计分析基础

4.1 Pandas简介

4.2 读写不同数据源的数据

4.2.1 Pandas读取文本数据

4.2.2 存储数据框

4.2.3 Pandas读取excel文件

4.2.4 将数据框存储为excel文件

4.3 数据框与数据框元素

4.3.1 构建数据框

4.3.2 查看数据框的常用属性

4.3.3 按行列顺序访问数据框中的元素

4.3.4 按行列名称访问数据框中的元素

4.3.5 修改数据框中的元素

4.3.6 删除数据框中的元素

4.3.7 描述分析数据框中的元素

4.4 转换与处理时间序列数据

4.4.1 转换成时间类型数据

4.4.2 时间类型数据的常用操作

4.5 使用分组聚合进行组内计算

4.5.1 groupby分组操作

4.5.2 agg聚合操作

4.6 创建透视表与交叉表

4.6.1 生成透视表

4.6.2 生成交叉表

5 使用Pandas进行数据预处理

5.1 合并数据

5.1.1 表堆叠

5.1.2 主键合并

5.1.3 重叠合并

5.2 清洗数据

5.2.1 检测与处理重复值

5.2.2 检测与处理缺失值

5.2.3 检测与处理异常值

5.3 标准化数据

5.4 转换数据

5.4.1 哑变量处理

5.4.2 离散化连续型数据

第三天

Python机器学习实战

1机器学习绪论

1.1引言

1.2基本术语

1.3假设空间&归纳偏好

2模型评估与选择

2.1经验误差与过拟合

2.2评估方法

2.3性能度量

2.4性能度量Python实现

3回归分析

3.1线性回归基本形式

3.2线性回归模型的Python实现

3.3波士顿房价预测的Python实现

3.4逻辑回归介绍

3.5研究生入学录取预测的Python实现

4人工神经网络

4.1单个神经元介绍

4.2经典网络结构介绍

4.3神经网络工作流程演示

4.4如何修正网络参数-梯度下降法

4.5网络工作原理推导

第四天

4.6网络搭建准备

4.7样本从输入层到隐层传输的Python实现

4.8网络输出的Python实现

4.9单样本网络训练的Python实现

4.10全样本网络训练的Python实现

4.11网络性能评价

4.12调用sklearn实现神经网络算法

5.1聚类分析概述

5.2相似性度量

5.3K-Means聚类分析算法介绍

5.4利用K-Means算法对鸢尾花进行聚类

5.5聚类结果的性能度量

5.6调用sklearn实现聚类分析

6.1间隔与支持向量

6.2对偶问题

6.3核函数

6.4软间隔与正则化

6.5支持向量机算法的Python实现

第五天

PyTorch框架基础实践

1 PyTorch简介

2 张量操作

2.1 创建张量

2.2 张量与数组相互转化

3 构建一个线性模型

3.1 任务描述：构建一个线性模型

3.2 读取数据

3.3 构建初始模型及损失函数

3.4 test-构建优化器

3.4 构建优化器

3.5 最小化方差（训练）

3.6 执行多轮训练

3.7 训练过程可视化

4 识别手写数字

4.1 案例目标与流程

4.2 加载数据

4.3 加工数据

4.4 模型结构介绍

4.5 构建模型

4.6 模型配置

4.7 模型训练

4.8 执行多轮训练

4.9 模型性能评估

4.10 保存模型

4.11 加载模型

4.12 模型应用

第六天

PyTorch深度学习原理与实现

1 引言

2 卷积神经网络CNN

2.1 浅层神经网络的局限

2.2 卷积操作

2.3 卷积操作的优势

2.4 池化及全连接

2.5 高维输入及多filter卷积

2.6 实现卷积操作

2.7 将卷积结果可视化

2.8 实现池化操作

第七天

3 循环神经网络RNN

3.1 循环神经网络简介

3.2 循环神经网络的常见结构

4 长短时记忆网络LSTM

4.1 LSTM的三个门

4.2 LSTM三个门的计算示例

4.3 实现LSTM操作

4.4 LSTM返回值解读

5 利用LSTM实现手写数字识别

5.1 加载数据

5.2 数据加工

5.3 搭建循环神经网络

5.4 模型配置

5.5 模型训练

5.6 模型性能验证

第八天

自然语言处理实战

1自然语言处理概述

1.1 自然语言处理概述

2NLP的基本流程

2.1 NLP的基本流程

2.2语料字符处理

2.2.1 语料字符处理-字符串函数

2.2.2 正则表达式

2.2.3 正则表达式应用

2.3分词和停用词处理

2.3.1 分词:正向最大匹配法

2.3.2 分词:正向最大匹配法实现

2.3.3分词:逆向最大匹配法

2.4.1N元语法模型

2.4.2 N元语法模型与分词

2.5.1隐马尔可夫概述

2.5.2隐马尔可夫实例

2.5.3 Viterbi算法

2.5.4 Viterbi算法应用

第九天

2.6 jieba分词

2.7 去停用词

3文本向量化

3.1.1向量化与独热编码

3.1.2基于字典的one-hot实现

3.1.3基于keras的one-hot表示

3.2 词袋模型

3.3TF-IDF

3.4.1 Word2Vec模型概述

3.4.2 Word2Vec模型训练

3.4.3 Word2Vec模型应用

3.5 Doc2Vec模型

第十天

案例实战：基于textCNN

1 背景与目标

1.1 背景与目标

1.2 目标分析

2 数据探索与处理

2.1 数据探索

2.2 剔除无效字符及分词操作

2.3 读取停用词表

2.4 去除停用词

2.5 为词语编号

3 词嵌入（Word2Vec）

3.1 词嵌入（Word2Vec）介绍

3.2 获取目标词向量矩阵

3.3 保存处理好的数据

4 模型构建（textCNN）

4.1 统一各样本的词语数量

4.2 textCNN介绍

4.3 构建textCNN

4.4 建模前数据准备

4.5 执行模型训练

5 模型性能评估

5.1 模型性能评估

5.2 小结

第十一天

案例实战：新冠疫情期间网民情绪识别（PyTorch）

1 背景与目标

2 数据准备

2.1 数据基本介绍

2.2 词嵌入介绍

2.3 进行词向量训练

2.4 构建词向量矩阵

2.5 获取编码后的语料库

2.6 对各样本执行padding操作

2.7 拆分数据并将其转为模型所需格式

3 模型训练与性能验证

3.1 Embedding层介绍

3.2 定义Embedding层算子

3.3 定义LSTM层算子

3.4 定义全连接层算子

3.5 定义网络计算流程

3.6 模型构建及配置

3.7 模型训练

3.8 模型性能评估

4 小结

第十二天

案例实战：推荐系统

1 背景与目标

1.1 项目目标

1.2 数据介绍

1.3 目标分析

2 数据探索与处理

2.1 数据读取与探索

2.2 获取用户点击流介绍

2.3 统计用户的id点击次数

2.4 获取用户点击流

2.5 提取并保存样本标签

2.6 封装数据处理函数

3 词嵌入

3.1 词嵌入准备

3.2 词向量训练

3.3 构建词向量矩阵

3.4 对点击流进行编码

3.5 统一点击流的长度

3.6 保存词向量及点击流数据

4 模型构建与训练

4.1 建模前数据准备

4.2 模型训练

4 模型性能评估与优化

5.1 模型性能评估

5.2 模型优化

六、报名及缴费

1.报名材料及要求

报名申请表、身份证号码、两寸近期正面免冠彩色半身证件照电子版( 背景：白色，格式：JPG，大小：14-20K)；学历证明、工作年限证明或相关专业证书（电子版）；参加培训人员需自带笔记本电脑。

2.报名时间：2023年5月22日--6月8日。

3.收费标准：本期研修班线下收费标准为机器学习与大数据分析人才（高级）2480元/人（此外无任何费用）。

本次培训由北京华业大教育科技有限公司收取费用并开具电子发票。

七、结业证书

参训学员按照规定完成研修课时，由中国高等教育培训中心颁发《机器学习与大数据分析》电子版“结业证书”，证书中注明研修课程名称及学时。

八、联系方式

联系人：董老师

电话：15727391920（微信同号）

邮箱：andrew_0001@163.com

地址：北京市海淀区清华科技园

常年开班，获取最新开班时间或课程报名，欢迎您联系董老师

序号	昵称	年级	性别	备注
暂无数据

共 0 人
1

序号	课堂内容	开始时间	备注	课堂回放
暂无数据