概览
为何要学Python?
在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!
在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:
一、准备工作
课程介绍
Win中的Anaconda软件配置
Mac中的Anaconda软件配置
二、Python语法入门
Python跟英语一样是一门语言
数据类型之字符串
数据类型之列表元组集合
数据类型之字典
数据类型之布尔值、None
逻辑语句(if&for&tryexcept)
列表推导式
理解函数
常用的内置函数
内置库文件路径pathlib库
内置库csv文件库
内置库正则表达式re库
初学python常出错误汇总
三、数据采集
网络爬虫原理
网络访问requests库
网页解析pyquery库
案例 1 大众点评
案例 2 豆瓣读书
案例 3 Boss直聘
如何解析json数据
案例 4 豆瓣电影
案例 5 京东商城
案例 6 用爬虫下载文档及多媒体文件
案例 7 上市公司定期报告pdf批量下载
案例 8 上交所招股说明pdf批量下载
案例 9 深交所招股说明pdf批量下载
爬虫知识点总结
四、数据分析
Pandas基础知识
数据去重与缺失值处理
合并数据
重塑数据
选取表中指定记录(行)
选取表中指定字段(列)
描述性统计
在表中创建新字段(列)
批操作apply与agg
透视表pivot_table
数据分组groupby
时间序列时间点创建
日期数据的dt属性
日期行索引操作(选取指定日期的数据)
时间序列date_range
时间序列重采样resample
时间序列时间窗口rolling
案例 10 Kaggle titanic数据集探索性分析
案例 11 Boss直聘Python岗位分析
五、初识文本分析
从编码/解码视角重新理解文本
读取不同格式文件中的数据
如何将多个整理到一个excel中
案例 12 中文分词及数据清洗
案例 13 词频统计&词云图
案例 14 共现法扩展情感词典(领域词典)
案例 15 词向量word2vec扩展领域词典
案例 16 中文情感分析(词典法)
cntext库 情感分析代码操作
案例 17 对excel中的文本进行情感分析 91
案例 18: 语言具体性与心理距离 | 以JCR2021论文为例
六、机器学习与文本分析
了解机器学习ML
使用机器学习做文本分析的流程
scikit-learn机器学习库简介
文本特征抽取(特征工程)
案例 19 在线评论文本分类
使用标注工具对数据进行标注
案例 20 计算文本情感分析(有权重)
案例 21 文本相似性计算
案例 22 使用文本相似性识别变化(政策连续性)
案例 23 Kmeans聚类算法
案例 24 LDA话题模型
使用机器学习从图片中提取文本信息
七、词嵌入与认知
词嵌入原理及应用概述
案例 25 豆瓣影评-训练词向量&使用词向量
案例 26 使用词向量做话题建模
案例 27 认知指标(态度、偏见等)的测量
总结-文本分析在社科(经管)领域中的应用
社会科学文本挖掘资料汇总
公众号和博客积累了大量社会科学文本挖掘资料,涵盖文本分析概念、技术、代码、数据等。全部理清楚感兴趣的可以关注收藏。
https://hidadeng.github.io/blog/the_text_analysis_list_about_ms/
文献类
代码类
数据集
相关文献
[1]沈艳, 陈赟, & 黄卓. (2019). 文本大数据分析在经济学和金融学中的应用: 一个文献综述. 经济学 (季刊), 18(4), 1153-1186.
[2]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.
[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[4]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[5]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[6]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[7]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[8]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. *中国工业经济*, 2017 (12): 132-150.
[9]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[10]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” _Journal of Consumer Research_ 47, no. 5 (2021): 787-806.
[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.