首页 文章详情

寒假工作坊 | Python实证指标与文本分析

大邓和他的Python | 158 2022-12-22 13:41 0 0 0
UniSMS (合一短信)

「本文目录」

  1. 参与方式
  2. 课程简介
  3. 授课老师
  4. 授课内容
  5. Tips

1.参与方式

  • 时间:2023.1.14~ 2023.1.15
  • 地点: 线上平台(移动端或电脑端皆可)
  • 主讲老师:邓旭东(哈尔滨工业大学)
  • 费用与优惠(优惠可叠加,最高不超过7.5折)
    • 标准价格:2000元/科/人
    • 老朋友9折优惠;在读生9折优惠
    • 与其他课程一同报名优惠:报名29折、报名38折、报名4科及以上7.5
    • 团购优惠:2人成团9折、3人成团8折、4人及以上成团7.5
  • 缴费方式
    • 对公转账(单位:杭州国商智库信息技术服务有限公司;开户银行:中国银行杭州大学城支行;银行账户:6232636200100260588)
    • 扫码支付(支持公务卡收款,联系客服微信获取付款码)
  • 报名与优惠咨询: 17816181460(同微信)(汪老师)

2.简介

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

「前大数据时代」,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。「大数据时代」,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:

  1. 「网络爬虫」 解决 如何从网络世界中高效地 「采集数据」
  2. 「文本分析」 解决 如何从杂乱的文本数据中 「构建指标」

为方便大家感受到文本数据的魅力,按照是否采用某项技术(爬虫、词频、词袋、w2v建词典、w2v认知变迁),从五个维度标记代表性的7篇论文。

文献王伟 , 陈伟, 祝效国 and 王洪伟, 2016. 众筹融资成功率与语言风格的说服性--基于 Kickstarter 的实证研究. 管理世界, (5), pp.81-98.「语言具体性如何影响顾客满意度」
Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806.
Wang, Quan, Beibei Li, and Param Vir Singh. "「Copycats vs. original mobile apps」: A machine learning copycat-detection method and empirical analysis." Information Systems Research 29, no. 2 (2018): 273-291.「文本相似度」
Cohen, L., Malloy, C. and Nguyen, Q., 2020. Lazy prices. The Journal of Finance, 75(3), pp.1371-1415.
胡楠, 薛付婧 and 王昊楠, 2021. 「管理者短视主义影响企业长期投资吗」———基于文本分析和机器学习. 管理世界, 37(5), pp.139-156.Kai Li, Feng Mai, Rui Shen, Xinyan Yan, 「Measuring Corporate Culture Using Machine Learning」, The Review of Financial Studies, 2020「女性就职高管改变组织内性别偏见」
Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. "Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language." Proceedings of the National Academy of Sciences 119, no. 9 (2022): e2026443119.
爬虫Y
Y



定性Y





词频YY

Y

词袋

YY
Y
W2V建词典



YY
W2V认知变迁





Y

3.主讲老师

大邓,哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。在多所大学分享数据采集和文本分析。运营公众号:大邓和他的Python,主要分享Python、爬虫、文本分析、机器学习等内容。

一、入门语法

  • Python跟英语一样是一门语言
  • 数据类型之字符串
  • 数据类型之列表元组集合
  • 数据类型之字典
  • 数据类型之布尔值、None
  • 逻辑语句(if&for&tryexcept)
  • 列表推导式
  • 理解函数
  • 常用的内置函数
  • os路径库
  • 内置库csv文件库
  • 常见错误汇总

二、数据采集

  • 网络爬虫原理
  • 寻找网址规律
  • 获取网页-requests库
  • pyquery库解析html网页
  • 「案例:」 豆瓣小说
  • json库解析json网页
  • 「案例:」 豆瓣电影
  • 「案例:」 文件下载
  • 「案例:」 上市公司定期报告pdf批量下载
  • 区分动态网站与静态网站

三、文本初识

  • 从信息传播视角重新认识文本
  • 读取各类文件中的数据
  • 「案例:」  识别图片中的文本
  • 数据清洗re库
  • 「案例:」 将多个数据文件汇总至一个csv文件
  • 「案例:」 中文jieba分词、词频统计、制作词云图
  • 「案例:」 使用共现(word2vec)法扩展情感词典
  • 「案例:」 使用词典做情感分析(无权重)
  • 「案例:」 数据分析pandas库快速入门
  • 「案例:」 使用pandas对excel中的文本进行情感分析

四、文本进阶

  • 文本分析与机器学习
  • 特征工程-认识词袋法、one-hot、Tf-Idf、word2vec
  • 将文档转为机器可处理的向量
  • 「案例:」 使用情感词典和tf-idf做情感分析(有权重)
  • 「案例:」 在线评论文本分类
  • 「案例:」 使用文本相似性识别变化(政策连续性)
  • 「案例:」 Kmeans聚类算法、LDA话题模型
  • 文本中的人类记忆(认知)
  • 如何测量人类认知偏见(刻板印象)
  • 「案例:」 词向量模型的使用方法-豆瓣影评
  • 文本分析在经管社科领域中的应用概述

参考文献

[1]沈艳, 陈赟 and 黄卓, 2019. 文本大数据分析在经济学和金融学中的应用: 一个文献综述. *经济学 (季刊)*, *18*(4), pp.1153-1186.
[2]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J/OL].南开管理评论:1-27[2022-04-08].http://kns.cnki.net/kcms/detail/12.1288.F.20210905.1337.002.html
[3]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.
[4]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[5]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[6]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[7]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[8]Banks, George C., Haley M. Woznyj, Ryan S. Wesslen, and Roxanne L. Ross. "A review of best practice recommendations for text analysis in R (and a user-friendly app)." *Journal of Business and Psychology* 33, no. 4 (2018): 445-459.
[9]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[10]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. *中国工业经济*, 2017 (12): 132-150.
[11]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[12]Hoberg, Gerard, and Gordon Phillips. 2016, Text-based network industries and endogenous product differentiation,?*Journal of Political Economy* 124, 1423-1465
[13]Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." *The Journal of Finance* 66, no. 1 (2011): 35-65.
[14]Fairclough, Norman. 2003. Analysing discourse: Textual analysis for social research (Psychology Press)
[15]Grimmer, Justin, and Brandon M Stewart. 2013, Text as data: The promise and pitfalls of automatic content analysis methods for political texts, *Political analysis*21, 267-297.
[16]Markowitz, D. M., & Shulman, H. C. (2021). The predictive utility of word familiarity for online engagements and funding. Proceedings of the National Academy of Sciences, 118(18).
[17]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806.
[18]Chen, H., Yang, C., Zhang, X., Liu, Z., Sun, M. and Jin, J., 2021. From Symbols to Embeddings: A Tale of Two Representations in Computational Social Science. Journal of Social Computing, 2(2), pp.103-156.
[19]Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. "Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language." *Proceedings of the National Academy of Sciences* 119, no. 9 (2022): e2026443119.

「Tips」

  • 开课前会建立讲师微信群并发布最新学习资料,群聊长期有效,助教全程跟随。
  • 本课程为在线平台观看,严禁翻录、下载、倒卖等侵权行为,一经发现,严厉打击,我们将对提供线索的朋友给予奖励。
  • 工作坊为实名制报名,高校教师、科研机构人员、公司职员提供工作证明,在校生提供学生证明,自由职业者提供身份证明,外国友人提供国籍或护照等证明。报名成功即认可遵守杭州国商智库信息技术服务有限公司的版权保护条款。
  • 全天时间表:每天6小时(8:30 — 11:30;14:00 — 17:00)+ 30分钟答疑

「往期课程展示」


「欢迎添加微信17816181460或扫码咨询报名信息。」


good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter