面向经济学家的Python文本挖掘

IDSC为国内外研究人员提供经济研究方法领域的实践技能课程。这门关于python文本挖掘的入门课程现在是IDSC资源库的一部分。联系我们idsc@iza.org如果你对学校的课程感兴趣。

动机

Python最初是一种web语言,现在是一种主要的统计语言,拥有丰富的模块集合,根据TIOBE索引,这些模块包括回归、机器学习、各种统计、supreme graphing、基于代理的模拟等(https://www.tiobe.com/tiobe-index),截至2018年2月18日,Python是第四大最流行的编程语言,在脚本语言中排名第一。相比之下,Stata的排名在50到100之间。根据世界经济论坛的数据,Python是世界科技巨头工程师和数据科学家所需要的顶级技能之一。

描述

随着越来越多的市场(婚姻市场、交通市场、劳动力市场等)在线或完全在线,我们研究市场和理解社会经济现象的能力将取决于能否利用互联网作为数据源。这意味着数据和文本挖掘将成为社会科学家的一项重要技能。认识到这一事实,欧洲议会正在努力将数据和文本挖掘排除在未来的数字版权立法之外。本课程选择性地介绍Python的基础知识,具体取决于示例所需的语言元素。其核心目标是研究:

  • 使用Stata内置的基本web浏览器和正则表达式,达到极限。
  • 介绍如何安装和管理python安装及其模块的基础知识。
  • 如何用Python构建web浏览器并创建其品牌。
  • 如何使用Python从web下载页面并存储它们。
  • 如何使用正则表达式(module:re)从html文档中获取数据。
  • Python提供用于存储数据的数据类型(模块:panda)。
  • 一些绘图、Python的基本回归等。
  • Python与Stata的集成。

讲座将在网络浏览器中运行的Jupyter笔记本中编写,以便学员在学习过程中可以使用代码。示例亮点包括从Google Trends、RePEc、wahlrecht.de、LinkedIn、Yahoo Finance等网站下载数据。

要求

尼科斯·阿斯基塔斯

尼科斯·阿斯基塔斯

IDSC负责人

伊扎