签到
EN

数据整理:历任基金经理数据变更

19浏览
2022/03/25 06:26发布
黄子乐
上海财经大学
学生
黄子乐|发布一篇文章——数据整理:历任基金经理数据变更

导读

       很多时候,我们从网络或者某些数据库等下载的数据不符合使用要求,需要对数据进行整理、数据搬家与填充。今天我们通过一个简单的例子:对历任基金经理变更数据的处理,给大家介绍一下如何利用Stata对不规则的数据进行整理。

一、转换文档格式

       从wind数据库下载的历任基金经理记录放在一个Excel文件中,其中涉及近400只基金,无论有多少次经理变更,都只占用一行。

图片

       以第一行数据为例,华夏成长基金经理三个不同的基金经理,括号内是任期,在任的经理只有开始日期,数据整理的目标是将任一基金的历任经理各自占一行。

将以上的Excel文件另存为文本格式,得到如下的形式(我们只列出前3只基金的记录)

图片

 

此时如果直接将此txt文件直接导入到Stata中

  •  
  •  
  •  
clear allcd e:\wind\基金经理insheet using e:/wind/基金经理/历任基金经理.txt, clear

结果是:

图片

导入的数据出现了乱码,如何处理这些问题,使我们导入的数据变成我们所需要的形式呢?我们可利用import delimitedencoding选项解决这些乱码。在第二部分会向大家介绍。

二、将文本文件导入Stata并进行初步处理

首先,先向大家介绍三个命令:

1、stripquotes(yes | no | default) 告诉导入分隔符如何处理双引号。yes,将删除所有双引号;no数据中的双引号不变;default自动剥离可以标识为绑定引号的引号。
2、encoding(encoding) 指定要读取的文本文件的编码。默认值为encoding(“ latin1”)。指定编码( “GB18030”)读取以GB18030编码的文件。
3、varnames(#) 指定变量名是第#行的数据; 之前的任何数据都不导入。

下面,我们使用下列命令重新将txt文本导入到Stata中:

  •  
import delimited "e:\wind\基金经理\历任基金经理.txt",stripquote(yes) varnames(1) encoding("GB18030")

结果为:

undefined

       导入后发现,txt文件的第一行变为了变量名,乱码的问题也解决了,这样,我们就可以继续对数据进行后续处理。

三、基金经理变更数据整理

1、数据搬家及填充

  从表格中我们发现,虽然每个基金经理各占了一行,但是位置却出现了错误,另外变量证券简称的数据也出现了很多空值。这里我们整理的思路是:首先,如果基金经理历任为空值,我们将证券代码的值赋给基金经理历任如果证券简称为空值,那么就将前一个证券代码的值赋给下一个证券代码;最后如果证券简称为空值,将前一个证券简称的值赋给证券简称我们使用以下命令对数据进行处理。

命令如下:

  •  
  •  
  •  
replace 基金经理历任 = 证券代码 if 基金经理历任 == ""replace 证券代码 = 证券代码[_n - 1] if 证券简称 == ""replace 证券简称 = 证券简称[_n - 1] if 证券简称 == ""

结果为:

图片

2、拆分和整理任职日期

(1)变量拆分

此时我们需要将基金经理历任中的信息拆分为基金经理姓名、起始任职日期和终止任职日期三列。

  •  
split 基金经理历任,p("(" "-" ")")

我们通过"(" "-" ")"把基金经理历任列的信息拆分为三个变量。

结果为:

图片

(2)整理开始和结束日期

思路:计算基金经理历任2和基金经理历任3的日期,之后分别将数值赋给新的变量起始任职日期和终止任职日期;设置起始任职日期和终止任职日期显示格式为日期型格式;最后将不需要的变量删除,并基金经理历任1重新命名为基金经理。
命令:

  •  
  •  
  •  
  •  
  •  
  •  
drop 基金经理历任gen 起始任职日期 = date(基金经理历任2,"YMD")gen 终止任职日期 = date(基金经理历任3,"YMD")drop 基金经理历任2 基金经理历任3rename 基金经理历任1 基金经理format %tdCY-N-D 起始任职日期 终止任职日期

最终结果:

图片

这样,我们就得到了一份简单明了的基金经理变更的数据

黄子乐
上海财经大学
学生
文章150
·
总浏览量77286
最新文章
更多
2024全球机器学习技术大会上海站圆满闭幕,共奏AGI变革新时代
杨展
5567
浏览
第七届机械工程与应用复合材料国际会议(MEACM 2024)
李思傲
8
浏览
世界读书日专题 | 新质生产力背后的管理之道
杨展
4477
浏览
【征稿】第七届水与环境可持续发展国际会议(ICSDWE 2024)
李思傲
12
浏览
【征稿】第七届水与环境可持续发展国际会议(ICSDWE 2024)
李思傲
5
浏览
【EI检索】2024年第一届先进能源材料、能源器件与能源系统国际会议(AEMDS 2024)
杜金桐
12
浏览
热门用户
学术前沿速递
学术前沿速递
文章
300
学说观点
学说观点
文章
300
AIGC交流社区
学说官方
文章
240
未央网
未央网
文章
233
毕宣
中央财经大学
文章
185
王凯
T. Rowe Price
文章
181
热门文章
更多
经济学入门必读书籍有哪些值得推荐?
楚健
·
1134
浏览
绿色信贷能否提高商业银行的核心竞争力?基于中国的准自然实验
创新研究
·
716
浏览
如果经济学家连股都不炒,那他们都在干什么呢?
李博
·
652
浏览
“特斯拉”打败了“星巴克”
张子瑞
·
629
浏览
最新综述!AIGC到底是什么?都有哪些应用?一文尽览!
AIGC交流社区
·
617
浏览
数电票的26个问题,税局统一回复!
张俊熙
·
606
浏览
研究方法 | 文献资料分析方法大全!收藏
周舟
·
596
浏览
会议预告|清华五道口绿色金融讲座第一期,邀您探讨“碳达峰碳中和——中国发展转型的机遇和挑战”
学术会议动态
·
3309
浏览
文献资料分析方法大全,建议收藏!
楚健
·
506
浏览
研究方法:文献资料分析方法
周舟
·
493
浏览