数据分类
结构化数据
结构化数据是指具有明确结构和格式的数据,它包括了严格定义的数据类型,如数字、日期和字符串,以及它们在数据库中的关系。这些数据通常以表格形式存在,每个数据字段(列)具有特定的含义和数据类型,每一行则代表一次观察或测量
结构化数据是量化投资中最常见的数据类型,比如行情数据、财务数据、宏观经济数据、市场数据等都是结构化数据
结构化数据通常以表格形式存储。下面是一个简单的示例:
日期 | 股票代码 | 收盘价 | 成交量 |
---|---|---|---|
2023-07-01 | 股票A | 152.00 | 10000000 |
2023-07-02 | 股票A | 152.50 | 9500000 |
2023-07-03 | 股票A | 153.00 | 10500000 |
2023-07-01 | 股票B | 222.00 | 8000000 |
2023-07-02 | 股票B | 223.00 | 8500000 |
2023-07-03 | 股票B | 224.00 | 9000000 |
在这个数据表中:
每一列都是一个字段,具有明确的名称和数据类型,例如,“日期”是日期类型,“股票代码”是字符串类型,“开盘价”、“收盘价”、“最高价”、“最低价”和“成交量”都是数值类型
每一行都是一次观察值,例如,第一行是 2023 年 7 月 1 日股票 A 的股票交易数据
时间序列数据
时间序列数据是指对单一资产或投资对象在不同时间点的数据
时间序列数据是一种特殊类型的结构化数据,其中每个数据点都与一个时间戳关联,例如行情数据就是典型的时间序列数据
以下是某个公司股票价格时间序列数据的示例:
时间戳 | 收盘价 | 成交量 |
---|---|---|
2023-07-01 | 150.00 | 500000 |
2023-07-02 | 150.25 | 450000 |
2023-07-03 | 150.50 | 550000 |
2023-07-04 | 150.75 | 600000 |
2023-07-05 | 151.00 | 650000 |
在这个数据表中,每一行都是一个时间戳,记录了该时刻的开盘价、最高价、最低价、收盘价和成交量
横截面数据
横截面数据是指在同一时间点(即:横截面),不同资产或投资对象的数据。这与时间序列数据不同
横截面数据也是一类结构化数据
假设我们在 2023 年 9 月 19 日收集以下的横截面数据:
股票名称 | 收盘价 | 成交量 |
---|---|---|
股票A | 13.2 | 50000000 |
股票B | 6.5 | 80000000 |
股票C | 4.8 | 100000000 |
... | ... | ... |
在这个例子中,收集了所有股票在同一时间点(2023年9月19日)的收盘价和成交量。这就是一个横截面数据的例子
面板数据
面板数据是在多个时间点观察到的横截面数据,包含了时间序列和横截面两个维度
例如,一个包含多个股票在多个时间点的价格的数据集就是面板数据
日期 | 公司 | 收盘价 | 成交量 |
---|---|---|---|
2023-07-01 | 股票A | 152.00 | 10000000 |
2023-07-02 | 股票A | 152.50 | 9500000 |
2023-07-03 | 股票A | 153.00 | 10500000 |
2023-07-01 | 股票B | 222.00 | 8000000 |
2023-07-02 | 股票B | 223.00 | 8500000 |
2023-07-03 | 股票B | 224.00 | 9000000 |
在这个数据表中,每一列都是一个字段,每一行都是一次观察值。这个表格也可以被看作是若干个时间序列(股票 A 和股票 B 的价格和交易量)的集合,或者是若干个横截面(2023 年 7 月 1 日、2 日、3 日的所有公司的价格和交易量)的集合
非结构化数据
非结构化数据是指没有预定义数据模型的数据,这些数据不易于在传统的关系数据库中存储和分析
非结构化数据包括文本、图像、音频等数据类型:
-
新闻和社交媒体数据:来自新闻网站、微博等来源的文本数据
-
图像和声音数据:例如卫星图像数据、电话会议的录音
例如,以下是一条新闻标题的示例:“XXX公司业绩稳定增长,拟收购海外优质资产,加强国际业务布局”
通过自然语言处理(NLP)技术,可以从这条新闻中提取出有用的信息,如公司名称(XXX公司)、事件(拟收购海外优质资产,加强国际业务布局)和业绩情况(稳定增长)
又如某款新手机上市,通过收集微博用户对这款手机的评价文本,可以用于情绪分析,从而影响投资决策
再如,通过分析卫星图像,可以预测农作物的产量,从而影响相关的期货价格
这些非结构化数据需要进行复杂的预处理,如文本分析、图像识别和声音识别,才能转化为可以用于量化投资的结构化数据。但是,由于它们提供了结构化数据无法覆盖的信息,因此在量化投资中越来越受到重视