跳转至

数据分类

结构化数据

结构化数据是指具有明确结构和格式的数据,它包括了严格定义的数据类型,如数字、日期和字符串,以及它们在数据库中的关系。这些数据通常以表格形式存在,每个数据字段(列)具有特定的含义和数据类型,每一行则代表一次观察或测量

结构化数据是量化投资中最常见的数据类型,比如行情数据、财务数据、宏观经济数据、市场数据等都是结构化数据

结构化数据通常以表格形式存储。下面是一个简单的示例:

日期 股票代码 收盘价 成交量
2023-07-01 股票A 152.00 10000000
2023-07-02 股票A 152.50 9500000
2023-07-03 股票A 153.00 10500000
2023-07-01 股票B 222.00 8000000
2023-07-02 股票B 223.00 8500000
2023-07-03 股票B 224.00 9000000

在这个数据表中:

每一列都是一个字段,具有明确的名称和数据类型,例如,“日期”是日期类型,“股票代码”是字符串类型,“开盘价”、“收盘价”、“最高价”、“最低价”和“成交量”都是数值类型

每一行都是一次观察值,例如,第一行是 2023 年 7 月 1 日股票 A 的股票交易数据

时间序列数据

时间序列数据是指对单一资产或投资对象在不同时间点的数据

时间序列数据是一种特殊类型的结构化数据,其中每个数据点都与一个时间戳关联,例如行情数据就是典型的时间序列数据

以下是某个公司股票价格时间序列数据的示例:

时间戳 收盘价 成交量
2023-07-01 150.00 500000
2023-07-02 150.25 450000
2023-07-03 150.50 550000
2023-07-04 150.75 600000
2023-07-05 151.00 650000

在这个数据表中,每一行都是一个时间戳,记录了该时刻的开盘价、最高价、最低价、收盘价和成交量

横截面数据

横截面数据是指在同一时间点(即:横截面),不同资产或投资对象的数据。这与时间序列数据不同

横截面数据也是一类结构化数据

假设我们在 2023 年 9 月 19 日收集以下的横截面数据:

股票名称 收盘价 成交量
股票A 13.2 50000000
股票B 6.5 80000000
股票C 4.8 100000000
... ... ...

在这个例子中,收集了所有股票在同一时间点(2023年9月19日)的收盘价和成交量。这就是一个横截面数据的例子

面板数据

面板数据是在多个时间点观察到的横截面数据,包含了时间序列和横截面两个维度

例如,一个包含多个股票在多个时间点的价格的数据集就是面板数据

日期 公司 收盘价 成交量
2023-07-01 股票A 152.00 10000000
2023-07-02 股票A 152.50 9500000
2023-07-03 股票A 153.00 10500000
2023-07-01 股票B 222.00 8000000
2023-07-02 股票B 223.00 8500000
2023-07-03 股票B 224.00 9000000

在这个数据表中,每一列都是一个字段,每一行都是一次观察值。这个表格也可以被看作是若干个时间序列(股票 A 和股票 B 的价格和交易量)的集合,或者是若干个横截面(2023 年 7 月 1 日、2 日、3 日的所有公司的价格和交易量)的集合

非结构化数据

非结构化数据是指没有预定义数据模型的数据,这些数据不易于在传统的关系数据库中存储和分析

非结构化数据包括文本、图像、音频等数据类型:

  • 新闻和社交媒体数据:来自新闻网站、微博等来源的文本数据

  • 图像和声音数据:例如卫星图像数据、电话会议的录音

例如,以下是一条新闻标题的示例:“XXX公司业绩稳定增长,拟收购海外优质资产,加强国际业务布局”

通过自然语言处理(NLP)技术,可以从这条新闻中提取出有用的信息,如公司名称(XXX公司)、事件(拟收购海外优质资产,加强国际业务布局)和业绩情况(稳定增长)

又如某款新手机上市,通过收集微博用户对这款手机的评价文本,可以用于情绪分析,从而影响投资决策

再如,通过分析卫星图像,可以预测农作物的产量,从而影响相关的期货价格

这些非结构化数据需要进行复杂的预处理,如文本分析、图像识别和声音识别,才能转化为可以用于量化投资的结构化数据。但是,由于它们提供了结构化数据无法覆盖的信息,因此在量化投资中越来越受到重视