1
数据分析中对数曲线的应用
在各分析数曲线(对数坐对数变
势图)是学术研究常用的数据呈现方式。相比普通线性曲线,
对数曲线展现的数据图有一些特殊的优势。
一、压缩,适展现数值极大的
序列
对数幅度据的量级,从以使数
距很大的数据曲线在同一坐标系中表现出来。现实济与社
会数据普遍存在数值跨度极大的问题。例如 GDP、货币总量
资产规模、人口增量等时序数据,长期增长后数值扩大数
十倍甚至上百倍。若采用普通线性坐标,早期的小变化会
被后期的超大数值“压扁”趋势细节完全无法观察,图形呈
现严重失真。
例如,
8
10
的常用对数值为 8,这表明即使是以亿计的数
据,在取对数后数量级会大幅度降低。由此可对不数量级
的数据进行相对直观的比较。具体例子可见 1 和图 2 展现
的中国 GDP、人均 GDP 和总人口数据曲线及其对数曲线展
2
的情况。
1 中国 GDP、人均 GDP 和总人口原始数据曲线
2 中国 GDP、人均 GDP 和总人口对数曲线
可以看到, 1 和图 2 展现的曲线情况有很大的不同。
时,由于在 GDP、人均 GDP 和总人口之间存在下面关系
0.0
20000.0
40000.0
60000.0
80000.0
100000.0
120000.0
140000.0
1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002
GDP 人均GDP 人口数
0.00
1.00
2.00
3.00
4.00
5.00
6.00
1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002
GDP 人均GDP 人口数
3
人均 GDP=GDP/总人口
因此有
LOG(GDP)=LOG(人均 GDP)+LOG(总人口)
即,在图 2 中下面两条曲线之和就是最上一条曲线。由此
可以看出,观测这些数据的对数曲线,不仅可以清观察到
曲线的形态,而且容易识别这些曲线间的关系。
一般而言,对数变换具备压缩大数、拉伸小数的特性,
够极大缩小数据的绝对量级差距,让前、中、后不段的数
据变化均匀展示,使全周期的演化趋势清晰可见,决了线
性图表“大头压小头”的可视化缺陷。
二、直观识别增长率,而非绝对增长量
线性图表展示的是绝对增量,同等增长率对应的绝对增量
越大,易误导研究者“后期增长更快”对数曲线的
心优势是:对数曲线的斜率直接对应数据增长率。对数坐
标系中,直线代表匀速增长,斜率变大代表增速加,斜率
变小代表增速放缓。如果以时间为横轴,则纵轴上离相等
的两点之间的平均相对增长率也相等。
4
例如,设经济变量
Y
是时间
t
的函数,
Y
取对数得到
Y
ln
Y
ln
线
Y
平均相对增长率也相等。证明如下:
t
Y
为关于时间
t
的函数,
m
h
k
是不同的时间点,
根据纵轴上距离相等的两点的条件,可假设有下面关系成立:
khnm
YYYY lnlnlnln
于是,可以得到如下关系的成立
k
h
n
m
Y
Y
Y
Y
lnln
k
h
n
m
Y
Y
Y
Y
11
k
h
n
m
Y
Y
Y
Y
(1)
(1)式表明,在时间[
n
m
]上的平均相对增长率和[
k
h
]上的平均相对增长率相等。
三、消除指数增长趋势,通过对数转为线性关系
绝大多数经济变量(产出、资本、营收、价格等)均遵循
指数增长规律,原始数据曲线呈现陡峭上扬的指数态,难
5
以开展趋势拟合、阶段性对比等分析。通过对数变可将指
数增长关系转化为线性关系,让原本陡峭弯曲的曲线趋于平
滑、规整,便于研究者观察长期稳态趋势、识别结构性拐点、
区分阶段性增长特征。同时,对数数据更贴合经济、统计
学的经典模型假设,能够有效提升实证结果的可靠与稳健
性,是学术量化研究的标准预处理手段。
四、便于跨周期、跨主体的横向与纵向对比
对于不同基数、不同体量的变量,线性图表无法公
比增长水平。而对数曲线剔除了“基数差异”的干,聚焦
相对增长水平,可以实现不同时期、不同主体、不指标的
增长效率对比,让数据分析更加科学和方便
李军