Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
从线性到非线性:为什么斯皮尔曼相关系数比你想象的更重要
相关系数30秒解读
相关系数本质上是一种单一指标,用于量化两个变量的变化是否紧密同步。它的取值范围是-1到1:接近1的数值表示两者同步上升或下降,接近-1则表示反向运动,而接近0则暗示线性关系微弱或不存在。这一标准化指标在各行各业都适用——科学、工程,尤其是金融——因为它能将杂乱的散点图转化为一个易于理解的数字。
为什么投资者应关注(以及何时不应)
在组合管理中,相关性揭示了多元化的可能性。当你将相关性低或为负的资产搭配在一起时,可以降低整体组合的波动性——在市场动荡时这是至关重要的优势。金融策略师依赖相关性分析进行风险对冲、因子投资和统计套利。但这里有个陷阱:许多投资者过度依赖皮尔逊相关系数,忽略了不沿直线关系的潜在联系。
###你需要了解的三种相关性类型
皮尔逊相关捕捉连续变量之间的线性关系。它是行业标准,但有盲点:完全无法识别弯曲或阶梯式的关系。
斯皮尔曼相关则不同。它不是用原始值,而是对数据进行排名,衡量单调关系——即使关系弯曲,也能捕捉到变量之间的一致性变化。这使得斯皮尔曼相关在处理实际金融数据时尤为有用,因为这些数据常常包含异常值或非正态分布。处理序数数据(如市场排名或层级分类)的交易者会发现斯皮尔曼比皮尔逊更可靠。
肯德尔的tau提供另一种基于排名的替代方案,尤其在样本较小或存在大量平局值时更稳健。
选择合适的指标并非学术上的繁琐——它直接影响你的交易决策。高皮尔逊值只保证线性关系;如果关系是弯曲的,除非使用斯皮尔曼相关或类似技术,否则可能隐藏在表面之下。
相关性背后的数学(揭秘)
皮尔逊公式看似简单:用两个变量的协方差除以它们标准差的乘积。这一标准化过程将结果压缩到-1到1的范围内,使得不同变量之间可以进行比较。
公式: 相关系数 = 协方差(X, Y) / (标准差(X) × 标准差(Y))
###通过基础示例演示
取四个配对观察值:
结果:r≈0.98,表明几乎完美的正相关,因为Y与X成比例上升。
实际数据很少如此干净,因此通常由自动工具完成计算。但理解其机制有助于避免对软件输出的误解。
解读相关值:范围与含义
没有绝对的阈值,但行业通常遵循以下约定:
负值对应相反的关系,例如-0.7表示相当强的负相关。
**重要提示:**不同领域对“有意义”的界限不同。实验物理要求相关性接近±1才有统计意义,而社会科学则接受较低的阈值,因为人类行为本身带来噪声。
样本量陷阱:你的相关性可能只是幻觉
用10个数据点计算的相关系数与用1000个的结果截然不同。为了区分真实关系和统计偶然,需计算p值或置信区间。大样本即使相关性较低也可能具有统计显著性;而小样本则需要更高的相关系数才能显著。
始终问自己:“这个相关性是真实存在的,还是偶然的噪声?”
交易前的五个关键限制
相关≠因果。 两个变量同步变化不代表一方驱动另一方——可能有第三方隐藏因素。
皮尔逊的线性盲点。 弯曲关系可能导致低皮尔逊值,但实际上关系很强。这时斯皮尔曼相关表现优越:它能捕捉非线性单调关系。
异常值敏感。 一个极端异常值就能大幅影响r,误导分析。
分布假设。 非正态分布和类别数据违反皮尔逊的基本假设。应使用斯皮尔曼或Cramér’s V等。
时间不稳定。 相关性随时间变化,市场压力时常使其崩溃——这正是你最需要多元化的时刻。
(当皮尔逊失效时,尝试替代方案
对于单调非线性关系,斯皮尔曼相关和肯德尔的tau能提供更真实的反映。对于类别数据,列联表和Cramér’s V是必要的工具。
真实投资组合中的应用
股票与债券: 美股与政府债券历来相关性低或为负,在股市下跌时提供缓冲。
商品敞口: 石油公司股票回报与原油价格表面相关,但长期研究显示相关性适中且不稳定——表面逻辑可能误导。
对冲策略: 交易者寻找负相关资产进行对冲,但对冲只有在相关性持续时才有效。市场崩盘可能瞬间打破这些假设。
计算相关性:Excel实用工具
两个变量的相关性:
使用 =CORREL)范围1, 范围2### 计算皮尔逊相关系数。
多变量相关矩阵:
启用Excel的“数据分析”插件,选择“相关”,输入数据范围,即可生成所有变量两两之间的相关矩阵。
**专业提示:**确保范围正确对齐,考虑标题行,检查异常值后再信任结果。
R与R²:理解差异
R (相关系数本身),衡量线性关系的强度和方向,显示点与线的紧密程度。
R² (决定系数),是将R平方,表示在线性假设下,一个变量的方差中有多少可以由另一个变量解释。如果R=0.7,则R²=0.49,意味着大约49%的Y方差可以由X预测。
投资者在评估回归模型时常关注R²,但R本身能告诉你关系是正向还是负向——这是R²无法提供的重要信息。
##漂移问题:何时重新计算
市场环境在变化。金融危机、技术变革、监管调整都会改变既有的相关性。依赖稳定关系的策略应定期重新计算相关性,使用滚动窗口分析追踪变化,提前发现潜在风险。
使用陈旧的相关数据可能导致对冲失效、多元化失真或因子暴露错位。
你的前期分析清单
在进行相关性分析前,务必:
最终总结
相关系数将两个变量的关系浓缩成一个可解释的数字。它在组合构建、风险管理和探索性分析中发挥重要作用,但也有局限:不能证明因果关系,难以识别非线性关系,异常值和样本规模都可能扭曲结果。
将相关性视为起点,而非终点。结合视觉分析、斯皮尔曼相关等替代指标,以及严格的显著性检验,才能做出在市场考验下可辩护的决策。