📑 原始论文:Uncovering the spatiotemporal motif patterns in urban mobility networks by non-negative tensor decomposition

摘要

通过非负张量分解发现城市流动网络中的时空基元模式

研究城市中人口的宏观(macroscopic)流动规律和个体的微观(microscopic)出行特征,是理解城市这一复杂系统的重要途径。要同时结合人群和个体的出行规律进行研究是一项具有挑战性和复杂性的任务。

在本文中,创建了一个 4 维张量来描述人们各种移动模式的时空特征。通过非负张量分解(NTD)来识别城市中时间、空间和日常出行的主要模式以及它们之间的相互作用。并由 NTD 得出了 3 种主要的移动基元模式。

此外,利用这 3 种模式分别构建的人类移动网络,然后从复杂网络的角度对该网络的相关网络指标进行了统计分析和计算。

通过对分解得到的核心张量和计算得到的网络指标进行分析,发现了这三种模式分别对应于三种真实的移动场景

  1. 以通勤为主的简单基元;
  2. 基于更复杂的生活和娱乐活动的复杂基元;
  3. 从机场或火车站出发或到达的单次出行。

此外,三种基元模式构成的城市内部流动网络在网络异质性、节点重要性、熵和集聚系数等方面存在显著差异。这表明,现有的仅考虑一阶出行的城市内部人口流动网络研究可能是包含多个不同特征人群的聚集平均结果

此工作对不同移动基元模式人群的时空特征的具体研究可以辅助政策制定者进行精细化管理和实施具体政策。

方法介绍

现有基于大规模客流数据的城市特征研究中,多以一阶单程出行作为构建人类流动网络的基本单元,或仅关注个体自身的流动性而忽略其与整个城市空间之间的相互作用。
换句话来说,结合宏观与微观规律的研究较为罕见。

为此,论文作者提出构建一个涵盖时间、空间、起点和终点四种特征的四维张量来进行研究。得益于非负矩阵分解(NMF)在机器学习领域的降维表现和优越的可解释性,这里作者也尝试通过非负张量分解(NTD),使用了 Tucker 分解算法,来得到具有可解释性的分解因子。

最后,构建有向加权图这样的数据结构(复杂网络),利用复杂网络理论中的各种网络指标,结合以上各因子进行统计和分析。

张量建模

如上图所示,以上海市为例,通过上海市民的交通卡信息收集得到的地铁记录,我们可以对每一个个体的出行情况进行建模。
例如,紫色用户(ID:101)和蓝绿色用户(ID:102)某天的移动活动确定(图a)。我们就可以通过数据记录(图b)构建得到他们当天的移动基元(图c)。

用户个体可能存在采用其他交通工具进行移动的情况,这会使得部分基元是断裂的。但是为了尽可能贴合原始数据,在得到的基元中我们不再人为进行加边修补等工作。

接下来,统计数据集中构建的所有基元,绘制得到其每种拓扑基元的频数(图d)。

最终,选择前20个最常见的基元作为张量的一个轴。


作者构建的 4 维张量如下:

Tensor(time, motif, origin, destination): XR17×20×289×289\text{Tensor(time, motif, origin, destination): }\boldsymbol{\mathcal X}\in\Bbb R^{17\times20\times289\times289}

其中,时间维度包含了17个小时,这是能保证所有地铁站都正常运行的固定长度;起止点i,  ji,\;j 构成一个二维矩阵,是第kk 个基元情况下的图的邻接矩阵,统计iji\to j 的数量得到的边权。

非负张量分解

张量分解的相关内容可参考本站文章:

这里我们主要说明原作者对核张量的选取。

  n{1,2,3,4}  ,s. t. min(vn)max(vn)>α\begin{aligned} \forall\;n\in\{1,2,3,4\}\;,\quad \text{s. t. } \frac{\min(\mathbf v_n)}{\max(\mathbf v_n)}\gt\alpha \end{aligned}

结果分析

时间特征与基元模式

由于在最优化过程中我们限定了各个因子的范数为1,因此我们便于比较各个元素之间的大小关系,如上图所示。

可以看出,T2和T4分别表示了早晨出行和晚上出行的模式;T1和T3则代表上午和下午。
M1主要由最常见的简单基元组成,并且在之后的分析中我们还会指出,它主要代表人们的日常通勤;M2几乎包括了所有的拓扑基元情况,是一种比较复杂的基元模式;而M3则较为特殊,它对应的 m2 拓扑基元是单行线,在后面的分析中我们指出它对应了飞机场、火车站等交通枢纽。

起止点特征

起点特征和终点特征是对称的。我们仅分析起点特征即可。根据起止点特征在289个地铁站的空间分布图,我们可以把起止点特征划分为几个不同的模式。

区域聚集模式

区域聚焦模式是指O\bf O 中同一列的元素之间,具有较大值的元素在空间上聚集在一起或共享某些空间特征。

  • O2, O7 和 O9 符合区域聚集模式,它们表示的站点主要集中在市中心地区
  • O1 表示的站点介于市中心与外围之间的城市部分,即上海市内环线与外环线之间的区域;

线路聚集模式

线路聚集模式 是指O\bf O 中同一列的元素之间,具有较大值的元素在空间上基本属于同一地铁线路。
代表:O4,O5,O6,O8,O10 和 O11。

其他模式

O3 表现出混合的区域聚集和线路聚集模式,数值较大的要素对应的站点属于多条完整线路。这些站点位于浦东,一个被黄浦江和老上海隔开的改革前沿地区。

最有意思的是,O12并不像其他模式那样具有一定的地理联系。O12中,数值较大的元素对应的站点为城际交通枢纽,包括2个机场和3个火车站。这些城际交通枢纽在地理位置之外体现出独特的功能相似性。

复杂网络分析

缺陷

  1. 没有考虑工作日和周末这两种不同情况下的移动基元模式;
  2. 缺乏从时间角度或者结合时间与基元的角度进行建模;
  3. 忽略了除地铁外,人们的其他出行方式。