📑 原始论文:Revealing correlation patterns of individual location activity motifs between workdays and day-offs using massive mobile phone data

摘要

利用海量手机数据揭示工作日和休息日间个体位置活动基元的关联模式

近年来,人们对理解更广泛、更长期的跨日甚至跨周的个体活动-出行行为(individual daily activity-travel behaviors)越来越感兴趣。然而,个体在多天中的日常活动-出行行为之间的关系仅部分被揭示,尤其是在工作日和休息日之间。

因此,我们开发了一个有效的框架,从海量的手机网络数据中提取基于位置活动基元 ( Location Activity Motifs,LAMs ) 的个体日常活动-出行模式,这有利于将日常活动-出行行为中的位置、活动和出行结合起来。
研究发现,在排除出行次数的影响后,LAMs随时间变化的数量很好地符合经典的探索和偏好返回 ( exploration and preferential return,EPR ) 模型,再现了日尺度上的人类活动-出行行为特征,表明工作日和休息日之间存在着复杂的 LAMs 关系。
此外,我们给出了三类关联模式,并使用关联规则挖掘算法实例化了工作日和休息日LAM之间的关系。
最终,规律性的个体差异和明显的空间异质性揭示了关联模式的形成机制。这些实证结果有助于在工作日和非工作日之间制定不同但相关的运输策略。

论文标题

Revealing correlation patterns #4 of individual location activity motifs#2 between workdays and day-offs#3 using massive#1 mobile phone data

重读论文标题,我们抓住了以上几个关键词,而这篇论文也正好是按照这样的顺序进行编排的。
本文的目的是为了挖掘【关联模式】,这个关联模式是【基元】之间的,而基元是【日尺度(multi-days scale)】的,用于表征日常活动-出行的行为,所用的数据是【海量】的手机。

接下来我们将从这四个点逐步展开对这篇论文的解读。

Massive|语义锚点检测

已有的研究中不乏有尝试从海量位置感知数据中提取个体活动-出行指标的方法:

  1. 跳转长度(Jump Length)
  2. 均方位移(Mean Square Displacement)
  3. 回转半径(Radius of Gyration)
  4. 最频繁位置(most Frequent Location)

但这些指标普遍没有考虑到轨迹点的有效性:一个有效的踪迹点应该是一个人主动选择执行有价值的活动的地点,例如居住,工作,购物,餐饮等,而不是一个偶然的地点。

为了提取个体活动-出行指标,我们应该通过创建更有语义点来进行后续处理。所以作者采用了语义锚点检测(Semantic anchor points detection)方法。

推导位置锚点

假设每个时刻只有一个用户连接到一个手机塔,但信号强度的交换会导致用户在手机塔之间的信令位置发生偏移。为了获取确切位置,我们可以定义位置点为:

  1. 信令位置在距离阈值ββ 内;
  2. 持续时间超过阈值γγ
  3. 计算加权中心;
  4. 将加权中心位置放置到预先划分的250m 网格中;
  5. 将网格中坐落的位置定义为锚点的最终位置。

这减少了由于信号波动或其他原因可能造成的定位误差。

活动语义锚点

我们可以通过一些先验知识为每个锚点分配一个活动目的:家(Home),工作(Work) 以及其他(Others)。例如:

语义锚点判断依据
Work9:00 AM - 5:00 PM (工作日)
Home9:00 PM - 8:00 AM
Others……

Motifs|位置活动基元

在确定锚点后,利用锚点的位置我们可以构建以一天为基本时间单位的个体日常出行轨迹。结合锚点的活动语义,这个个体出行轨迹自然也是含有语义信息的。

出行活动轨迹简图

这个轨迹可以抽象成一个简单的活动模体,也可以说是人类行为活动的一种基元。

与传统的基于活动的模体相比,上面构建的位置活动基元 LAMs 能够有效地区分活动的位置差异。传统的活动移动基元(Mobility motifs, MMs)中, H-O-W-O-H 这样的网络基元不能确定其他 O 是否是同一个 O ,但可以在LAMs中识别。

Multi-days|拟合经典模型

经典个体层次的移动模型,有:

  1. Levy flight 模型 (Brockmann, Hufnagel, & Geisel, 2006);
  2. 连续时间随机游走(CTRW)模型 (Gonz ’ alez et al. , 2008);
  3. 探索与偏好返回(EPR)模型 (Song et al. , 2010)

主要描述了个体活动-出行行为的空间选择机制,反应了每天回到一个或多个地点的倾向。
但在揭示日尺度上的活动形成机制方面存在一定的局限性。

而这个问题通过【Massive】的数据,和对每日构建的【LAMs】得到解决。
可以通过评估日常活动-出行模式是否符合经典的个体层次移动模型,来揭示多天中个体日常活动-出行模式的关系。

LAMs关系与拟合

如图a所示,个体的出行次数TNTN 在四种分位下,LAM 的数量SS 都随着时间的增加而增加,并且TNTN 越大SS 也越大。
通过绘制频次图(b),可以看出,LAMs的种类频次服从齐普夫分布,这与传统模型是一致的。
此外,如图c所示,直接绘制SSTNTN 的关系图后发现,TNTNS2S^2 增长。因此我们可以利用TNTN 来对SS 进行修正:STN=S/TNS_{TN}=S/\sqrt{TN},从而使得STNtαS_{TN}\sim t^\alpha(图d)。

Note

  • α=1\alpha=1:Levy flight 模型;
  • α=0.8α = 0.8: CTRW 模型;
  • α<0.8α < 0.8EPR 模型.

可以看出 LAMs 的数量(修正后)与时间的关系与 EPR模型 相符。为了进一步确认是否符合EPR模型,我们继续探究了STNS_{TN}ΔSTNΔ S_{TN} 之间的关系。

STN与ΔSTN的关系

这也符合 EPR模型中个体移动到先前未访问过的位置的概率PnewΔSSγP_{new}\sim \Delta S\sim S^{-\gamma} 的条件。

并且发现,当工作日与周末分开拟合时,效果更好! 这间接体现了不同性质的日之间的独立性。

Correlation Patterns|关联模式

研究者利用关联规则算法探究工作日与非工作日之间LAM的关联模式。

关联规则示意图

具体步骤如下:

  1. 数据预处理。在LAMs的基础上,提取工作日和休息日的个体LAM。然后,定义特定的m+nm + n 级关联模式MmnM_{mn},它由工作日的任意mm 种LAM和休息日的任意nn 种LAM组成。
  2. MmnM_{mn} 中确定有效候选。根据 Apriori 的两条规则:如果MmnM_{mn} 是有效的候选模式,它必须保证 下面这个公式 中的所有子模式都是显著频繁模式。MmnM_{mn} 中的有效候选者可以从工作日的mm 级频繁关联模式和休息日的nn 级频繁关联模式中初步生成,然后通过m+(n1)m + ( n-1 )(m1)+n( m-1 ) + n 级频繁关联模式进行筛选。

Mij=i=0mCmij=0nCnjM_{ij}=\sum_{i=0}^mC_m^i\bigcup\sum_{j=0}^nC_n^j

其中MijM_{ij}MmnM_{mn}的子集,表示由ii 种工作日LAM和jj 种休息日LAM组成的i+ji + j 级关联模式。CmiC^i_m 表示在工作日从mm 种LAM中随机选择的ii 种LAM,CnjC^j_n 表示从nn 种LAM中随机选择的jj 种LAM。\bigcup 表示级联算子。

  1. 确定MmnM_{mn} 中的显著频繁模式。对于MmnM_{mn} 中的每个有效候选,使用支持度置信度两个标准来判断是否具有显著频繁。表达式如下:

Support(Mmn)=NmnN×100%Confidence(MmMn)=NmnNm×100%\begin{aligned} \text{Support}(M_{mn})=\frac{N_{mn}}{N}\times100\%\\ \text{Confidence}(M_m\to M_n)=\frac{N_{mn}}{N_m}\times100\%\\ \end{aligned}

式中,NmnN_{mn}MmnM_{mn} 的个体数,NmN_mMmM_m (即Mm0M_{m0}M0mM_{0m})的个体数,NN 为总个体数。

多元Logistic回归模型

利用多元Logistic回归模型探索关联模式与个体特征(包括年龄、性别、收入、受教育程度、生活习惯、通勤距离、通勤时间等)的关系。

ln(PjPJ)=αj+m=1Mβjmxm\ln\left(\frac{P_j}{P_J}\right)=\alpha_j+\sum_{m=1}^M\beta_{jm}x_m

其中PjP_j 表示解释关联模式jj 的概率,PJ    (Jj)P_J\;\;( J\neq j) 表示基准关联模式JJ的概率;xmx_m 表示自变量,即个体特征,m    (m=1,2,3,...,M)m\;\; (m= 1 , 2 , 3 , ... , M) 为特征编号;αj\alpha_j 表示截距;βjmβ_{jm} 为回归系数。

缺陷

  1. 更多小但确切的数据期待使用进去
  2. 排除了游客和无业人员,因为他们的活动-旅行模式在工作日和休息日之间是不稳定的,但他们的活动也显著影响了城市环境
  3. 没有考虑出行方式的因素