如今,人们经常在社交媒体上分享新闻和照片。因此,社交媒体可能是有关突发新闻的极好信息来源。它可用于检测丛林火灾、高速公路上的交通事故或抗议活动。最近的一篇论文提出了一种在线时空事件检测的新方法。它是一种无监督的方法,不需要定义的主题列表,可以有效地检测局部和全局事件。
为了检测具有不同空间覆盖范围的事件,创建了用于多尺度事件检测的四叉树数据结构。泊松模型与平滑函数相结合以检测具有不同时间分辨率的事件。定量和比较评估验证了所提出的方法正确且完整地检测到新事件。该方法可以推广到不同的社交网络,如 Twitter 和 Flickr 所示。
挖掘社交媒体数据流的一个关键挑战是识别特定本地或全球区域的一群人积极讨论的事件。此类事件对于事故、抗议、选举或突发新闻的预警非常有用。然而,事件列表和事件时间和空间的分辨率都不是固定的或事先已知的。在这项工作中,我们提出了一种使用社交媒体的在线时空事件检测系统,该系统能够检测不同时间和空间分辨率的事件。首先,为了解决与事件的未知空间分辨率相关的挑战,利用四叉树方法根据社交媒体数据的密度将地理空间划分为多尺度区域。然后,执行了一种统计无监督方法,该方法涉及泊松分布和用于突出显示具有意外社交帖子密度的区域的平滑方法。此外,通过合并同一区域以连续时间间隔发生的事件来精确估计事件持续时间。引入了后处理阶段来过滤掉垃圾邮件、虚假或错误的事件。最后,我们通过使用社交媒体实体来结合简单的语义来评估检测到的事件的完整性和准确性。所提出的方法使用不同的社交媒体数据集进行评估:不同城市的 Twitter 和 Flickr:墨尔本、伦敦、巴黎和纽约。为了验证所提出方法的有效性,我们将我们的结果与基于地理空间固定分割和聚类方法的两种基线算法进行了比较。对于性能评估,我们手动计算召回率和准确率。我们还提出了一种名为强度指数的新质量度量,它可以自动衡量报告事件的准确程度。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!