2025-11-20T07:55:15.239402

Comparative Analysis of Topic Modeling Techniques on ATSB Text Narratives Using Natural Language Processing

Nanyonga, Wasswa, Turhan et al.

Improvements in aviation safety analysis call for innovative techniques to extract valuable insights from the abundance of textual data available in accident reports. This paper explores the application of four prominent topic modelling techniques, namely Probabilistic Latent Semantic Analysis (pLSA), Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), and Non-negative Matrix Factorization (NMF), to dissect aviation incident narratives using the Australian Transport Safety Bureau (ATSB) dataset. The study examines each technique's ability to unveil latent thematic structures within the data, providing safety professionals with a systematic approach to gain actionable insights. Through a comparative analysis, this research not only showcases the potential of these methods in aviation safety but also elucidates their distinct advantages and limitations.

academic

Comparative Analysis of Topic Modeling Techniques on ATSB Text Narratives Using Natural Language Processing

基本信息

论文ID: 2501.01227
标题: Comparative Analysis of Topic Modeling Techniques on ATSB Text Narratives Using Natural Language Processing
作者: Aziida Nanyonga, Keith Joiner, Hassan Wasswa, Graham Wild, Ugur Turhan (新南威尔士大学)
分类: cs.LG (机器学习)
发表时间/会议: 2025年 (预印本)
论文链接: https://arxiv.org/abs/2501.01227

摘要

航空安全分析的改进需要创新技术来从事故报告中丰富的文本数据中提取有价值的见解。本文探索了四种著名主题建模技术的应用，即概率潜在语义分析(pLSA)、潜在语义分析(LSA)、潜在狄利克雷分配(LDA)和非负矩阵分解(NMF)，用于分析澳大利亚交通安全局(ATSB)数据集中的航空事故叙述。研究检验了每种技术揭示数据中潜在主题结构的能力，为安全专业人员提供了获得可行见解的系统方法。通过比较分析，本研究不仅展示了这些方法在航空安全中的潜力，还阐明了它们各自的优势和局限性。

研究背景与动机

问题定义

航空业在全球运输中发挥关键作用，安全始终是首要关注点。随着航空活动的持续扩展，需要分析大量的事故报告文本数据以提取安全见解。传统的手工分析方法面临以下挑战：

数据量巨大：航空事故报告产生的文本数据量庞大，手工分析耗时且不实用
人为偏见：专家分析容易受到主观偏见影响
效率低下：传统统计方法在处理复杂文本数据时效率有限

研究重要性

航空安全直接关系到人员生命安全和经济损失
从事故报告中自动提取主题可以识别安全模式和趋势
系统化的文本分析能够支持更好的风险评估和事故预防

现有方法局限性

传统方法主要依赖专家手工分析和统计方法
缺乏对不同主题建模技术在航空安全领域的系统性比较
现有研究多关注单一技术，缺少综合评估

研究动机

本文旨在通过比较四种主流主题建模技术，为航空安全专业人员提供选择合适分析方法的指导，并推动自然语言处理技术在航空安全领域的应用。

核心贡献

系统性比较研究：首次对四种主要主题建模技术(pLSA, LSA, LDA, NMF)在航空事故报告分析中的应用进行全面比较
大规模数据集应用：基于ATSB 10年期间的53,275条记录(预处理后50,778条)进行实证分析
实用性指导：为航空安全专业人员提供了选择合适主题建模技术的实用建议
方法论框架：建立了完整的文本预处理和主题建模分析流程，可复制应用于其他航空安全数据集

方法详解

任务定义

输入：ATSB航空事故/事件报告的文本叙述输出：识别的主题及其关键词，每个主题代表特定的安全事件类型目标：比较四种主题建模技术在揭示航空安全报告中潜在主题结构的效果

数据预处理流程

研究采用了完整的NLP预处理管道：

文本清理：
- 转换为小写
- 移除标点符号和HTML标签
- 移除URL和非字母数字字符
文本处理：
- 分词(Tokenization)
- 停用词移除
- 词形还原(Lemmatization)
特征提取：
- TF-IDF (词频-逆文档频率)
- Word2Vec词向量
矩阵构建：
- 构建文档-词频矩阵作为主题建模的输入

四种主题建模技术

1. 潜在狄利克雷分配 (LDA)

原理：概率生成模型，假设文档是多个主题的混合，主题是词汇的分布
实现：使用概率图模型表示文档生成过程
优势：提供主题分布和文档-主题关系的概率解释

2. 潜在语义分析 (LSA)

原理：通过奇异值分解(SVD)将文档-词矩阵转换到低维空间
实现：识别词汇和文档间的潜在关系结构
优势：降维和噪声减少，改善信息检索效果

3. 概率潜在语义分析 (pLSA)

原理：采用概率方法而非SVD来解决主题建模问题
数学模型：
- P(z|d)：给定文档d时主题z的概率
- P(w|z)：给定主题z时词汇w的概率
训练：使用期望最大化(EM)算法训练参数

4. 非负矩阵分解 (NMF)

原理：将文档-词矩阵V分解为两个非负矩阵W和H的乘积
数学表示：V ≈ W × H，其中W表示词-主题矩阵，H表示主题-文档矩阵
优势：非负性约束确保结果的可解释性

技术创新点

多技术集成比较：在同一数据集上系统比较四种方法的性能
领域特定应用：针对航空安全领域的文本特点优化预处理流程
可视化分析：采用词云、主题分布图等多种可视化方法展示结果

实验设置

数据集

数据源：澳大利亚交通安全局(ATSB)航空事故/事件调查报告
时间范围：2013年1月1日至2022年12月31日(10年)
数据规模：
- 原始记录：53,275条
- 预处理后：50,778条记录
数据内容：航空事故和事件的文本叙述描述

评价方法

定性评价：主题一致性和可解释性分析
可视化评价：词云、主题分布图、方差解释率图
专家评价：基于航空安全专业知识的主题质量评估

实现细节

主题数量：所有方法均设置为10个主题
特征提取：TF-IDF和Word2Vec
可视化工具：词云生成、主题分布可视化
编程环境：Python及相关NLP库

实验结果

主要结果

pLSA结果

识别出10个主题，涵盖：

鸟击事件 (Bird Strikes)
飞行员和飞机损伤 (Pilot and Aircraft Damage)
安全检查 (Safety Inspection)
工程和发动机问题 (Engineering and Engine Issues)
驾驶舱和下降 (Cockpit and Descent)
常规无线电通信 (Routine Radio Communication)
空中交通管制 (ATC and Clearance)
起落架 (Landing Gear)
飞机撞击 (Aircraft Strikes)
起飞和飞机撞击 (Takeoff and Aircraft Strikes)

LSA结果

解释方差分析显示随主题数量增加的方差变化，识别的主题包括：

飞机和飞行操作 (Aircraft and Flight Operations)
机组和飞机检查 (Crew and Aircraft Inspections)
飞行员和鸟击 (Pilot and Bird Strikes)
进近和安全检查 (Approach and Safety Inspections)
起落架和飞行 (Landing Gear and Flight)
跑道检查和安全 (Runway Inspections and Safety)

LDA结果

主题分布分析显示主题1和4最为显著
提供了详细的词汇-主题分布可视化
成功识别出发动机问题、飞行操作、飞行员事件等关键主题

NMF结果

主题1、4、7、8被识别为最重要的主题
涵盖发动机和飞机操作、飞行员事件、鸟击、飞行后检查等
展现了良好的主题可解释性

比较分析结果

技术	优势	劣势
pLSA	全面的主题发现、可解释性强、可操作见解	数据依赖性、有限可扩展性、主题重叠
LSA	降维、噪声减少、改善信息检索	有限的潜在结构、预处理依赖、复杂性
LDA	生成模型、主题分布、文档-主题关系	超参数敏感、主题解释困难、复杂性
NMF	非负约束、可扩展性、可解释主题	仅限正数据、稀疏数据处理困难、手动主题选择