基于无监督技术的中文新闻事件数据构建与分析
Construction and analysis of Chinese news event data based on unsupervised techniques
投稿时间: 2023/10/20 0:00:00
DOI:
中文关键词: 新闻事件; 事件数据; 无监督学习
英文关键词: news event;event data; unsupervised learning
基金项目: 中国传媒大学中央高校基本科研业务费专项资金资助(CUC23GY004)
姓名 单位
元方 中国传媒大学媒体融合与传播国家重点实验室
卢伟 中国传媒大学媒体融合与传播国家重点实验室
沈浩 中国传媒大学媒体融合与传播国家重点实验室
点击数:1091 下载数:972
中文摘要:

本研究针对面向媒介和传播学研究的中文新闻事件数据构建任务进行探索,利用自然语言处理、深度学习和无监督聚类等技术,构建了一套开放性的新闻事件提取框架。构建中文新闻事件数据库的过程可以概括为将原始的新闻文本进行处理,然后进行句法分析和语义角色识别,从中提取三元组,再提取动词并转换为向量表示,之后通过降维和聚类结合人工标注形成结构化数据,最后提出了事件重要性得分以评估新闻中事件的分布情况,并利用《人民日报》的新闻数据进行了实验,验证了本文研究的理论与实践价值。

英文摘要:

In this study the task of constructing Chinese news event data for media and communication research was explored, technologies such as natural language processing, deep learning, and unsupervised clustering were utilized to construct an open-ended news event extraction framework. The process of constructing the Chinese news event database could be summarized as processing the original news text, performing syntactic analysis and semantic role recognition, extracting triplets from it, then extracting verbs and converting them into vector representations, followed by dimension reduction and clustering combined with manual annotation to form structured data. Finally, an event importance score was proposed to assess the distribution of events in the news. The framework was tested using news data from the People's Daily, validating the practical value of the research.

参考文献: