Python 代码读取新闻语料文件,并进行新闻主题的统计分析
完整资料: https://download.csdn.net/download/huanghm88/89879439
""" 实训3 新闻语料数据的统计与可视化分析 步骤1 新闻语料读取与类型统计分析 """# 引入 collections 包, codecs 包
import collections, codecs"""
“新闻语料.txt”中储存新闻的格式为:
每行为一条新闻。
每条新闻内,首先为该新闻的主题,然后\t分隔,然后是新闻的内容。例如:
财经\t今年基金高管变动增多2009年,A股市场一路反弹至2500点上方。虽然股指反弹幅度已经超过30%,但仍有不少国外投行纷纷发表言论,称“A股的牛市正在归来”。行情的回暖是否会让基金高管们蠢蠢欲动?目前还无法知道答案。但今年以来,基金高管的变动公告却在悄然增多。景顺长城总经理梁华栋、益民基金总经理刘义鹏都在不久前离职。此外,信诚、中欧、摩根士丹利华鑫基金今年以来也曾先后发布公告,聘任新的公司总经理。在同行间另谋高就、彻底离开公募基金或干脆转向私募……也许,王宏远的离职仅仅是一个开始。晨报记者 王洁
"""# 读取'新闻语料.txt',以一个字典的形式返回新闻语料内容。
# 返回的字典具体格式:key为新闻主题,value为list,储存该主题下的所有新闻。每条新闻为一个字符串。
def load_news() :# 读取 “新闻语料.txt”文件news_corpus = codecs.open('新闻语料.txt'