旧报纸不用再封尘了!新算法可从历史文件中搜索并提取信息

Emma Chou

1

旧报纸给我们提供了一个了解过去的窗口,纽约州立大学布法罗分校的研究员开发了一种新算法,试图将这些历史文件变成有用的、可搜索的数据。

这种算法可以从光学字符识别(OCR)产生的结果中找到人名并按重要性排序,光学字符识别是将扫描文件转化为文本的计算机化方法,通常比较杂乱。相关算法研究发表在《决策支持系统》上。

当运行光学字符识别软件时,很多时候文本会出现乱码。对于旧报纸、书籍和杂志,问题可能来自于油墨质量差、皱褶或撕裂的纸张,甚至是软件没有想到的不寻常页面布局。

为了开发该算法,研究人员与纽约公共图书馆(NYPL)合作,分析了《纽约太阳报》在1894年11月和12月期间发表的14000多篇文章。纽约公共图书馆已经扫描了20多万页报纸。

研究人员的算法根据一些属性对人名的重要性进行排名,这些属性包括名字的上下文、名字前面的标题、文章的长度以及名字在文章中被提及的频率。该算法仅从文本中学习这些属性——它并不依赖维基百科或其他知识库等外部信息来源。

但由于光学字符识别文本是乱码,它无法确定这些属性对人名的排名有效性多高。因此,研究人员使用统计措施对许多数据属性进行建模,这有助于提供所需的姓名排名。

研究人员使用两组历史文章来测试他们的算法。一套是由光学字符识别软件产生的原始文本,另一套是由纽约市的学童手动清理过的,他们用这些文章来写当时当地著名人物的传记。

结果发现,当与清理过的故事版本相比,即使从嘈杂的光学字符识别文本中,排名算法也能对人名进行高度精确的排序。

研究人员认为,这项研究对发现整个历史上的重要人物有广泛的影响。研究人员还表示,最近在南北战争时期的非裔美国人文献上使用了这种技术,以了解更多关于奴隶制时代的重要人物。今后将扩大这项技术,以检查人与人之间的关系,并建立起过去的社会网络。

题为PNRank: Unsupervised ranking of person name entities from noisy OCR text的相关研究论文发表在《决策支持系统》上。

前瞻经济学人APP资讯组

论文原文:

https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐