wuhan university

开发工具

DEVELOPED TOOLS

tools

2

2023

大规模黄金标准作者消歧数据集LAGOS-AND

        数据集LAGOS-AND面向学术界的人名消歧问题,是利用开放学术信息资源ORCID和DOI自动构建而成的,构建方法详见文献"LAGOS-AND: A Large Gold Standard Dataset for Scholarly Author Name Disambiguation" (https://doi.org/10.1002/asi.24720)。


        该数据集包含两个子数据集LAGOS-AND-BLOCK和LAGOS-AND-PAIRWISE,前者主要服务面向聚类的作者消歧研究,后者主要服务面向分类的作者消歧研究。与现有的数据集相比,LAGOS-AND数据集呈现多个优势:数据集的初始版本包含约80万作者和750万条文献(LAGOS-AND-BLOCK)以及接近100万个作者实例对(LAGOS-AND-PAIRWISE),并且这两个子数据集在作者位置分布、出版年分布、性别分布、族裔分布、姓名流行度分布、研究领域分布等六个维度上均与整个微软学术图谱(Microsoft Academic Graph, MAG)较为接近,以上两点优势表明该数据集是一个大规模黄金标准作者消歧数据集(Large Gold Standard Dataset for Author Name Disambiguation, LAGOS-AND) 。


        此外,在构建数据集过程中,还探讨了一种之前较少关注的作者歧义类型——同人异名现象,通过将三个大型文献数据库PubMed、MAG和Semantic Scholar中的作者姓名与该作者在ORCID页面上呈现的官方姓名比较,揭示了这三个文献数据库中作者姓氏变异的程度,约在 5.80%-9.59%之间,并且如果考虑带有音调的字母(如 á)带来的姓氏变异或使用主流的姓名解析工具从全名中抽取姓氏进行姓氏比较,得到的姓氏变异程度会更高,约 8.04%-12.55%。这一发现表明,除同名异人外,作者姓氏变异或同人异名问题也是一种重要的作者歧义表现类型。


        最后,基于LAGOS-AND数据集,还构建了一个消歧方法评测组件, 评测结果发现,融合文献的深度语义信息能够显著提高消歧性能;还发现MAG数据库中的作者ID的准确性较低,这一点在召回率上尤甚。基于该发现,该研究建议后续的研究应谨慎地使用MAG 作者 ID 。


        LAGOS-AND的获取链接为 https://zenodo.org/record/7313380。目前,LAGOS-AND已经拥有两个正式版本(Version 1.0和Version 2.0),其中Version  1.0版是依托2019年的MAG文献数据库创建的,Version 2.0版是依托2022年的OpenAlex文献数据库创建的。LAGOS-AND数据集自发布后在学术界产生了一定的影响力,截至2023年9月,该数据集已被浏览超过1000次,被下载超过180次。


lagos-and-zenodo