研一下高级图论课堂汇报:引文图+大作业:基于生成式超图聚类的网络告警日志归并框架。
课堂汇报课件:引文图
大作业论文:基于生成式超图聚类的网络告警日志归并框架
课堂汇报稿子:
简介
1 大家好,接下来由我为大家介绍引文图分析的相关内容。
2 论文报告主要分为四部分,引文图简介,论文中研究的引文图性质,文中提出的引文图划分方法和该领域后续的研究进展。
引文图
3 首先是引文图介绍,引文图又叫引文网络,在我们进行文献调研搜索的时候经常遇到。它是有向图,其中每个点代表一篇文章,每条边从一篇文章指向它所引用的文章。但有时按照不同的定义边可能会反向,比如说下面这个知网中的引文网络。
引文图属于社会网络的范畴但又有自己的特征:其中的边一旦添加不能随意删除,同时具有时间单向性:前面的文章不可能引用后面的文章。
引文网络在研究学科发展,计算影响因子,知识发现领域都有广泛的应用。
论文
4 我阅读的这篇文章是对引文图比较早的研究,他们在researchindex上面爬取了三个领域的论文,分别是神经网络,自动机和软件工程。分布构建各自的引文网络和联合网络。
在度分布上,引文网络属于服从幂律分布的无标度网络,也就是度数为i的节点比例和1/iy成正比,在对数坐标轴上是一条单调减的线。同时给出了入度分布参数为1.71,出度分布后半段参数为2.32。前半段不满足幂律分布,在10存在一个极值。这也很好解释,因为一般论文参考文献都有10篇以上,很少有论文引用少于10。
5 我们定义图中任意两点最短路径长度的最大值为图直径。在图直径方面,由于存在离散点,我们研究其最大连通分量的直径。在无向图上其直径为18,在三个网络极其联合网络上都满足。说明无向引文图满足小世界性,这使得网络上信息传递很快,任意两点都可以在几步内到达。
而在考虑有向图的情况下情况完全不同,对于强联通分量,两节点间有路径的概率仅为2%,其直径也在30左右,说明文章中极少存在互引的情况。
6 在连通性方面,引文网络中最大的弱连通分量占了90%以上的节点,而其中68%以上没有传入边,即未被引用。在这个分量内部58%的节点形成了双连通分量,剩余40%都是平凡双连通分量,即单节点。双连通的定义就是图中没有割点割边,任意两点见边数都大于1。
而在强连通分量上,我们与其的是里面完全没有强连通分量,但其实还是存在一些较大分量的。这是因为虽然存在时间引用限制,但是也存在同作者,同领域论文互引,同论文在不同期刊会议发表以及新版本引用那些引用过它的旧版本的情况。
7 最后作者进行了图划分的尝试,希望能够按照研究领域对论文进行划分。文中使用了递归嵌套的最小割算法,割集就是一组可以把图拆开的边,最小边割集就是其权重最小的一组割集。在全局上运行时,99%的划分都是把某一点单独拿出,不具备使用价值。作者尝试计算最不相关两篇论文的最小割,但这种情况分出来的结果高度不平衡,两个图节点数量之比达到了1:100,也没有意义。
说明了对引文网络的划分不可能用简单方法进行,必须对社区进行更精确的定义。
最新进展
8 下面是接下来的研究进展,在引文图划分方面,后面的研究者提出了社区检测的概念,拓宽了原框架。最小割方法属于基于划分的方法,并行的还有层次聚类,模块度优化等方法。模块度的概念很好地解决了这个问题,模块度可以理解为社区内权重减去社区间的权重。后面会有同学对这些算法进行详细介绍。其中最经典的是fast unfolding算法,通过迭代贪婪地最大化模块度指标得到更好的划分结果。
同时引文图的定义也得到进一步扩展,因为大家逐渐发现传统有向图难以描述共同引用的关系,所以提出了共引图,为了描述作者之间研究领域的相似性还提出了共同作者图。传统图很难表达多个节点的相同关联,所以引入了超图的概念,其中一条超边包括多个节点。
9 最后是引文网络在其他方向的研究进展。2007年有人发表了引文图相似性的研究,通过基于连接的相似性估计方法,寻找相似的文章。
2015年研究了引文图的采样与可视化呈现,通过矩阵分解的方法把用户最关心的文章摘取出来,通过可视化的方法呈现给用户。
2019年提出了引文图的连接预测,能够把互相无关引用关系但相关度强的论文对用户进行推荐。
这几个研究方向在后续都会有同学报告。
10 我的汇报到此结束,谢谢大家~