博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
pagerank(textrank)
阅读量:5075 次
发布时间:2019-06-12

本文共 1723 字,大约阅读时间需要 5 分钟。

from numpy import *

import jieba
import copy

with open('content', 'r', encoding = 'utf-8') as f:

content = f.read()

with open('stopwords', 'r', encoding = 'utf-8') as f:

sw = f.readlines()

sw = map(lambda x: x.replace('\n', ''), sw)#停词

word_list = jieba.cut(content)

word_list = list(word_list)

word_list_vice = copy.deepcopy(word_list)#备份

set_sw = set(sw)

for word in word_list:#迭代消耗

if word in set_sw:
word_list_vice.remove(word)

word_list = copy.deepcopy(word_list_vice)#备份

word_set_list = list(set(word_list_vice))#转换类型消耗

aa = zeros((len(word_set_list), len(word_set_list)), dtype = float)

word_list_vice = copy.deepcopy(list(word_list))#备份

for i, word in enumerate(word_list):#迭代消耗

if i == len(word_list_vice) - 1:
break
sindex = word_set_list.index(word)
eindex = word_set_list.index(word_list_vice[i + 1])
aa[sindex][eindex] = aa[sindex][eindex] + 1
aa[eindex][sindex] = aa[eindex][sindex] + 1

def graph_init(a):#初始化转移矩阵

row, column = a.shape
c = zeros((row, column),dtype = float)
for i in range(row):
for j in range(column):
c[i][j] = a[i][j] / (sum(a[i]))
return c
def pr_init(c):#pageRank向量初始化
row, column = c.shape
pr = zeros(row,dtype = float)
for i in range(row):
pr[i] = float(1) / row
return pr
def pageRank(s, pr, p):#迭代计算pageRank向量
while(array_equal(pr, p * dot(pr, s) + (1 - p) * pr) == False):#判断pr矩阵是否收敛
pr = p * dot(pr, s) + (1 - p) * pr
return pr

if __name__=="__main__":

s = graph_init(aa)
pr = pr_init(s)
p = 0.8 #浏览当前网页的概率p
r = pageRank(s, pr, p)

result_list = []

for i, j in zip(word_set_list, r):
result_dict = {}
result_dict['word'] = i
result_dict['score'] = j
result_list.append(result_dict)

rl = sorted(result_list, key = lambda x: x['score'])

转载于:https://www.cnblogs.com/kayy/p/7976705.html

你可能感兴趣的文章
《梦断代码》读书笔记(三)
查看>>
Java8 Lambda表达应用 -- 单线程游戏server+异步数据库操作
查看>>
AngularJS学习篇(一)
查看>>
关于Xshell无法连接centos6.4的问题
查看>>
spring security 11种过滤器介绍
查看>>
代码实现导航栏分割线
查看>>
大数据学习系列(8)-- WordCount+Block+Split+Shuffle+Map+Reduce技术详解
查看>>
luogu4849 寻找宝藏 (cdq分治+dp)
查看>>
关于源程序到可运行程序的过程
查看>>
C# Async与Await的使用
查看>>
Mysql性能调优
查看>>
iOS基础-UIKit框架-多控制器管理-实例:qq界面框架
查看>>
自定义tabbar(纯代码)
查看>>
小程序底部导航栏
查看>>
poj1611 简单并查集
查看>>
Ubuntu 14.04下安装CUDA8.0
查看>>
跨平台开发 -- C# 使用 C/C++ 生成的动态链接库
查看>>
C# BS消息推送 SignalR介绍(一)
查看>>
WPF星空效果
查看>>
WPF Layout 系统概述——Arrange
查看>>