大规模知识图谱探索与爬坑

python的urllib不会自动导入其under层的包,需要手动导入,也就是需要单独进行操作

1
2
3
import urllib
import urllib.parse
import urllib.request

这样就可以直接使用了。

CN-DBpedia使用

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#encoding=utf-8
from urllib.parse import quote
import urllib.request
import json
import numpy as np
#请求1:输入实体指称项名称,返回对应实体(entity)的列表,json格式
#格式http://shuyantech.com/api/cndbpedia/avpair?q=** # **是查询的实体名
ch_str = quote('苹果')
en_url = 'http://shuyantech.com/api/cndbpedia/ment2ent?q='
url = en_url + ch_str
response1 = urllib.request.urlopen(url)
print(response1.read().decode('utf-8'))

#请求2:输入实体名,返回实体全部的三元组知识
#格式:http://shuyantech.com/api/cndbpedia/value?q=**&attr=** # 前**是查询的实体名;后**是查询的属性名
ch_str = quote('复旦大学')
en_url = 'http://shuyantech.com/api/cndbpedia/avpair?q='
url = en_url + ch_str
response2 = urllib.request.urlopen(url)
print(response2.read().decode('utf-8'))


#请求3:给定实体名和属性名,返回属性值
ch_str1 = quote('复旦大学')
ch_str2 = quote('英文名称')
en_url = 'http://shuyantech.com/api/cndbpedia/value?q='
url = en_url + ch_str1 + '&attr=' + ch_str2
response2 = urllib.request.urlopen(url)
print(response2.read().decode('utf-8'))

运行结果

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
{"status": "ok", "ret": ["苹果(2007年李玉执导电影)", "苹果公司", "苹果(蔷薇科苹果属果实)", "苹果(韩国2008年康理贯执导电影)",
"苹果(动漫《男子高中生的日常》中角色)", "苹果(网游《天堂梦》中人物)", "苹果(伊朗1998年莎米拉·玛克玛尔巴夫执导电影)", "苹果(
安与骑兵演唱歌曲)", "苹果(蔷薇科苹果属果树)", "苹果(邓丽欣演唱歌曲)", "苹果(minecraft中的食物类物品)", "苹果(谢和弦、e-so演
唱歌曲)", "苹果(中药)"]}
{"status": "ok", "ret": [["中文名", "复旦大学"], ["英文名称", "Fudan University"], ["简称", "复旦·FUDAN"], ["创办时间", "1905年06
月29日"], ["类别", "公立大学"], ["学校类型", "综合"], ["属性", "985工程(1999年)"], ["属性", "211工程(1994年)"], ["属性", "九校
联盟(2009年)"], ["属性", "双一流(世界一流大学建设高校)"], ["属性", "111计划(2006年)"], ["所属地区", "中国·上海"], ["现任校长
", "许宁生"], ["知名校友", "李岚清"], ["知名校友", "王沪宁"], ["知名校友", "韩正"], ["知名校友", "朱民"], ["知名校友", "李源潮"], ["知名校友", "竺可桢"], ["知名校友", "于右任"], ["知名校友", "邵力子"], ["主管部门", "中华人民共和国教育部"], ["硕士点", "一级学科41个、专业学位27个"], ["博士点", "一级学科35个、专业学位2个"], ["博士后流动站", "35 个"], ["校训", "博学而笃志"], ["校训", "切问而近
思"], ["校歌", "复旦大学校歌"], ["专职院士", "中国科学院院士 21人"], ["专职院士", "中国工程院院士 5人"], ["主要院系", "中国语言文学
系"], ["主要院系", "历史学系"], ["主要院系", "上海医学院"], ["主要院系", "外国语言文学学院"], ["主要院系", "化学系"], ["主要院系",
"物理学系"], ["主要院系", "经济学院"], ["主要院系", "管理学院"], ["主要院系", "新闻学院"], ["主要院系", "信息科学与工程学院"], ["国
家重点学科", "一级学科 11 个,二级学科 19个"], ["学校地址", "上海市杨浦区邯郸路220号"], ["学校代码", "10246"], ["主要奖项", "全国优
秀博士论文55篇(截至2012年)"], ["校庆日", "5月27日"], ["学校官网", "http://www.fudan.edu.cn"], ["世界排名", "前200名(2018年)"],
["CATEGORY_ZH", "中国高校"], ["CATEGORY_ZH", "公办高校"], ["CATEGORY_ZH", "研究生院高校"], ["CATEGORY_ZH", "211高校"], ["CATEGORY_ZH", "985高校"], ["CATEGORY_ZH", "专科高校"], ["CATEGORY_ZH", "综合类高校"], ["CATEGORY_ZH", "教育部隶属高校"], ["CATEGORY_ZH", "上
海高校"], ["CATEGORY_ZH", "本科高校"], ["CATEGORY_ZH", "大学"], ["CATEGORY_ZH", "学校"], ["CATEGORY_ZH", "中国大学"], ["DESC", "复
旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程
、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项
目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。\n
复旦大学创建于1905年,原名复旦公学,是中国人自主创办的第一所高等院校,创始人为教育家马相伯,首任校董为孙中山。校名“复旦”二字选自
《尚书大传·虞夏传》名句“日月光华,旦复旦兮”,意在自强不息,寄托当时中国知识分子自主办学、教育强国的希望。1917年改为私立复旦大学
;1937年抗战爆发后,学校内迁重庆北碚,并于1942年元旦改为“国立”;1946年迁回上海江湾原址;1952年院系调整后,复旦大学成为以文理科为
基础的综合性大学;1959年成为全国重点大学。2000年,原复旦大学与原上海医科大学合并成新的复旦大学。截至2017年5月,学校占地面积244.99万
平方米,建筑面积200.20万平方米。\n复旦师生谨记“博学而笃志,切问而近思”的校训,严守“文明、健康、团结、奋发”的校风,力行“刻苦、
严谨、求实、创新”的学风,发扬“爱国奉献、学术独立、海纳百川、追求卓越”的复旦精神,以服务国家为己任,以培养人才为根本,以改革开放
为动力,为实现中国梦作出新贡献。"]]}
{"status": "ok", "ret": ["Fudan University"]}
-------------本文结束感谢您的阅读-------------