人才画像项目Pro
项目文档_v0.1
问题汇总
读取au_af信息补充
本文档使用 MrDoc 发布
-
+
首页
项目文档_v0.1
# 项目概览 我们这个项目分为两大部分: - (一):数据收集和分析: - 使用爬虫从知网爬取相关数据(已认证人才的发文,包括“期刊”、“会议”、“专利”、“标准”、“成果”等信息); - 并将数据池清洗整理,包括自然语言处理等方法 - (二):构建人才画像:使用第一步的数据集进行训练(采用适当的模型),训练得出人才认定标准 > 作者:小A、小B > > 作者单位:A大、B大 > > 文献类别:甲、乙、丙、丁、戊 > > 例如:小 A 在 “甲” 类有 13 篇文章,记为:`A - 甲 - 13`。 > > 中转表:初步存储一些爬取到的内容,以便使用 > > 汇总表:甲、乙、丙、丁、戊 五种数据的总表 > > 人才总库:存储工程师的整合信息(加工过的信息) # 详细框架 ## (一)采 ### 第一步:读取 “au_af” 信息 使用 numpy 读取 “.csv” 文件,并返回一个二维数组(一人一单位算一小组) ```python r""" Load "authors" and "authors' firm" from file: _file_path. The number of author's lines must be equal to the number of authors' firm's lines. Parameters ---------- _file_path : str The path of the file you want to read au_colnum : int The column number where the AU information is located af_colnum : int The column number where the AF information is located skip_rows : int The number of rows that useless and need to be skipped Returns ------- input_au_af : ndarray Data read from the .csv file. Two-dimensional array : [[au_1, af_1], [au_2, af_2], ... ] Notes ----- how to read the file: first resave the Excel as .csv file using "utf-8" then use numpy.loadtxt to read the contents : np.loadtxt(_file_path, dtype=str, delimiter=',', skiprows=1, usecols=1, encoding='utf-8') """ ``` > 注意:被读取的 “.csv” 文件需要从 Excel 中另存为 “CSV UTF-8” 格式 > > 当然也可以直接读取 excel 但是我们选择用 “.csv” 因为这个更轻量! > 注意:作者名字符段中的两个英文问号(“??”)不影响搜索 ### 第二步:爬取链接并初步保存 - 初步定为按库爬取,即先在 “甲” 库中检索 au_af 列表中的组合,然后再去 “乙” 库中检索 au_af 列表中的组合,依次进行。 #### “甲”库(期刊) - 爬取内容: - 未定向链接 - 作者、 - title、 - 被引、 - 下载、 - 来源、 - 时间、 - 数据库 #### “乙”库(会议) #### “丙”库(标准) #### “丁”库(专利) #### “戊”库(成果) #### 存表(中转表) - 存表内容:同上 ### 第三步:解析页面 使用上一步得到的未定向链接带着 “referer”(和"User-Agent") 访问页面,并开始抓取指定页面内容。 | 期 | 刊 | 文 | 献 | | | | | | | | | | | | | | | | | ------------------ | ---- | ---- | -------- | ---- | -------- | ---- | ------ | -------- | ------------ | ---- | ---- | ---- | ------ | ---------- | -------- | ---- | ---- | ---- | | 序号 | 标题 | 作者 | 合作强度 | 公司 | 合作规模 | 摘要 | 关键词 | 基金资助 | 资助力度 | DOI | 专辑 | 专题 | 分类号 | 涉及领域数 | 页面链接 | 被引 | 下载 | 主题 | | | | | 作者数量 | | 公司数量 | | | | 基金资助数量 | | | | | 分类号数量 | | | | | | | | | | | | | | | | | | | | | | | | | | 成 | 果 | 文 | 献 | | | | | | | | | | | | | | | | | ---- | ---- | ---------- | -------------- | ------------ | ------ | ---------- | -------------- | ---- | ---- | ---------- | -------- | -------- | -------- | ------------ | -------- | ------------ | -------- | ---- | | 序号 | 标题 | 成果完成人 | 合作强度 | 第一完成单位 | 关键词 | 中图分类号 | 涉及领域数 | 专辑 | 专题 | 学科分类号 | 成果简介 | 成果类别 | 成果水平 | 研究起止时间 | 评价形式 | 成果入库时间 | 页面链接 | 主题 | | | | | 成果完成人数量 | | | | 中图分类号数量 | | | | | | | | | | | | | 标 | 准 | 文 | 献 | | | | | | | | | | | | | | | | | | | | | | | ---- | ---- | ---- | ------ | -------- | -------- | ------ | ---------- | -------- | ------------ | -------------- | -------------- | -------------- | -------------- | ------ | ---------- | ---- | -------- | -------- | -------- | -------- | -------------- | -------- | -------- | ---- | | 序号 | 标题 | 摘要 | 标准号 | 发布日期 | 发布单位 | 起草人 | 合作强度 | 起草单位 | 合作规模 | 标准技术委员会 | 中国标准分类号 | 涉及领域数 | 国际标准分类号 | 总页数 | 纸质版定价 | 国别 | 归口单位 | 下载定价 | 标准性质 | 实施日期 | 实施或试行日期 | 正文语种 | 页面链接 | 主题 | | | | | | | | | 起草人数量 | | 起草单位数量 | | | 标准分类号数量 | | | | | | | | | | | | | | 会 | 议 | 文 | 献 | | | | | | | | | | | | | | | | | | | ---- | ---- | ---- | -------- | ---- | -------- | ---- | ------ | ---- | ------------ | -------- | -------- | -------- | ---- | ---- | ------ | ---------- | -------- | ---- | ---- | ---- | | 序号 | 标题 | 作者 | 合作强度 | 公司 | 合作规模 | 摘要 | 关键词 | 基金 | 资助力度 | 会议名称 | 会议时间 | 会议地点 | 专辑 | 专题 | 分类号 | 涉及领域数 | 页面链接 | 被引 | 下载 | 主题 | | | | | 作者数量 | | 公司数量 | | | | 基金资助数量 | | | | | | | 分类号数量 | | | | | | 专 | 利 | 文 | 献 | | | | | | | | | | | | | | | | | | | | | | | | | | ---- | ---- | -------- | ------------ | ------ | ---------- | ---------- | ---------- | ---------- | ------ | ---------- | ---- | ------ | ---------- | ---- | ---- | ------ | ---------- | -------- | -------- | ---- | -------- | ------ | ------ | ------ | ---- | -------- | ---- | | 序号 | 标题 | 专利类型 | 申请(专利)号 | 申请日 | 授权公布号 | 申请公布号 | 授权公告日 | 公开公告日 | 申请人 | 合作规模 | 地址 | 发明人 | 合作强度 | 专辑 | 专题 | 分类号 | 涉及领域数 | 主分类号 | 国省代码 | 页数 | 代理机构 | 代理人 | 主权项 | 优先权 | 摘要 | 页面链接 | 主题 | | | | | | | | | | | | 申请人数量 | | | 发明人数量 | | | | 分类号数量 | | | | | | | | | | | ### 第四步:存储数据 按批次从中转表中读取链接并写到汇总表中,每批 200 条。 #### 第五步:汇总整合 将得到的所有数据进行汇总和加工,构建人才总库。 ## (二)画
cdcdcd
2023年1月6日 18:36
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码