详情页面-竞赛圈

已有账号，去登录

注册

点击左侧图标，发送手机验证码

我已阅读并同意《DC竞赛服务规则》和《DC竞赛隐私权政策》

使用邮箱注册

我已阅读并同意《DC竞赛服务规则》和《DC竞赛隐私权政策》

使用手机注册

第三方登录

验证邮箱

我们已向您的注册邮箱发送了一封邮件，请您注意接收邮件

好的，现在就去

请注意查收邮件，并按照邮件中的提示操作，完成注册。
没有收到邮件？请注意查看邮箱垃圾箱或重新发送

恭喜您

成为第位DCer
现在就去完善资料,参与平台更多活动吧!

好的,现在就去

麻婆豆腐

吹牛 | 吹牛

关注者 14

关注了

import pandas as pd # ID 标题文本内容 data = pd.read_csv('../data/all_docs.txt',sep='\001',header=None) data.columns = ['id','title','doc'] train = pd.read_csv('../data/train_docs_keywords.txt',sep='\t',header=None) train.columns = ['id','label'] train_id_list = list(train['id'].unique()) train_title_doc = data[data['id'].isin(train_id_list)] test_title_doc = data[~data['id'].isin(train_id_list)] train_title_doc = pd.merge(train_title_doc,train,on=['id'],how='inner')

import jieba import re import jieba.analyse import numpy as np # 去除文章的数字，数字没有意义，单纯一个数字，不能达到对文章内容的区分 train_title_doc['title_cut'] = train_title_doc['title'].apply(lambda x:''.join(filter(lambda ch: ch not in ' \t1234567890', x))) # 策略 extract_tags 直接利用jieba的提取主题词的工具 train_title_doc['title_cut'] = train_title_doc['title_cut'].apply(lambda x:','.join(jieba.analyse.extract_tags(x,topK = 5))) # 第二规则提取《》通过分析发现，凡是书名号的东西都会被用来作为主题词 train_title_doc['title_regex'] = train_title_doc['title'].apply(lambda x:','.join(re.findall(r"《(.+?)》",x))) # 利用策略 + 规则查看训练集的准确率 train_offline_result = train_title_doc[['id','label','title_cut','title_regex']] # 验证我这个规则能够达到的分数记得 * 0.5 count = 0 for i in train_offline_result.values: result = str(i[1]).split(',') title_cut = str(i[2]).split(',') title_regex = str(i[3]).split(',') if title_regex[0] == '': tmp_result = title_cut else: tmp_result = title_regex + title_cut count = count + len(set(result[:2])&set(tmp_result[:2])) print(count)

# 策略 extract_tags test_title_doc['title_cut'] = test_title_doc['title'].apply(lambda x:''.join(filter(lambda ch: ch not in ' \t1234567890', str(x)))) test_title_doc['title_cut'] = test_title_doc['title_cut'].apply(lambda x:','.join(jieba.analyse.extract_tags(str(x),topK = 5))) # 第二规则提取《》 test_title_doc['title_regex'] = test_title_doc['title'].apply(lambda x:','.join(re.findall(r"《(.+?)》",str(x)))) # 利用策略 + 规则查看训练集的准确率 test_offline_result = test_title_doc[['id','id','title_cut','title_regex']] label1 = [] label2 = [] for i in test_offline_result.values: result = str(i[1]).split(',') title_cut = str(i[2]).split(',') title_regex = str(i[3]).split(',') if title_regex[0] == '': tmp_result = title_cut else: tmp_result = title_regex + title_cut if len(tmp_result) > 1: label1.append(tmp_result[0]) label2.append(tmp_result[1]) elif len(tmp_result) == 1: label1.append(tmp_result[0]) label2.append(tmp_result[0]) else: label1.append('') label2.append('') result = pd.DataFrame() id = test_title_doc['id'].unique() result['id'] = list(id) result['label1'] = label1 result['label1'] = result['label1'].replace('','nan') result['label2'] = label2 result['label2'] = result['label2'].replace('','nan') result.to_csv('../result/jieb_ruler_result_3.csv',index=None)

登录

第三方登录

注册

第三方登录

验证邮箱

恭喜您

手机账号绑定

联系DC

麻婆豆腐流分享一，简单规则+jieba

麻婆豆腐

麻婆豆腐

请选择举报原因：