python-从数据帧中提取和计算三角图

2021-01-08 22点热度 0人点赞 0条评论

我有一个通过组合使用pypdf2导入的多个pdf创建的数据帧。框架如下:

组合式测向
Index    Title        Page
1        Title 1      Text from page 1
2        nan          Text from page 2
3        nan          Text from page 3
4        Title 2      Text from page 1
5        nan          Text from page 2

“page”列中的行包含PDF每一页中的所有文本,因此可能非常大。我正在尝试取“page”列并总结三角函数。我正在使用下面的代码,但是已经成功地提取了单个字母,而不是单词。

combined_df['page'] = combined_df['page'].astype(str)    

trigram_measures = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_documents(combined_df['page'])

finder.nbest(trigram_measures.pmi, 100) 
s = pd.Series(combined_df['page'])
ngram_list = [pair for row in s for pair in ngrams(row, 3)]
counts = Counter(ngram_list).most_common()

trigram_ df = pd.DataFrame.from_records(counts, columns=['gram', 'count'])

这给了我以下输出:

Index    Gram               Count
0        (' ', 't', 'h')    17793
1        ('t', 'h', 'e')    15882
2        ('h', 'e', ' ')    11255
3        ('i', 'n', 'g')    8846
4        ('e', 'n', 't')    8688
5        (' ', 'i', 'n')    8665

我怀疑这是我正在做的一件简单的事情,它导致我的循环无法识别单词之间的空格,有人能帮忙吗?

更新的代码
combined_df['page'] = combined_df['page'].astype(str)    

trigram_measures = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_documents(combined_df['page'])
finder.nbest(trigram_measures.pmi, 100) 

s = pd.Series(combined_df['page'])
trigram_df = s.apply(lambda x: Counter(ngrams(x.split(), 3)).most_common())
查看隐藏内容需要支付:¥1
查看

未经允许不得转载!python-从数据帧中提取和计算三角图

本文地址:https://ans.52learn.online/2142

ANS52LEARN

DO BEST