数据处理必看：如何让你的Pandas循环加快71803倍

发布时间：2019-08-28 00:35:23 所属栏目：教程来源：skura

导读：雷锋网 AI 开发者按，如果你使用 python 和 pandas 进行数据分析，那么不久你就会第一次使用循环了。然而，即使是对小型数据集，使用标准循环也很费时，你很快就会意识到大型数据帧可能需要很长的时间。当我第一次等了半个多小时来执行代码时，我找到了接

副标题[/!--empirenews.page--]

雷锋网 AI 开发者按，如果你使用 python 和 pandas 进行数据分析，那么不久你就会第一次使用循环了。然而，即使是对小型数据集，使用标准循环也很费时，你很快就会意识到大型数据帧可能需要很长的时间。当我第一次等了半个多小时来执行代码时，我找到了接下来想与你共享的替代方案。

标准循环

数据帧是具有行和列的 pandas 对象。如果使用循环，则将遍历整个对象。python 不能用任何内置函数，而且速度非常慢。在我们的示例中，我们得到了一个具有 65 列和 1140 行的数据帧，它包含 2016-2019 赛季的足球比赛结果。我们要创建一个新的列来指示某个特定的队是否打过平局。我们可以这样开始：

leaguedf['Draws'] = 99999    
 
for row in range(0, len(leaguedf)):     
 
if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) |   
((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')):     
 
leaguedf['Draws'].iloc[row] = 'Draw'      
elif ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')) |  
 
((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')):    
leaguedf['Draws'].iloc[row] = 'No_Draw'   
 
else:      
 
leaguedf['Draws'].iloc[row] = 'No_Game'  
def soc_loop(leaguedf,TEAM,):

数据处理必看：如何让你的Pandas循环加快71803倍

因为我们的数据框架中包含了英超的每一场比赛，所以我们必须检查我们感兴趣的球队(阿森纳)是否参加过比赛，是否适用，他们是主队还是客队。如你所见，这个循环非常慢，需要 207 秒才能执行。让我们看看如何提高效率。

pandas 内置函数：iterrow()——快 321 倍

在第一个示例中，我们循环访问了整个数据帧。iterrows()为每行返回一个序列，因此它以一对索引的形式在数据帧上迭代，而感兴趣的列以序列的形式迭代。这使得它比标准循环更快：

def soc_iter(TEAM,home,away,ftr):  
        #team, row['HomeTeam'], row['AwayTeam'], row['FTR']    
        if [((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D'))]:     
                result = 'Draw'     
       elif [((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D'))]:     
              result = 'No_Draw'   
 
       else:     
              result = 'No_Game'    
       return result

数据处理必看：如何让你的Pandas循环加快71803倍

代码运行需要 68 毫秒，比标准循环快 321 倍。但是，许多人建议不要使用它，因为仍然有更快的方法，并且 iterrows() 不保留跨行的数据类型。这意味着，如果在数据帧上使用 iterrow()，则可以更改数据类型，这会导致很多问题。要保留数据类型，还可以使用 itertuples()。我们不会在这里详细讨论，因为我们要关注效率。你可以在这里找到官方文件：

数据处理必看：如何让你的Pandas循环加快71803倍

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.itertuples.html?source=post_page-----805030df4f06----------------------

apply()方法——快 811 倍

apply 本身并不快，但与数据帧结合使用时具有优势。这取决于应用表达式的内容。如果可以在 Cython 空间中执行，则速度会更快(在这里就是这种情况)。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页