整数インデックスによるパンダシリーズ/データフレームの行の選択

2013年04月19日に質問されました。  ·  閲覧回数 829.8k回  ·  ソース

user1642513 picture
2013年04月19日

df.ix[2]df[2:3]両方が機能するのに、なぜdf[2]がサポートされていないのか知りたいです。

In [26]: df.ix[2]
Out[26]: 
A    1.027680
B    1.514210
C   -1.466963
D   -0.162339
Name: 2000-01-03 00:00:00

In [27]: df[2:3]
Out[27]: 
                  A        B         C         D
2000-01-03  1.02768  1.51421 -1.466963 -0.162339

df[2]df[2:3]と同じように機能し、Pythonのインデックス作成規則と一致することを期待します。 単一の整数による行のインデックス付けをサポートしない設計上の理由はありますか?

回答

Jeff picture
2013年04月19日
590

@HYRYをエコーし​​、0.11の新しいドキュメントを参照してください

http://pandas.pydata.org/pandas-docs/stable/indexing.html

ここに新しい演算子があります。整数インデックスのみを明示的にサポートする.ilocと、ラベルインデックスのみを明示的にサポートする.locです。

たとえば、このシナリオを想像してください

In [1]: df = pd.DataFrame(np.random.rand(5,2),index=range(0,10,2),columns=list('AB'))

In [2]: df
Out[2]: 
          A         B
0  1.068932 -0.794307
2 -0.470056  1.192211
4 -0.284561  0.756029
6  1.037563 -0.267820
8 -0.538478 -0.800654

In [5]: df.iloc[[2]]
Out[5]: 
          A         B
4 -0.284561  0.756029

In [6]: df.loc[[2]]
Out[6]: 
          A         B
2 -0.470056  1.192211

[]は(ラベルの場所によって)行のみをスライスします

Ted Petrou picture
2017年10月25日
71

DataFrameインデックス演算子の主な目的である[]は、列を選択することです。

インデックス演算子に文字列または整数が渡されると、その特定の名前の列が検索され、シリーズとして返されます。

したがって、上記の質問では、 df[2]は整数値2一致する列名を検索します。 この列は存在せず、 KeyErrorが発生します。


DataFrameインデックス演算子は、スライス表記が使用されている場合、動作を完全に変更して行を選択します

不思議なことに、スライスが与えられると、DataFrameインデックス演算子は行を選択し、整数の場所またはインデックスラベルによって選択できます。

df[2:3]

これにより、最後の要素を除いて、整数位置2から3までの行からスライスされます。 つまり、1行だけです。 以下は、整数位置6から始まり、3行ごとに20を含まない行を選択します。

df[6:20:3]

DataFrameインデックスに文字列が含まれている場合は、文字列ラベルで構成されるスライスを使用することもできます。 詳細については、 .ilocと.locのこのソリューションを参照してください。

このスライス表記は明示的ではなく、ほとんど使用されていないため、インデックス演算子で使用することはほとんどありません。 行ごとにスライスする場合は、 .loc/.ilocます。

HYRY picture
2013年04月19日
23

DataFrameはシリーズのディクテーションと考えることができます。 df[key]key列インデックスを選択しようとし、Seriesオブジェクトを返します。

ただし、[]の内側をスライスすると、非常に一般的な操作であるため、行がスライスされます。

詳細については、ドキュメントを読むことができます。

http://pandas.pydata.org/pandas-docs/stable/indexing.html#basics

Pavel Prochazka picture
2016年05月23日
15

pandasテーブルへのインデックスベースのアクセスには、

np_df = df.as_matrix()

その後

np_df[i] 

うまくいくだろう。

waitingkuo picture
2013年04月19日
6

あなたはソースコードを見ることができ

DataFrameプライベート機能を有する_slice()スライスするDataFrame 、それがパラメータ可能axisスライスする軸を決定します。 DataFrame__getitem__()_slice()呼び出し中に軸を設定しません。 したがって、 _slice()は、デフォルトで軸0にスライスします。

あなたはあなたを助けるかもしれない簡単な実験をすることができます:

print df._slice(slice(0, 2))
print df._slice(slice(0, 2), 0)
print df._slice(slice(0, 2), 1)
user1401491 picture
2016年03月19日
6

このようにデータフレームをループできます。

for ad in range(1,dataframe_c.size):
    print(dataframe_c.values[ad])