```markdown

`pd.read_excel` 使用指南

pd.read_excel 是 Pandas 库中用于读取 Excel 文件的一个非常常用的函数。它能够处理 .xls 和 .xlsx 格式的文件，并将数据加载到一个 Pandas DataFrame 中，便于后续的数据分析和处理。

基本用法

```python import pandas as pd

读取 Excel 文件

df = pd.read_excel('文件路径.xlsx') ```

此命令将读取指定路径的 Excel 文件，并返回一个 DataFrame。

常用参数

1. `io`

io 是要读取的 Excel 文件的路径或 URL。支持本地文件路径、URL 和类文件对象。

python df = pd.read_excel('data.xlsx') df = pd.read_excel('https://example.com/data.xlsx')

2. `sheet_name`

sheet_name 用于指定要读取的工作表名称。如果不指定，默认读取第一个工作表。

```python

读取名为 "Sheet1" 的工作表

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

读取所有工作表

df = pd.read_excel('data.xlsx', sheet_name=None) # 返回字典形式，键为工作表名称，值为 DataFrame ```

3. `header`

header 参数用于指定哪一行作为列名，默认为 0，即第一行。

```python

指定第二行作为列名

df = pd.read_excel('data.xlsx', header=1) ```

4. `index_col`

index_col 用于设置 DataFrame 的索引列，可以指定单列或多列。

```python

设置第一列作为索引列

df = pd.read_excel('data.xlsx', index_col=0)

设置第一列和第二列作为索引列

df = pd.read_excel('data.xlsx', index_col=[0, 1]) ```

5. `usecols`

usecols 用于指定要读取的列，可以是列名、列索引、或列的列表。

```python

只读取列名为 'A' 和 'B' 的列

df = pd.read_excel('data.xlsx', usecols=['A', 'B'])

只读取第 0 列和第 2 列

df = pd.read_excel('data.xlsx', usecols=[0, 2]) ```

6. `dtype`

dtype 用于指定列的数据类型，可以通过字典形式来设置。

```python

将 'Age' 列强制转换为整数类型

df = pd.read_excel('data.xlsx', dtype={'Age': int}) ```

7. `skiprows`

skiprows 用于跳过前几行数据，常用于忽略某些非数据行（例如表头或注释）。

```python

跳过前两行

df = pd.read_excel('data.xlsx', skiprows=2) ```

8. `nrows`

nrows 用于限制读取的行数。适合读取较大文件时进行调试。

```python

只读取前 10 行

df = pd.read_excel('data.xlsx', nrows=10) ```

9. `engine`

engine 用于指定使用的 Excel 解析引擎。默认情况下，Pandas 会根据文件格式自动选择引擎，但可以手动指定为 openpyxl 或 xlrd。

```python

使用 openpyxl 引擎读取 .xlsx 文件

df = pd.read_excel('data.xlsx', engine='openpyxl') ```

示例

假设我们有一个包含学生信息的 Excel 文件，文件路径为 students.xlsx，内容如下：

| Name | Age | Grade | |--------|-----|-------| | Alice | 22 | A | | Bob | 23 | B | | Charlie| 21 | A |

以下是读取这个 Excel 文件的几个常见操作：

1. 读取指定的工作表

python df = pd.read_excel('students.xlsx', sheet_name='Sheet1') print(df)

2. 读取特定列

python df = pd.read_excel('students.xlsx', usecols=['Name', 'Grade']) print(df)

3. 设置第一列为索引

python df = pd.read_excel('students.xlsx', index_col=0) print(df)

总结

pd.read_excel 是 Pandas 中强大的函数，它能灵活地读取 Excel 文件并返回一个 DataFrame。通过调整参数，你可以方便地读取特定工作表、指定列、设置索引等，帮助你高效地处理 Excel 文件数据。 ```

热搜
行业
快讯
专题

pd.read_excel 使用指南

基本用法

读取 Excel 文件

常用参数

1. io

2. sheet_name

读取名为 "Sheet1" 的工作表

读取所有工作表

3. header

指定第二行作为列名

4. index_col

设置第一列作为索引列

设置第一列和第二列作为索引列

5. usecols

只读取列名为 'A' 和 'B' 的列

只读取第 0 列和第 2 列

6. dtype

将 'Age' 列强制转换为整数类型

7. skiprows

跳过前两行

8. nrows

只读取前 10 行

9. engine

使用 openpyxl 引擎读取 .xlsx 文件

示例

1. 读取指定的工作表

2. 读取特定列

3. 设置第一列为索引

总结

`pd.read_excel` 使用指南

1. `io`

2. `sheet_name`

3. `header`

4. `index_col`

5. `usecols`

6. `dtype`

7. `skiprows`

8. `nrows`

9. `engine`