Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wordpress-seo domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/vinascript/html/wp-includes/functions.php on line 6114
Đọc và ghi file Excel trong Python 3 - VinaScript

Latest Post

Triển khai dự án PHP, Mysql với Nginx trên Docker Tìm hiểu về HTML – Ưu điểm, nhược điểm và cách hoạt động của HTML

Dưới đây là một số thư viện Python được sử dụng để xử lý tệp Excel. Chúng không yêu cầu hệ điều hành Windows và có thể sử dụng được cho cả Python 2 và Python 3:

Thư viện Python để xử lý file Excel

openpyxl

Thư viện được đề xuất cho việc đọc ghi file Excel 2010 (xlsx)

xlsxwriter

Thư viện để ghi dữ liệu, format, tạo bảng biểu cho Excel 2010 (xlsx)

xlrd

Thư viện đọc, ghi file excel với dịnh dạng cũ (xls)

xlwt

Thư viện đọc, ghi file excel với dịnh dạng cũ (xls)

xlutils

Thư viện tổng hợp cả xlrd, openpyxl và xlwt, để xử lý copy và chỉnh sửa các file excel

Pandas là gì?

Pandas là một thư viện mã nguồn mở được cấp phép BSD, được tạo ra để xử lý cấu trúc dữ liệu và mang đến các công cụ phân tích dữ liệu mạnh mẽ và dễ sử dụng cho ngôn ngữ lập trình Python. Với Pandas, bạn có khả năng thực hiện nhiều nhiệm vụ khác nhau, từ việc đọc và ghi dữ liệu đến và từ nhiều định dạng file như CSV, MS Excel, HTML, SQL, cho đến nhiều định dạng khác nữa. Thư viện này mang lại sự linh hoạt đáng kể cho những người làm việc với dữ liệu trong ngôn ngữ lập trình Python.

Đối với Excel, Pandas sử dụng tích hợp các thư viện xlrd, openpyxl, xlsxwriter và xlwt (Mặc định là xlrd). Nếu sử dụng thư viện nào thì bạn cần phải cài đặt thư viện đó, tất nhiên là cài đặt thông qua công cụ quản lý pip3 của Python 3

Cài đặt thư viện Pandas

Sử dụng công cụ quản lý pip3 để cài Pandas:

pip3 install pandas

Vì mặc đinh Pandas sử dụng thư viện đọc Excel là xlrd nên chúng ta cần cài thêm xlrd:

pip3 install xlrd

Hiện tại thì phiên bản mới nhất của xlrd đã không còn hỗ trợ định dang file xlsx, nếu nếu bạn muốn sử dụng thì hãy cài version thấp hơn là 1.2.0

pip3 install xlrd==1.2.0

Hoặc cài bản openpyxl

pip3 install openpyxl

Đọc file Excel với Pandas

VD: sử dụng Pandas đọc file example.xls có format như sau:

Source Code

#! /usr/bin/python3

import pandas as pd

xl = pd.ExcelFile('example.xls')

# get the first sheet as an object
df = pd.read_excel(xl, 0, header=None)
print(df.head())

Kết quả: 

Trường hợp là file xlsx chúng ta cần cài openpyxl và chuyển sang sử dụng khi đó:

pd.read_excel(path, engine = 'openpyxl')

Một số xử lý file Excel với Pandas

– Lấy giá trị của 1 cell cố định

df.at[1, 1]

Kết quả như trong file Excel ví dụ sẽ là: STT

– Lấy dữ liệu của 1 cột

df.iloc[:, 0]

– Lấy số số tổng số dòng dữ liệu của file Excel

max_rows = len(df.iloc[:, 0])

Kiểm tra dữ liệu kiểu nan

pd.isnull(df.at[1, 1])

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *