天天看點

Python自動化神器:精準提取圖檔中的表格資料,告别繁瑣手動輸入

作者:人工智能取經人

本文利用OCR技術和計算機視覺方法,提供了一種從圖檔中提取表格的方法,不僅能夠確定文字資訊的絕對準确,而且還能保證不破壞原來的表格結構,對于喜歡利用微信工作的公司來說極大地提高了工作效率

在工作和生活中,我們時常會遇到這樣的場景:朋友、客戶、同僚或上司為了快速傳遞資訊,經常将表格資料以截圖的形式發送給我們。然而,這樣的圖檔格式卻給我們帶來了諸多不便,尤其是當我們想要繼續編輯這些資料時。盡管市面上有一些自動提取工具,但它們往往隻能提取文字,而無法保證表格的原始結構,這使得我們不得不手動将圖檔中的資訊一一輸入到Excel中。

Python自動化神器:精準提取圖檔中的表格資料,告别繁瑣手動輸入

這個過程不僅無聊且低效,而且容易出錯,極大地影響了我們的工作效率。

然而,現在有了Python自動化工具,我們可以輕松解決這個問題!

Python作為一種強大的程式設計語言,擁有衆多優秀的庫和工具,可以幫助我們實作自動化提取圖檔中的表格資料。通過結合計算機視覺和OCR技術,我們可以編寫程式來精準識别圖檔中的表格,并将其轉換為可編輯的Excel格式。

具體來說,我們可以使用OpenCV庫來處理圖像,通過圖像預處理步驟如灰階化、二值化、降噪等,提高表格資料的識别準确率。然後,利用Tesseract OCR引擎來識别圖檔中的文本,将其轉換為字元串形式。

接下來,是關鍵的一步——識别表格結構。這需要我們利用一些算法和政策來識别表格的行列、單元格等資訊,確定資料的準确性和完整性。這個過程可能需要結合一些自然語言處理和機器學習的技術,以應對不同表格布局和格式的挑戰。

一旦我們成功識别了表格結構,就可以将提取到的資料按照表格形式組織起來,并使用pandas庫将其轉換為DataFrame對象。DataFrame是pandas提供的一個強大的資料結構,它不僅可以友善地存儲和操作表格資料,還可以直接導出為Excel檔案。

最後,我們将DataFrame對象儲存為Excel檔案,就可以得到一份與原始圖檔中表格結構完全一緻的Excel表格了。這樣,我們就可以輕松地對資料進行編輯、分析和處理,大大提高了工作效率。

核心示例代碼

from PIL import Image
import pytesseract
from openpyxl import Workbook


def load_image(image_path):
    image = Image.open(image_path)
    return image


def convert_to_grayscale(image):
    return image.convert("L")


def extract_text(image):
    return pytesseract.image_to_string(image)


def extract_table_data(text):
    rows = text.strip().split("\n")
    table_data = [row.split("\t") for row in rows]
    return table_data


def save_as_excel(table_data, output_path):
    workbook = Workbook()
    sheet = workbook.active


    for row_index, row_data in enumerate(table_data, start=1):
        for column_index, cell_data in enumerate(row_data, start=1):
            sheet.cell(row=row_index, column=column_index, value=cell_data)


    workbook.save(output_path)


# 調用示例
image_path = "table_image.jpg"
output_path = "table_data.xlsx"


image = load_image(image_path)
grayscale_image = convert_to_grayscale(image)
text = extract_text(grayscale_image)
table_data = extract_table_data(text)
save_as_excel(table_data, output_path)           
Python自動化神器:精準提取圖檔中的表格資料,告别繁瑣手動輸入

可以看到用這種方式提取到的資訊不僅沒有錯誤,而且還完美的保持了表格的結構

總之,Python自動化工具為我們提供了一種高效、精準的方法,可以一鍵提取圖檔中的表格資料,并将其轉換為可編輯的Excel格式。它不僅可以解決我們手動輸入表格資料的繁瑣問題,還可以保證資料的準确性和完整性。讓我們擁抱Python自動化,告别繁瑣手動輸入的困擾吧!