文本識别微信小程式
一、引言
1.1編寫目的:
通過規範小程式的開發過程,達到提高品質,降低維護成本的目的。開發者應根據本指南進行小程式開發和編制小程式開發文檔。
1.2背景:
在資訊量非常大的時代,PDF和圖檔占資訊量較大一部分,這就造成了使用者對圖檔和PDF文本識别的大量需求,包括對各種語言文字、手寫體、數字等。本項目目的為滿足這一市場的需求。
1.3應用:
旨在為此微信小程式的開發指定規範、明确開發方向和目的。使每個成員了解自己的分工,并嚴格按照此文檔執行。
1.4為使用者解決的問題及其價值
該程式可以将圖檔和某些無法複制的PDF中的文字識别出來供使用者使用,後期識别出來的文字能支援複制,格式規範和無亂碼。在一定程度上,該程式友善了人們的學習和生活。
1.4階段目标:
1、寫出小程式的前端基本樣式,後端對圖檔中文本字元分割的算法。
2、完善前端基本樣式,後端調用百度orc進行文字識别。
3、豐富小程式界面及功能,并進行排錯。
二、環境要求
運作環境:Android
開發平台:pycharm、VS code、微信小程式開發者工具
開發語言:JS、python
三、人員分工
人員名稱 | 祝祥瑞 | 李博凱 | 崔鵬 |
工作内容 | 配置設定任務 | 繪制預期效果圖 | 繪制預期效果圖 |
需求說明書 | 程式前端設計 | 程式功能的代碼實作 | |
審查、修改、補充需求說明書 | 程式前端代碼實作 | 實作百度OCR端口調用 | |
程式功能的代碼實作 | |||
工作量 | 32% | 38% | 30% |
四、系統劃分
本小程式的系統劃分:接口系統
接口系統分為:
1、擷取使用者手機的相機權限,若相機不授權,則無法使用拍照識圖功能。
2、擷取使用者手機的相冊權限,若相冊不授權,則無法上傳圖檔進行識别。
3、通過接口調用百度OCR,百度OCR無調用頻率限制,但每天有免費調用次數限制(最高50000次)。因為該小程式未添加資料庫系統,是以對于不同使用者進行識别時,會重複調用此接口。
4、擷取使用者微信賬戶資訊,其中包括該賬戶中所有的已公開資訊,若使用者不授權,則無法對相冊進行授權。
5、由于文字型系的龐大以及其複雜性,是以該小程式的服務幾乎都依賴于第三方,暫時無更好備選方案。該程式的穩定性取決于第三方庫的穩定性。
6、該程式的識别準确度,取決于照片的清晰度以及文字的标準程度,照片越清晰,文字越标準,則準确度越高。可以識别的内容包括漢字、數字、英文、标點符号等。
文檔源碼:https://gitee.com/rui-123/year-old-city