天天看點

一個非常有趣的爬蟲小練習帶ocr識别的

有個小的想法,想找一找 形近字 。百度一搜尋,百度文庫有一個,收費4元。而且我覺得字數不是太多。想自己弄一個,于是找到了 這個網站

http://www.fantiz5.com/xingjinzi/

這裡面據說字數很多,開練!

主要是為了學習

chrome,開發者調試

一個非常有趣的爬蟲小練習帶ocr識别的

發現 有個 zhuan() 的js

找到這個函數 

一個非常有趣的爬蟲小練習帶ocr識别的

找到這個函數了,開始研究裡面的代碼

一個非常有趣的爬蟲小練習帶ocr識别的

意思是 把輸入的漢字 如  ‘中’  ,轉化為 url編碼 再去掉 % ,再轉換成 小寫。

一個非常有趣的爬蟲小練習帶ocr識别的

再看這行代碼,把轉後的結果 拼字元串,直接通路。

如:

http://www.fantiz5.com/xingjinzi/json/e4b880.html

好了,研究明白了,開始爬吧。可是輸入的漢字從哪裡來呢?

一個非常有趣的爬蟲小練習帶ocr識别的

 看到上面有一堆字,大概6700多個,就用這些字,作為輸入吧。

直接上代碼:

1 # coding=gbk
 2 
 3 # 爬取形近字網站
 4 # http://www.******.com/xingjinzi/
 5 
 6 
 7 import urllib
 8 import os,re
 9 import pickle
10 from urllib import request, parse
11 import chardet
12 import requests
13 import random
14 import time
15 from bs4 import BeautifulSoup
16 
17 font=r"嗔嗖嗜嗝嗟嗡嗣嗤嗥嗦嗨嗪嗫嗬嗯嗲嗳嗵嗷嗽嗾嘀嘁嘈嘉嘌嘎嘏噓嘛嘞嘟嘣嘤嘧嘬嘭囑嘲嘴嘶嘹嘻嘿噌噍噎噔噗噘噙噜噢噤器噩噪噫噬噱噶噻噼嚅嚆嚎嚏嚓嚣嚯嚷嚼囊囔囗囚四囝回囟因囡團囤囫園困囪圍囵囹固國圖囿圃圄圓圈圉圊圜土聖在圩圪圬圭圮圯地圳圹場圻圾址坂均坊坌坍坎壞坐坑塊堅壇坜壩塢墳墜坡坤坦坨坩坪坫坭坯坳坶坷坻坼垂垃壟垅垆型垌壘垓垛垠垡垢垣垤墾垧垩墊垭垮垲垴垸埂埃埋城埏埒埔埕埘埙埚埝域埠埤埭埯埴埸培基埽堀堂堆堇堋堍塹堕堙堞堠堡堤堪堰堵塄塌塍塑塔塘塞塥填塬塾墀墁境墅墉墒墓牆墚增墟墨墩墼壁壅壑壕壤士壬壯聲殼壺壹處備複夏夔夕外夙多夜夠夤夥大天太夫夭央夯失頭夷誇夾奪夼奁奂奄奇奈奉奮奎奏契奔奕獎套奘奚奠奢奧女奴奶奸她好妁如妃妄妝婦媽妊妍妒妓妖妗妙妞妣妤妥妨妩妪妫妮妯妲妹妻妾姆姊始姐姑姒姓委姗姘姚姜姝姣姥姨姬姹姻姿威娃婁娅娆嬌娈娉娌娑娓娘娜娟娠娣娥娩娛娲娴娶娼婀婆婉婊婕婚婢婧婪嬰婵嬸婷婺婿媒媚媛媪媲媳媵媸媾嫁嫂嫉嫌嫒嫔嫖嫘嫜嫠嫡嫣嫦嫩嫫嫱嬉嬖嬗嬲嬴嬷孀子孑孓孔孕字存孫孚孛孜孝孟孢季孤孥學孩孿孬孰孱孳孵孺孽甯它宄宅宇守安宋完宏宓宕宗官宙定宛宜寶實寵審客宣室宥宦憲宮宰害宴宵家宸容寬賓宿寂寄寅密寇富寐寒寓寝寞察寡寤寥寨寮寰寸對寺尋導壽封射将尉尊小少爾尕尖塵尚尜嘗尢尤尥堯尬就尴屍尹尺尻尼盡尾尿局屁層居屈屜屆屋屎屏屐屑展屙屬屠屢屣履屦屯山屹屺嶼歲豈岈岌岍岐岑岔岖崗岘岙岚島岜岢岣岩岫岬嶺岱嶽岵岷岸岽巋峁峄峋峒峙峽峤峥巒峨峪峭峰峻崂崃崆崇崎崔崖崛崞崤崦崧崩嶄崮崴崽崾嵇嵊嵋嵌嵘嵛嵝嵩嵫嵬嵯嵴嶂嶙嶝嶷巅巍巛川州巡巢工左巧巨鞏巫差巯己已巳巴巷巽巾币市布帥帆師希帏帳帑帔帕帖簾帙帚帛幟帝帶幀席幫帱帷常帻帼帽幂幄幅幌幔幕幛幞幡幢幹平年并幸幺幻幼幽廣庀莊慶庇床庋序廬庑庫應底庖店廟庚府龐廢庠庥度座庭庳庵庶康庸庹庾廉廊廑廒廓廖廛廨廪延廷建廿開弁異棄弄弈弊弋式弑弓引弗弘弛弟張彌弦弧弩弪弭彎弱彈強弼彀歸當錄彖彗彘彜形彤彥彩彪彬彭彰影彳彷役徹彼往征徂徑待徇很徉徊律後徐徒徕得徘徙徜禦徨循徭微徵德徼徽心必憶忉忌忍忏忐忑忒忖志忘忙忝忠忡忤憂忪快忭忮忱念忸忻忽忾忿懷态慫怃怄怅怆怊怍怎怏怒怔怕怖怙怛憐思怠怡急怦性怨怩怪怫怯怵總怼怿恁恂恃戀恍恐恒恕恙恚恝恢恣恤恧恨恩恪恫恬恭息恰懇惡恸恹恺恻惱恽恿悃悄悉悌悍悒悔悖悚悛悝悟悠患悅您悫懸悭憫悱悲悴悸悻悼情惆驚惋惑惕惘惚惜惝惟惠惦懼慘懲憊惬慚憚慣惰想惴惶惹惺愀愁愆愈愉愍愎意愕愚感愠愣憤愦愧愫願慈慊慌慎懾慕慝慢慧慨慰慵慷憋憎憔憝憧憨憩憬憷憾懂懈懊懋懑懶懔懦懵懿戆戈戊戋戌戍戎戲成我戒戕或戗戰戚戛戟戡戢戤戥截戬戮戳戴戶戽戾房所扁扃扇扈扉手才紮撲扒打扔托扛扣扡執擴扪掃揚扭扮扯擾扳扶批扼找承技抄抉把抑抒抓投抖抗折撫抛抟摳掄搶護報抨披擡抱抵抹抻押抽抿拂拄擔拆拇拈拉拊拌拍拎拐拒拓拔拖拗拘拙拚招拜拟攏揀擁攔擰撥擇括拭拮拯拱拳拴拶拷拼拽拾拿持挂指挈按挎挑挖摯攣撾撻挾撓擋挢掙擠揮挨挪挫振挲挹挺挽捂捃捅捆捉捋捌捍捎捏捐捕撈損撿換搗捧捩捭據捱捶捷捺撚掀掂掇授掉掊掌掎掏掐排掖掘掠探掣接控推掩措掬掭掮掰擄掴擲撣摻掼掾揄揆揉揍揎描提插揖揞揠握揣揩揪揭揲援揶揸攬揿攙擱摟攪搋搌搏搐搓搔搛搜搞搠搡搦搪搬搭搴攜搽搿摁攝摅擺搖擯攤摒摔摘摞摧摩摭摸摹摺撂撄撅撇撐撒撕撖撙撞撤撩撬播撮撰攆撷撸撺撼擀擂擅操擎擐擒擗擘擻擢擤擦攀攉攢攘攥攫攮支攴收攸改攻放政故效敉敵敏救敕敖教斂敝敞敢散敦敫敬數敲整敷文齋斌斐斑斓鬥料斛斜斟斡斤斥斧斬斫斷斯新方於施旁旃旄旅旆旋旌旎族旒旖旗無既日旦舊旨早旬旭旮旯旰旱時曠旺昀昂昃昆昊昌明昏易昔昕昙昝星映春昧昨昭是昱昴昵昶晝顯晁晃晉晌晏曬曉晔暈晖晗晚晟晡晤晦晨普景晰晴晶晷智晾暫暄暇暌暑暖暗暝暧暨暮暴暹暾曙曛曜曝曦曩曰曲曳更曷曹曼曾替最月有朊朋服朐朔朕朗望朝期朦木未末本劄術朱樸朵機朽殺雜權杆杈杉杌李杏材村杓杖杜杞束杠條來楊杩杪杭杯傑杲杳杵杷杼松闆極構枇枉枋析枕林枘枚果枝枞樞棗枥枧枨槍楓枭枯枰枳枵架枷枸柁柃柄柏某柑柒染柔柘柙柚櫃柝柞檸柢查柩柬柯柰柱柳柴柽柿栀栅标棧栉栊棟栌栎欄樹栓栖栗栝校栩株栲栳樣核根格栽栾桀桁桂桃桄桅框案桉桊桌桎桐桑桓桔桕桠桡桢檔桤橋桦桧槳樁桫桴桶桷梁梃梅梆梏梓梗梢夢梧梨梭梯械梳梵檢棂棉棋棍棒棕棘棚棠棣森棰棱棵棹棺棼椁椅椋植椎椐椒椟椠椤橢椰椴椹椽椿楂楔楗楚楝楞楠楣楦楫楮楱楷楸楹樓榀概榄榆榇榈榉榍榔榕榘榛榜榧榨榫榭榱榴榷榻槁槊槌槎槐槔檻槟槠槭槲槽槿樊樗樘樟模樨橫樯櫻樵樽樾橄橇橐橘橙橛橡橥櫥橹橼檀檄檎檐檑檗檠檩檫檬欠次歡欣欤歐欲欷欹欺款歃歆歇歉歌歙止正此步武歧歪歹死殲殁殂殃殄殆殇殉殊殘殍殒殓殖殚殛殡殪殳毆段殷殿毀毂毅毋母每毒毓比畢毖毗斃毛氈毪毫毯毳毵毹毽氅氆氇氍氏氐民氓氣氕氖氘氙氚氛氟氡氫氤氦氧氨氩氪氮氯氰氲水永氽汀汁求汆彙漢汊汐汔汕汗汛汜汝汞江池污湯汨汩汪汰汲汴汶洶汽汾沁沂沃沅沆沈沉沌沏沐沓沔沙沛溝沒沣漚瀝淪滄沩滬沫沭沮沱沲河沸油治沼沽沾沿洩泅泉泊泌泐泓泔法泖泗泛濘泠泡波泣泥注淚泫泮泯泰泱泳泵泶泷泸泺瀉潑澤泾潔洄洇洋洌洎灑洗洙洚洛洞津洧洪洫洮洱洲洳洵洹活窪洽派流浃淺漿澆浈濁測浍濟浏渾浒濃浔浙浚浜浞浠浣浦浩浪浮浯浴海浸浼塗涅消涉湧涎涑涓涔涕濤澇涞漣涠渦渙滌潤澗漲澀涪涫涮涯液涵涸涿澱淄淅淆淇淋淌淑淖淘淙淝淞淠淡淤淦淫淬淮深淳混淹添淼清淵渌漬渎漸渑漁渖滲渚渝渠渡渣渤渥溫渫渭港渲渴遊渺湃湄湍湎湓湔湖湘湛湟湫湮灣濕潰濺溆溉溏源溘溜溟溢溥溧溪溯溱溲溴溶溷溺溻溽滁滂滇滋滏滑滓滔滕滗滾滞滟滠滿滢濾濫灤濱灘滴滹漂漆漉漏漓演漕漠漤漩漪漫漭漯漱漳漶漾潆潇潋濰潘潛潞潢潦潭潮潲潴潸潺潼澄澈澉澌澍澎瀾澡澧澳澶澹激濂濉濑瀕濞濠濡濮濯瀑瀚瀛瀣瀵瀹灌灏灞火滅燈灰靈竈灸灼災燦炀炅爐炊炎炒炔炕炖炙炜炝炫炬炭炮炯炱炳炷炸點炻煉熾烀爍爛烴烈烊烘烙燭煙烤煩燒烨燴燙燼熱烯烷烹烽焉焊焐焓煥焖焘焙焚焦焯焰焱然煅煊煌煎煜煞煤煦照煨煮煲煳煸煺煽熄熊熏熔熘熙熟熠熨熬熳熵熹燃燎燔燕燠燥燧燮燹爆爝爨爪爬爰愛爵父爺爸爹爻爽爿片版牌牍牒牖牙牛牝牟牡牢牦牧物牮牯牲牽特犧牾牿犀犁犄犢犋犍犏犒犟犬犯犰犴狀犷犸猶狁狂狃狄狽狍狎狐狒狗狙獰狠狡狨狩獨狹獅狯猙獄狲狳狴狷狸狺狻狼猁猃猊獵猓猕猖猗猛猜猝猞猡猢猥猩豬貓猬獻猱猴猷猸猹猾猿獍獐獒獗獠獬獺獯獾玄率玉王玎玑玖瑪玟玢玩玫玮環現玲玳玷玺玻珀珂珈珉珊珍珏琺珑珙珞珠珥珧珩班球琅理琉琊琏瑣琚琛琢琥琦琨琪琬琮琰琳琴琵琶瓊瑁瑕瑗瑙瑚瑛瑜瑞瑟瑭瑰瑤瑷瑾璀璁璃璇璋璎璐璜璞璧璨璩璺瓒瓜瓞瓠瓢瓣瓤瓦甕瓯瓴瓶瓷瓿甄甍甏甑甓甘甙甚甜生甥用甩甫甬甭甯田由甲申電男甸町畫甾畀暢畈畋界畎畏畔留畚畛畜略畦番畲疇畸畹畿疃疆疋疏疑疔疖療疙疚疝瘧疠瘍疣疤疥疫疬瘡瘋疰疱疲疳疴疵疸疹疼疽疾痂痃痄病症癰痙痊痍癢痔痕痖痘痛痞痢痣痤痦痧痨瘓痫痰痱癡痹痼痿瘀瘁瘃瘅瘊瘌瘕瘗瘘瘙瘛瘟瘠瘢瘤瘥瘦瘩癟癱瘭瘰瘳瘴瘵瘸瘼瘾瘿癀癃癌癍癔癖癜癞癬癫癯癸登白百皂的皆皇皈臯皎皚皓皖皙皤皮皺皲皴皿盂盅盆盈益盍盎盞鹽監盒盔蓋盜盤盛盟盥目盯盱盲直相盹盼盾省眄眇眈眉看眍眙眚真眠眢眦眨眩眭眯眵眶眷眸眺眼着睜睃睇睐睑睚睛睡睢督睥睦睨睫睬睹睽睾睿瞀瞄瞅瞌瞍瞎瞑瞞瞟瞠瞢瞥瞧矚瞪瞬瞭瞰瞳瞵瞻瞽瞿矍矗矛矜矢矣知矧矩矯矬短矮石矶矸矽礬礦砀碼砂砉砌砍砑砒研磚砗砘硯砜砝砟砣砥砦砧砩砬砭砰破砷砸砹砺砻砼礫礎矽硇硌硎硐硒碩硖硗硝硪硫硬硭确鹼硼碇碉碌礙碎碑碓碗碘碚碛碜碟碡碣碥碧碰堿碲碳碴碹碾磁磅磉磊磋磐磔磕磙磨磬磲磴磷磺礁礅礓礞礤礴示禮社祀祁祆祈祉祓祖祗祚祛祜祝神祟祠祢祥祧票祭祯禱禍祺禀禁祿禅禊福禚禧禳禹禺離禽禾秀私秃稈秉秋種科秒秕秘租秣秤秦秧秩秫秭積稱稭移穢稀稂稃稆程稍稅稔稗稚稞稠稣穩稷稹稻稼稽稿穆穑穗穰穴究窮穸穹空穿窀突竊窄窆窈竅窯窒窕窖窗窘竄窩窟窠窺窦窨窭窳窿立豎站競竟章竣童竦竭端竹竺竽竿笃笄笆笈笊筍笏笑筆笕笙笛笞笠笤笥符笨笪笫第笮笱笳笸箋籠笾筅筇等筋筌筏筐築筒答策筘筚篩筝筠筢筮筱筲筵筷籌筻簽簡箅箍箐箔箕算箜箝管箢箦箧箨籮箪箫箬箭箱箴箸篁篆篇篌篑簍篙篚篝篡篥篦篪籃籬篷篼篾簇簋簌簏簖簟簦簧簪簸簿籀籁籍米籴類籼籽粉粑粒粕粗粘粜粝粞粟粢粵粥糞糧粱粲粳粹粼粽精糁糅糇糈糊糌糍糕糖糗糙糜糟糠糨糯糸系紊素索緊紫累絮絷綦綮縻繁繇纂纛糾纡紅纣纖纥約級纨纩紀紉緯纭純纰紗綱納縱綸紛紙紋紡紐纾線绀绁绂練組紳細織終绉絆绋绌紹繹經绐綁絨結绔繞绗繪給絢绛絡絕絞統绠绡絹繡綏縧繼绨績緒绫續绮绯綽绱绲繩維綿绶繃綢绺绻綜綻绾綠綴缁缂缃緘緬纜缇缈緝缋缌缍緞缏缑缒緩締縷編缗緣缙縛缛缜縫缟纏缡缢缣缤缥缦缧纓縮缪缫缬缭繕缯缰缱缲缳繳缵缶缸缺罂罄罅罐網罔罕羅罘罰罟罡罷罨罩罪置罱署罴罹罾羁羊羌美羔羚羝羞羟羨群羧羯羰羲羸羹羼羽羿翁翅翊翌翎翔翕翹翟翠翡翥翦翩翮翰翺翳翻翼耀老考耄者耆耋而耍耐耒耔耕耖耗耘耙耜耠耢耥耦耧耨耩耪耱耳耵耶耷聳恥耽耿聶聃聆聊聾職聍聒聯聘聚聩聰聱聿肅肄肆肇肉肋肌肓肖肘肚肛肜肝肟腸股肢膚肥肩肪肫肭肮肯肱育肴肷肺肼肽腎腫脹脅胂胃胄膽背胍胎胖胗胙胚胛勝胝胞胡胤胥胧胨胩胪胫胬胭胯胰胱胲胳胴膠胸胺胼能脂脆脈脊脍脎髒臍腦脒膿脔脖脘腳脞脬脯脫脲脶臉脾腆腈臘腋腌腐腑腓腔腕腙腚腠腥腧腩腭腮腰腱腴腹腺膩腼腽騰腿膀膂膈膊膏膑膘膛膜膝膣膦膨膪膳膺膻臀臁臂臃臆臊臌臣臧自臬臭至緻臻臼臾舀舁舂舄舅輿舌舍舐舒舔舛舜舞舟舡舢舣舨航舫般舭舯艦艙舳舴舵舶舷舸船舻舾艄艇艉艋艏艘艚艟艨艮良艱色豔艴藝艽艾艿節芄芈芊芋芍芎芏芑芒芗芘芙蕪芝芟芡芤芥蘆芨芩芪芫芬芭芮芯芰花芳芴芷芸芹芽芾苁苄葦苈苊苋苌蒼苎蘇苑苒苓苔苕苗苘苛苜苞苟苠苡苣苤若苦苫苯英苴苷蘋苻茁茂範茄茅茆茇茈茉茌莖茏茑茔茕茗茚茛茜繭茨茫茬茭茯茱茳茴茵茶茸茹茺茼荀荃荊荇草荏薦荑荒荔莢荛荜荞荟荠蕩榮葷荥荦熒荨荩荪蔭荬荭荮藥荷荸荻荼荽莅莆莉莎莒莓莘莛莜莞莠莨莩莪莫莰萊蓮莳莴莶獲莸瑩莺莼莽菀菁菅菇菊菌菏菔菖菘菜菝菟菠菡菥菩菪菰菱菲菸菹菽萁萃萄萆萋萌萍萎萏萑萘萜蘿螢營萦蕭薩萱萸萼落葆葑著葙葚葛葜葡董葩葫葬葭蔥葳葵葶葸葺蒂蒇蒈蒉蔣蒌蒎蒗蒙蒜蒡蒯蒲蒴蒸蒹蒺蒽蒿蓁蓄蓉蓊蓍蓐蓑蓓蓖藍薊蓠蓣蓦蓬蓰蓼蓿蔌蔑蔓蔗蔚蔟蔡蔫蔬薔蔸蔹蔺蔻藹蔽蕃蕈蕉蕊蕖蕙蕞蕤蕨蕲蘊蕹蕺蕻蕾薄薅薇薏薛薜薤薨薪薮薯薰薷薹藁藉藏藐藓藕藜藤藩藻藿蘅蘑蘖蘧蘩蘸蘼虎虜虐慮虔虛虞虢蟲虬虮虱虹虺虻虼雖蝦虿蝕蟻螞蚊蚋蚌蚍蚓蠶蚜蚝蚣蚤蚧蚨蚩蚪蚬蚯蚰蚱蚴蚵蚶蚺蛀蛄蛆蛇蛉蠱蛋蛎蛏蛐蛑蛔蛘蛙蛛蛞蛟蛤蛩蛭蠻蟄蛱蛲蛳蛴蛸蛹蛾蜀蜂蜃蜇蜈蜉蜊蜍蜒蜓蛻蝸蜘蜚蜜蜞蠟蜢蜣蜥蜩蜮蜱蜴蜷蜻蜾蜿蠅蝈蟬蝌蠍蝓蝗蝙蝠蝣蝤蝥蝮蝰蝴蝶蝻蝼蝽蝾螂螃螅螈螋融螓螗螟螨螫螬螭螯螳螵螺螽蟀蟆蟊蟋蟑蟒蟓蟛蟠蟥蟪蟮蟹蟾蠃蠊蠓蠕蠖蠛蠡蠢蠲蠹蠼血衄釁行衍銜街衙衡衢衣補表衩衫襯衮衰衲衷衽衾衿袁袂襖袅袈袋袍袒袖襪袢袤被襲袱袷袼裁裂裝裆裉裎裒裔裕裘裙裟裢裣褲裥裨裰裱裳裴裸裹裼裾褂褊褐褒褓褙褚褛褡褥褪褫褰褴褶襁襄襞襟襦襻西要覃覆見觀規覓視觇覽覺觊觋觌觎觏觐觑角觖觚觜觞解觥觸觫觯觳言訇訾詈詹譽謄誓謇謦警譬計訂訃認譏讦讧讨讓讪訖訓議訊記講諱讴讵訝讷許訛論訟諷設訪訣證诂诃評詛識詐訴診诋謅詞诎诏譯诒诓诔試诖詩诘诙誠誅诜話誕诟诠詭詢詣诤該詳詫诨诩誡誣語诮誤诰誘誨诳說誦诶請諸诹諾讀诼诽課诿谀誰谂調谄諒諄谇談誼謀谌諜謊谏諧谑谒謂谔谕谖讒谘谙諺谛謎谝谟谠谡謝謠謗谥謙谧謹謾谪谫謬譚谮谯讕譜谲谳譴谵谶谷豁豆豇豉豌豕豚象豢豪豫豳豸豹豺貂貅貉貊貌貔貘貝貞負貢财責賢敗賬貨質販貪貧貶購貯貫貳賤贲贳貼貴贶貸貿費賀贻賊贽賈賄赀賃賂贓資赅赆赇赈赉賒賦賭赍贖賞賜赓賠赕賴贅赙賺賽赜贊贈贍赢贛赤赦赧赫赭走赳赴趙趕起趁趄超越趨趑趔趟趣趱足趴趵趸趺趼趾趿躍跄跆跋跌跎跏跑跖跗跚跛距跞跟跣跤跨跪跫跬路跳踐跷跸跹跺跻跽踅踉踴躊踏踔踝踞踟踢踣踩蹤踬踮踯踱踵踹踺踽蹀蹁蹂蹄蹇蹈蹉蹊蹋蹑蹒蹙蹦蹩蹬蹭蹯蹰蹲蹴蹶蹼蹿躁躅躇躏躐躔躜躞身躬軀躲躺軎車軋軌軒轫轉轭輪軟轟轱轲轳軸轵轶轷轸轹轺輕轼載轾轎辁辂較辄輔輛辇輩輝輥辋辍辎辏輻輯輸辔轅轄輾辘轍辚辛辜辭辟辣辨辯辮辰辱邊遼達遷迂迄迅過邁迎運近迓返迕還這進遠違連遲迢迤迥迦迨迩迪迫疊迮述迳迷迸迹追退送适逃逄逅逆選遜逋逍透逐逑遞途逖逗通逛逝逞速造逡逢逦逭逮逯逵逶逸邏逼逾遁遂遄遇遍遏遐遑遒道遺遘遛遢遣遙遨遭遮遴遵遽避邀邂邃邈邋邑鄧邕邗邙邛邝邡邢那邦邪邬郵邯邰邱邳邴邵邶邸鄒鄰邾郁郄郅郇郊郎郏郐鄭郓郗郛郜郝郡郢郦鄖部郫郭郯郴鄲都郾鄂鄄鄙鄞鄢鄣鄯鄱鄹酃酆酉酊酋酌配酎酏酐酒酗酚醞酞酡酢酣酤酥酩酪酬酮酯酰醬酲酴酵酶酷酸酹酽酾釀醅醇醉醋醌醍醐醑醒醚醛醢醣醪醭醮醯醴醵醺采釉釋裡重野量金釜鑒銎銮鋈錾鍪鎏鏊鏖鐾鑫钆钇針釘钊钋钌钍釺钏钐釩釣钔钕钗鈣钚钛钜鈍鈔鐘鈉鋇鋼钣钤鑰欽鈞鎢鈎钪钫钬钭鈕钯钰錢钲鉗钴缽钶钷钸钹钺鑽钼钽鉀钿鈾鐵鉑鈴铄鉛鉚铈铉铊铋铌铍铎铐铑铒铕铖铗铘铙铛銅鋁铞铟铠鍘铢銑铤铥铧铨铩铪铫鉻銘铮铯鉸銥鏟铳铴铵銀铷鑄铹鋪铼铽鍊铿銷鎖锂锃鋤鍋锆锇鏽锉锊鋒鋅锍锎锏銳銻锒锓锔锕锖鍺锘錯錨锛锝锞锟錫锢鑼錘錐錦鍁锩锪锫锬錠鍵鋸錳锱锲锴锵锶锷锸鍬锺鍛锼锾锿鍍鎂镂镄镅镆鎮镉鑷镌鎳镎镏鎬鎊镒镓镔镖镗镘镙镛鏡镝镞镟镡镢鐐镤镥镦镧镨镩镪镫镬鐳镯鐮镱镲镳鑲長門闩閃闫閉問闖閏闱閑闳間闵闶悶閘鬧閨聞闼閩闾閥閣閡阃阄閱阆阈閹阊阋阌阍閻阏闡闌阒闊阕阖阗阙阚阜隊阡阢阪阮阱防陽陰陣階阻阼阽阿陀陂附際陸隴陳陉陋陌降限陔陝陛陟陡院除陧隕險陪陬陲陴陵陶陷隅隆隈隋隍随隐隔隗隘隙障隧隰隳隸隹隼隽難雀雁雄雅集雇雉雌雍雎雛雒雕雠雨雩雪雯靂零雷雹霧需霁霄霆震霈黴霍霎霏霓霖霜霞霪霭霰露霸霹霾青靓靖靜靛非靠靡面靥革靳靴靶靼鞅鞋鞍鞑鞒鞔鞘鞠鞣鞫鞭鞯鞲鞴韋韌韓韪韫韬韭音韻韶頁頂頃顸項順須顼頑顧頓颀頒頌颃預顱領頗頸颉頰颌颍颏頤頻頹颔穎顆題颚颛顔額颞颟颠颡颢顫颥颦顴風飑飒飓飕飄飙飚飛食飧飨餍餐餮饔饕饑饧饨饩饪饫饬飯飲餞飾飽飼饴餌饒饷餃餅饽餓馀餒馄餡館馇饋馊饞馍餾馐馑饅馓馔馕首馗馘香馥馨馬馭馱馴馳驅駁驢驵駛驷驸駒驺駐駝驽駕驿骀骁罵驕骅駱駭骈骊騁驗駿骐騎骒骓骖騙骘騷骛骜骝骞骟骠騾骢骣驟骥骧骨骰骱骶骷骸骺骼髀髁髂髅髋髌髑髓高髟髡髦髫髭髯髹髻鬃鬈鬏鬓鬟鬣鬯鬲鬻鬼魁魂魃魄魅魇魈魉魍魏魑魔魚鱿魯鲂鲅鲆鲇鲈鲋鮑鲎鲐鲑鲒鲔鲕鲚鲛鮮鲞鲟鲠鲡鲢鲣鯉鲥鲦鲧鲨鲩鲫鲭鲮鲰鲱鲲鲳鲴鲵鲶鲷鲸鲺鲻鲼鲽鰓鳄鳅鳆鳇鳊鳋鳌鳍鳎鳏鳐鳓鳔鳕鼈鳗鳘鳙鳜鳝鱗鳟鳢鳥鸠雞鸢鳴鷗鴉鸨鸩鸪鸫鸬鴨鴦鸱鸲鴛鴕鸶鸷鸸鸹鸺鴿鸾鴻鹁鹂鵑鹄鵝鹆鹇鹈鹉鵲鹋鹌鹎鵬鹑鹕鹗鹘鹚鹛鹜鹞鹣鶴鹦鹧鹨鹩鹪鹫鹬鹭鷹鹱鹳鹾鹿麂麇麈麋麒麓麝麟麥麴麸麻麽麾黃黉黍黎黏黑黔默黛黜黝黟黠黢黥黧黩黪黯黹黻黼黾鼋鼍鼎鼐鼓鼗鼙鼠鼢鼬鼯鼷鼹鼻鼽鼾齄齊齑齒龀龃齡龅龆龇龈龉龊齲龌龍龔龛龜龠"
18 
19 count=0
20 
21 user_agent_list = [
22             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
23             "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
24             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
25             "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
26             "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
27             "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
28             "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
29             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
30             "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
31             "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
32             "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
33             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
34             "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
35             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
36             "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
37             "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
38             "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
39             "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
40         ]
41 
42 43 
44 for xx in font:
45     count+=1
46     print(count)
47     # if count > 2:
48     #     quit()
49 
50 
51     UA = random.choice(user_agent_list) ##從self.user_agent_list中随機取出一個字元串
52     headers = {'User-Agent': UA}  ##構造成一個完整的User-Agent (UA代表的是上面随機取出來的字元串哦)
53 
54     time.sleep(random.randint(0,2))     #随機休息幾秒 防止封ip
55 
56     url0='http://www.******.com/xingjinzi/json/'+str(parse.quote(xx).replace('%', "").lower())+'.html'   #設定翻頁位址
57     # print('url0:',url0)
58     html = requests.get(url0, headers=headers)  #請求網絡,傳回html
59 
60  print(xx,html.text)
62 
63     with open("xingjinziinfo","a",encoding='utf-8')as f:
64         f.write(xx+'  '+html.text+'\n')      

前面删掉了一些字,随着爬 随着存,這家網站沒有反爬機制,不會封ip,不過偶爾會無法響應。有興趣的同學可以開啟多線程啊(是不是太坑人網站了,抱歉啊)

下面一個問題就是,爬下來的内容都是這東西

5a50$5a91$91cc$5a75$21740$4fda$5398$5a62$679c$7532$91cd$205d4$20af6$217c9$2184a$21ab8$3886$49c9$54e9$57cb$5a88$5b1e$609d$635a$6d6c$72f8$217a8$21810$21a82$220c7$229a6$286cb$28923$28924$299f9

148

 我猜這肯定代表的用$分割開的字。

繼續研究代碼

一個非常有趣的爬蟲小練習帶ocr識别的

這兩個函數 功能是啥呢?

一個非常有趣的爬蟲小練習帶ocr識别的
1、先按 $ 分割
2、通路位址 例如 52ac  前兩位 52 是 所在目錄名稱 ,圖檔名字是 52ac.png
3、http://www.fantiz5.com/xingjinzi/xsz/52/52ac.png

這樣就可以下載下傳下來一張圖檔了。      
一個非常有趣的爬蟲小練習帶ocr識别的

看我找的這個缺德字,不認識》。。。。

這個網站其實機制還是不錯的,這樣的編号,是無法還原會原來的漢字的。怎麼辦??

先把圖檔下載下傳下來再說!

多程序下載下傳圖檔,速度和網速是一樣的。參考我的另一篇随筆

https://www.cnblogs.com/duoba/p/11329652.html

在下一步就是文字識别,參考另一篇随筆

https://www.cnblogs.com/duoba/p/11335717.html

最後識别的效果不是太理想,錯誤率比較高,沒辦法了。就先研究到這吧。主要是繁體字,比識别庫的字還多,那樣必然會造成較大的錯誤率。

轉載于:https://www.cnblogs.com/duoba/p/11321608.html