Բովանդակություն
Տվյալները աղյուսակից PDF ֆայլում Microsoft Excel թերթ փոխանցելու խնդիրը միշտ «զվարճալի» է: Հատկապես, եթե դուք չունեք թանկարժեք ճանաչման ծրագիր, ինչպիսին է FineReader-ը կամ նման բան: Ուղղակի պատճենումը սովորաբար ոչ մի լավ բանի չի հանգեցնում, քանի որ. պատճենված տվյալները թերթիկի վրա կպցնելուց հետո դրանք, ամենայն հավանականությամբ, «կկցվեն միասին» մեկ սյունակում: Այսպիսով, դրանք պետք է մանրակրկիտ առանձնացվեն գործիքի միջոցով Տեքստը ըստ սյունակների ներդիրից Ամսաթիվ (Տվյալներ — Տեքստ սյունակներ).
Եվ իհարկե, պատճենումը հնարավոր է միայն այն PDF ֆայլերի համար, որտեղ կա տեքստային շերտ, այսինքն՝ թղթից PDF նոր սկանավորված փաստաթղթով, դա սկզբունքորեն չի աշխատի։
Բայց դա այնքան էլ տխուր չէ, իսկապես 🙂
Եթե ունեք Office 2013 կամ 2016, ապա մի քանի րոպեում, առանց հավելյալ ծրագրերի, միանգամայն հնարավոր է տվյալների փոխանցում PDF-ից Microsoft Excel։ Եվ Word and Power Query-ը մեզ կօգնի այս հարցում:
Օրինակ, եկեք վերցնենք այս PDF զեկույցը մի փունջ տեքստով, բանաձևերով և աղյուսակներով Եվրոպայի տնտեսական հանձնաժողովի կայքից.
… և փորձեք դուրս գալ դրանից Excel-ում, ասեք առաջին աղյուսակը.
Գնացինք!
Քայլ 1. Բացեք PDF-ը Word-ում
Չգիտես ինչու, քչերը գիտեն, բայց 2013 թվականից Microsoft Word-ը սովորել է բացել և ճանաչել PDF ֆայլերը (նույնիսկ սկանավորվածները, այսինքն՝ առանց տեքստային շերտի): Դա արվում է լրիվ ստանդարտ եղանակով՝ բացել Word-ը, սեղմել Ֆայլ - բաց (Ֆայլ — բաց) և նշեք PDF ձևաչափը պատուհանի ստորին աջ անկյունում բացվող ցանկում:
Այնուհետև ընտրեք մեզ անհրաժեշտ PDF ֆայլը և սեղմեք բաց (Բաց). Word-ը մեզ ասում է, որ այն պատրաստվում է OCR-ն այս փաստաթղթի վրա գործարկել տեքստի մեջ.
Մենք համաձայն ենք և մի քանի վայրկյանից կտեսնենք մեր PDF-ը բացված խմբագրման համար արդեն Word-ում.
Իհարկե, դիզայնը, ոճերը, տառատեսակները, վերնագրերն ու ստորագրերը և այլն մասամբ կթռչեն փաստաթղթից, բայց դա մեզ համար կարևոր չէ. մեզ անհրաժեշտ են միայն աղյուսակների տվյալները: Սկզբունքորեն, այս փուլում արդեն գայթակղիչ է պարզապես աղյուսակը ճանաչված փաստաթղթից պատճենել Word-ի մեջ և պարզապես տեղադրել այն Excel-ում: Երբեմն այն աշխատում է, բայց ավելի հաճախ դա հանգեցնում է տվյալների բոլոր տեսակի խեղաթյուրումների. օրինակ, թվերը կարող են վերածվել ամսաթվերի կամ մնալ տեքստ, ինչպես մեր դեպքում, քանի որ. PDF-ն օգտագործում է ոչ բաժանարարներ.
Այնպես որ, եկեք չկտրենք անկյունները, այլ ամեն ինչ մի փոքր ավելի բարդ դարձնենք, բայց ճիշտ:
Քայլ 2. Փաստաթուղթը պահեք որպես վեբ էջ
Ստացված տվյալները Excel-ում (Power Query-ի միջոցով) բեռնելու համար Word-ում մեր փաստաթուղթը պետք է պահպանվի վեբ էջի ձևաչափով. այս ձևաչափը, այս դեպքում, մի տեսակ ընդհանուր հայտարար է Word-ի և Excel-ի միջև:
Դա անելու համար անցեք մենյու Ֆայլ – Պահել որպես (Ֆայլ — Պահպանել որպես) կամ սեղմեք ստեղնը F12 ստեղնաշարի վրա և բացվող պատուհանում ընտրեք ֆայլի տեսակը Վեբ էջ մեկ ֆայլում (Վեբէջ — Մեկ ֆայլ):
Պահելուց հետո դուք պետք է ստանաք mhtml ընդլայնմամբ ֆայլ (եթե Explorer-ում տեսնում եք ֆայլերի ընդարձակումներ):
Փուլ 3. Ֆայլի բեռնում Excel-ում Power Query-ի միջոցով
Ստեղծված MHTML ֆայլը կարող եք ուղղակիորեն բացել Excel-ում, բայց այնուհետև մենք, առաջին հերթին, միանգամից կստանանք PDF-ի ամբողջ բովանդակությունը՝ տեքստի և ավելորդ աղյուսակների հետ միասին, և, երկրորդը, մենք կրկին կկորցնենք տվյալները սխալի պատճառով: բաժանարարներ. Հետևաբար, մենք կկատարենք ներմուծումը Excel Power Query հավելվածի միջոցով: Սա լիովին անվճար հավելում է, որով կարող եք բեռնել տվյալներ Excel-ում գրեթե ցանկացած աղբյուրից (ֆայլեր, թղթապանակներ, տվյալների բազաներ, ERP համակարգեր) և այնուհետև ստացված տվյալները վերափոխել ամեն կերպ՝ տալով դրանց ցանկալի ձևը:
Եթե ունեք Excel 2010-2013, ապա կարող եք ներբեռնել Power Query-ը Microsoft-ի պաշտոնական կայքից. տեղադրելուց հետո կտեսնեք ներդիր: Power հարցում. Եթե ունեք Excel 2016 կամ ավելի նոր տարբերակ, ապա ձեզ հարկավոր չէ որևէ բան ներբեռնել. բոլոր գործառույթներն արդեն լռելյայնորեն ներկառուցված են Excel-ում և գտնվում են ներդիրում: Ամսաթիվ (Ամսաթիվ) խմբում Ներբեռնեք և փոխարկեք (Ստացեք և փոխակերպեք).
Այսպիսով, մենք գնում ենք կամ ներդիր Ամսաթիվ, կամ ներդիրում Power հարցում և ընտրիր թիմ Տվյալներ ստանալու համար or Ստեղծեք հարցում – Ֆայլից – XML-ից. Ոչ միայն XML ֆայլերը տեսանելի դարձնելու համար փոխեք պատուհանի ներքևի աջ անկյունում գտնվող բացվող ցանկի զտիչները. Բոլոր ֆայլերը (Բոլոր ֆայլերը) և նշեք մեր MHTML ֆայլը՝
Խնդրում ենք նկատի ունենալ, որ ներմուծումը հաջողությամբ չի ավարտվի, քանի որ. Power Query-ն մեզնից ակնկալում է XML, բայց մենք իրականում ունենք HTML ձևաչափ: Հետևաբար, հաջորդ պատուհանում, որը երևում է, դուք պետք է աջ սեղմեք Power Query-ի համար անհասկանալի ֆայլի վրա և նշեք դրա ձևաչափը.
Դրանից հետո ֆայլը ճիշտ կճանաչվի, և մենք կտեսնենք այն բոլոր աղյուսակների ցանկը, որոնք պարունակում են.
Դուք կարող եք դիտել աղյուսակների բովանդակությունը՝ սեղմելով մկնիկի ձախ կոճակը Տվյալների սյունակի բջիջների սպիտակ ֆոնի վրա (ոչ թե Աղյուսակ բառում):
Երբ սահմանվում է ցանկալի աղյուսակը, սեղմեք կանաչ բառի վրա Սեղան – և դու «ընկնում ես» դրա բովանդակության մեջ.
Մնում է մի քանի պարզ քայլ անել դրա բովանդակությունը «սանրելու» համար, մասնավորապես.
- ջնջել ավելորդ սյունակները (աջ սեղմեք սյունակի վերնագրի վրա – Հեռացնել)
- փոխարինեք կետերը ստորակետերով (ընտրեք սյունակները, սեղմեք աջով – Արժեքների փոխարինում)
- հեռացնել հավասար նշանները վերնագրում (ընտրեք սյունակները, սեղմեք աջ - Արժեքների փոխարինում)
- հեռացնել վերին գիծը (Գլխավոր – Ջնջել տողերը – Ջնջել վերին տողերը)
- հեռացնել դատարկ տողերը (Տուն – Ջնջել տողերը – Ջնջել դատարկ տողերը)
- բարձրացրեք առաջին տողը աղյուսակի վերնագրի վրա (Տուն – Օգտագործեք առաջին տողը որպես վերնագրեր)
- զտել ավելորդ տվյալները ֆիլտրի միջոցով
Երբ աղյուսակը բերվում է իր սովորական ձևի, այն կարող է բեռնաթափվել թերթի վրա հրամանով փակիր և ներբեռնիր (Փակել և բեռնել) on Ծրագրի հիմնական ներդիր. Եվ մենք կստանանք այնպիսի գեղեցկություն, որի հետ մենք արդեն կարող ենք աշխատել.
- Power Query-ով սյունակը աղյուսակի վերածելը
- Կպչուն տեքստի բաժանում սյունակների