Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Տվյալները աղյուսակից PDF ֆայլում Microsoft Excel թերթ փոխանցելու խնդիրը միշտ «զվարճալի» է: Հատկապես, եթե դուք չունեք թանկարժեք ճանաչման ծրագիր, ինչպիսին է FineReader-ը կամ նման բան: Ուղղակի պատճենումը սովորաբար ոչ մի լավ բանի չի հանգեցնում, քանի որ. պատճենված տվյալները թերթիկի վրա կպցնելուց հետո դրանք, ամենայն հավանականությամբ, «կկցվեն միասին» մեկ սյունակում: Այսպիսով, դրանք պետք է մանրակրկիտ առանձնացվեն գործիքի միջոցով Տեքստը ըստ սյունակների ներդիրից Ամսաթիվ (Տվյալներ — Տեքստ սյունակներ).

Եվ իհարկե, պատճենումը հնարավոր է միայն այն PDF ֆայլերի համար, որտեղ կա տեքստային շերտ, այսինքն՝ թղթից PDF նոր սկանավորված փաստաթղթով, դա սկզբունքորեն չի աշխատի։

Բայց դա այնքան էլ տխուր չէ, իսկապես 🙂

Եթե ​​ունեք Office 2013 կամ 2016, ապա մի քանի րոպեում, առանց հավելյալ ծրագրերի, միանգամայն հնարավոր է տվյալների փոխանցում PDF-ից Microsoft Excel։ Եվ Word and Power Query-ը մեզ կօգնի այս հարցում:

Օրինակ, եկեք վերցնենք այս PDF զեկույցը մի փունջ տեքստով, բանաձևերով և աղյուսակներով Եվրոպայի տնտեսական հանձնաժողովի կայքից.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

… և փորձեք դուրս գալ դրանից Excel-ում, ասեք առաջին աղյուսակը.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Գնացինք!

Քայլ 1. Բացեք PDF-ը Word-ում

Չգիտես ինչու, քչերը գիտեն, բայց 2013 թվականից Microsoft Word-ը սովորել է բացել և ճանաչել PDF ֆայլերը (նույնիսկ սկանավորվածները, այսինքն՝ առանց տեքստային շերտի): Դա արվում է լրիվ ստանդարտ եղանակով՝ բացել Word-ը, սեղմել Ֆայլ - բաց (Ֆայլ — բաց) և նշեք PDF ձևաչափը պատուհանի ստորին աջ անկյունում բացվող ցանկում:

Այնուհետև ընտրեք մեզ անհրաժեշտ PDF ֆայլը և սեղմեք բաց (Բաց). Word-ը մեզ ասում է, որ այն պատրաստվում է OCR-ն այս փաստաթղթի վրա գործարկել տեքստի մեջ.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Մենք համաձայն ենք և մի քանի վայրկյանից կտեսնենք մեր PDF-ը բացված խմբագրման համար արդեն Word-ում.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Իհարկե, դիզայնը, ոճերը, տառատեսակները, վերնագրերն ու ստորագրերը և այլն մասամբ կթռչեն փաստաթղթից, բայց դա մեզ համար կարևոր չէ. մեզ անհրաժեշտ են միայն աղյուսակների տվյալները: Սկզբունքորեն, այս փուլում արդեն գայթակղիչ է պարզապես աղյուսակը ճանաչված փաստաթղթից պատճենել Word-ի մեջ և պարզապես տեղադրել այն Excel-ում: Երբեմն այն աշխատում է, բայց ավելի հաճախ դա հանգեցնում է տվյալների բոլոր տեսակի խեղաթյուրումների. օրինակ, թվերը կարող են վերածվել ամսաթվերի կամ մնալ տեքստ, ինչպես մեր դեպքում, քանի որ. PDF-ն օգտագործում է ոչ բաժանարարներ.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Այնպես որ, եկեք չկտրենք անկյունները, այլ ամեն ինչ մի փոքր ավելի բարդ դարձնենք, բայց ճիշտ:

Քայլ 2. Փաստաթուղթը պահեք որպես վեբ էջ

Ստացված տվյալները Excel-ում (Power Query-ի միջոցով) բեռնելու համար Word-ում մեր փաստաթուղթը պետք է պահպանվի վեբ էջի ձևաչափով. այս ձևաչափը, այս դեպքում, մի տեսակ ընդհանուր հայտարար է Word-ի և Excel-ի միջև:

Դա անելու համար անցեք մենյու Ֆայլ – Պահել որպես (Ֆայլ — Պահպանել որպես) կամ սեղմեք ստեղնը F12 ստեղնաշարի վրա և բացվող պատուհանում ընտրեք ֆայլի տեսակը Վեբ էջ մեկ ֆայլում (Վեբէջ — Մեկ ֆայլ):

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Պահելուց հետո դուք պետք է ստանաք mhtml ընդլայնմամբ ֆայլ (եթե Explorer-ում տեսնում եք ֆայլերի ընդարձակումներ):

Փուլ 3. Ֆայլի բեռնում Excel-ում Power Query-ի միջոցով

Ստեղծված MHTML ֆայլը կարող եք ուղղակիորեն բացել Excel-ում, բայց այնուհետև մենք, առաջին հերթին, միանգամից կստանանք PDF-ի ամբողջ բովանդակությունը՝ տեքստի և ավելորդ աղյուսակների հետ միասին, և, երկրորդը, մենք կրկին կկորցնենք տվյալները սխալի պատճառով: բաժանարարներ. Հետևաբար, մենք կկատարենք ներմուծումը Excel Power Query հավելվածի միջոցով: Սա լիովին անվճար հավելում է, որով կարող եք բեռնել տվյալներ Excel-ում գրեթե ցանկացած աղբյուրից (ֆայլեր, թղթապանակներ, տվյալների բազաներ, ERP համակարգեր) և այնուհետև ստացված տվյալները վերափոխել ամեն կերպ՝ տալով դրանց ցանկալի ձևը:

Եթե ​​ունեք Excel 2010-2013, ապա կարող եք ներբեռնել Power Query-ը Microsoft-ի պաշտոնական կայքից. տեղադրելուց հետո կտեսնեք ներդիր: Power հարցում. Եթե ​​ունեք Excel 2016 կամ ավելի նոր տարբերակ, ապա ձեզ հարկավոր չէ որևէ բան ներբեռնել. բոլոր գործառույթներն արդեն լռելյայնորեն ներկառուցված են Excel-ում և գտնվում են ներդիրում: Ամսաթիվ (Ամսաթիվ) խմբում Ներբեռնեք և փոխարկեք (Ստացեք և փոխակերպեք).

Այսպիսով, մենք գնում ենք կամ ներդիր Ամսաթիվ, կամ ներդիրում Power հարցում և ընտրիր թիմ Տվյալներ ստանալու համար or Ստեղծեք հարցում – Ֆայլից – XML-ից. Ոչ միայն XML ֆայլերը տեսանելի դարձնելու համար փոխեք պատուհանի ներքևի աջ անկյունում գտնվող բացվող ցանկի զտիչները. Բոլոր ֆայլերը (Բոլոր ֆայլերը) և նշեք մեր MHTML ֆայլը՝

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Խնդրում ենք նկատի ունենալ, որ ներմուծումը հաջողությամբ չի ավարտվի, քանի որ. Power Query-ն մեզնից ակնկալում է XML, բայց մենք իրականում ունենք HTML ձևաչափ: Հետևաբար, հաջորդ պատուհանում, որը երևում է, դուք պետք է աջ սեղմեք Power Query-ի համար անհասկանալի ֆայլի վրա և նշեք դրա ձևաչափը.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Դրանից հետո ֆայլը ճիշտ կճանաչվի, և մենք կտեսնենք այն բոլոր աղյուսակների ցանկը, որոնք պարունակում են.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Դուք կարող եք դիտել աղյուսակների բովանդակությունը՝ սեղմելով մկնիկի ձախ կոճակը Տվյալների սյունակի բջիջների սպիտակ ֆոնի վրա (ոչ թե Աղյուսակ բառում):

Երբ սահմանվում է ցանկալի աղյուսակը, սեղմեք կանաչ բառի վրա Սեղան – և դու «ընկնում ես» դրա բովանդակության մեջ.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

Մնում է մի քանի պարզ քայլ անել դրա բովանդակությունը «սանրելու» համար, մասնավորապես.

  1. ջնջել ավելորդ սյունակները (աջ սեղմեք սյունակի վերնագրի վրա – Հեռացնել)
  2. փոխարինեք կետերը ստորակետերով (ընտրեք սյունակները, սեղմեք աջով – Արժեքների փոխարինում)
  3. հեռացնել հավասար նշանները վերնագրում (ընտրեք սյունակները, սեղմեք աջ - Արժեքների փոխարինում)
  4. հեռացնել վերին գիծը (Գլխավոր – Ջնջել տողերը – Ջնջել վերին տողերը)
  5. հեռացնել դատարկ տողերը (Տուն – Ջնջել տողերը – Ջնջել դատարկ տողերը)
  6. բարձրացրեք առաջին տողը աղյուսակի վերնագրի վրա (Տուն – Օգտագործեք առաջին տողը որպես վերնագրեր)
  7. զտել ավելորդ տվյալները ֆիլտրի միջոցով

Երբ աղյուսակը բերվում է իր սովորական ձևի, այն կարող է բեռնաթափվել թերթի վրա հրամանով փակիր և ներբեռնիր (Փակել և բեռնել) on Ծրագրի հիմնական ներդիր. Եվ մենք կստանանք այնպիսի գեղեցկություն, որի հետ մենք արդեն կարող ենք աշխատել.

Ներմուծեք տվյալները PDF-ից Excel Power Query-ի միջոցով

  • Power Query-ով սյունակը աղյուսակի վերածելը
  • Կպչուն տեքստի բաժանում սյունակների

Թողնել գրառում