მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

მონაცემთა ცხრილიდან PDF ფაილში Microsoft Excel ფურცელზე გადატანის ამოცანა ყოველთვის "სახალისოა". მით უმეტეს, თუ არ გაქვთ ძვირადღირებული ამოცნობის პროგრამა, როგორიცაა FineReader ან მსგავსი რამ. პირდაპირი კოპირება, როგორც წესი, არ იწვევს რაიმე კარგს, რადგან. დაკოპირებული მონაცემების ფურცელზე ჩასმის შემდეგ, ისინი დიდი ალბათობით „ერთად დარჩებიან“ ერთ სვეტში. ასე რომ, მათ შემდეგ მოუწევთ მტკივნეულად განცალკევება ხელსაწყოს გამოყენებით ტექსტი სვეტების მიხედვით ჩანართიდან თარიღი (მონაცემები — ტექსტი სვეტამდე).

და, რა თქმა უნდა, კოპირება შესაძლებელია მხოლოდ იმ PDF ფაილებისთვის, სადაც არის ტექსტური ფენა, ანუ დოკუმენტით, რომელიც ახლახან დაასკანირებულია ქაღალდიდან PDF-ში, ეს პრინციპში არ იმუშავებს.

მაგრამ ეს არც ისე სამწუხაროა, ნამდვილად 🙂

თუ თქვენ გაქვთ Office 2013 ან 2016, მაშინ რამდენიმე წუთში, დამატებითი პროგრამების გარეშე, სავსებით შესაძლებელია მონაცემთა PDF-დან Microsoft Excel-ში გადატანა. და Word და Power Query დაგვეხმარება ამაში.

მაგალითად, ავიღოთ ეს PDF ანგარიში ტექსტით, ფორმულებითა და ცხრილებით ევროპის ეკონომიკური კომისიის ვებსაიტიდან:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

… და შეეცადეთ ამოიღოთ იგი Excel-ში, თქვით პირველი ცხრილი:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

წავედით!

ნაბიჯი 1. გახსენით PDF Word-ში

რატომღაც, ცოტამ თუ იცის, მაგრამ 2013 წლიდან Microsoft Word-მა ისწავლა PDF ფაილების გახსნა და ამოცნობა (თუნდაც დასკანირებული, ანუ ტექსტის ფენის გარეშე!). ეს კეთდება სრულიად სტანდარტული გზით: გახსენით Word, დააწკაპუნეთ ფაილი - გახსნა (ფაილი - გახსნა) და მიუთითეთ PDF ფორმატი ჩამოსაშლელ სიაში ფანჯრის ქვედა მარჯვენა კუთხეში.

შემდეგ აირჩიეთ ჩვენთვის საჭირო PDF ფაილი და დააწკაპუნეთ ღიაა (ღია). Word გვეუბნება, რომ აპირებს OCR-ის გაშვებას ამ დოკუმენტზე ტექსტზე:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

ჩვენ ვეთანხმებით და რამდენიმე წამში ვნახავთ ჩვენს PDF-ს ღია რედაქტირებისთვის უკვე Word-ში:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

რა თქმა უნდა, დიზაინი, სტილები, შრიფტები, სათაურები და ქვედა კოლონტიტულები და ა.შ. ნაწილობრივ ამოფრინდება დოკუმენტიდან, მაგრამ ჩვენთვის ეს არ არის მნიშვნელოვანი - ჩვენ მხოლოდ მონაცემები გვჭირდება ცხრილებიდან. პრინციპში, ამ ეტაპზე უკვე მაცდურია ცხრილის უბრალოდ კოპირება აღიარებული დოკუმენტიდან Word-ში და უბრალოდ ჩასმა Excel-ში. ზოგჯერ ის მუშაობს, მაგრამ უფრო ხშირად ეს იწვევს მონაცემთა ყველა სახის დამახინჯებას - მაგალითად, რიცხვები შეიძლება გადაიქცეს თარიღებად ან დარჩეს ტექსტად, როგორც ჩვენს შემთხვევაში, იმიტომ. PDF იყენებს არაგამყოფებს:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

ასე რომ, მოდით, არ დავჭრათ კუთხეები, არამედ ყველაფერი ცოტა უფრო რთული, მაგრამ სწორი.

ნაბიჯი 2: შეინახეთ დოკუმენტი, როგორც ვებ გვერდი

შემდეგ მიღებული მონაცემების Excel-ში ჩასატვირთად (Power Query-ის საშუალებით), Word-ში ჩვენი დოკუმენტი უნდა იყოს შენახული ვებ გვერდის ფორმატში – ეს ფორმატი, ამ შემთხვევაში, ერთგვარი საერთო მნიშვნელია Word-სა და Excel-ს შორის.

ამისათვის გადადით მენიუში ფაილი – Save As (ფაილი - შენახვა როგორც) ან დააჭირეთ ღილაკს F12 კლავიატურაზე და ფანჯარაში, რომელიც იხსნება, აირჩიეთ ფაილის ტიპი ვებ გვერდი ერთ ფაილში (ვებგვერდი - ერთი ფაილი):

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

შენახვის შემდეგ, თქვენ უნდა მიიღოთ ფაილი mhtml გაფართოებით (თუ ხედავთ ფაილის გაფართოებებს Explorer-ში).

ეტაპი 3. ფაილის ატვირთვა Excel-ში Power Query-ის საშუალებით

თქვენ შეგიძლიათ გახსნათ შექმნილი MHTML ფაილი Excel-ში პირდაპირ, მაგრამ შემდეგ ჩვენ მივიღებთ, პირველ რიგში, PDF-ის ყველა შინაარსს ერთდროულად, ტექსტთან და არასაჭირო ცხრილებთან ერთად, და მეორეც, ჩვენ ისევ დავკარგავთ მონაცემებს არასწორი გამო. გამყოფები. ამიტომ, ჩვენ განვახორციელებთ იმპორტს Excel-ში Power Query დანამატის მეშვეობით. ეს არის სრულიად უფასო დანამატი, რომლითაც შეგიძლიათ ატვირთოთ მონაცემები Excel-ში თითქმის ნებისმიერი წყაროდან (ფაილები, საქაღალდეები, მონაცემთა ბაზები, ERP სისტემები) და შემდეგ მიღებული მონაცემების ყოველმხრივ გარდაქმნას, მისცეს მას სასურველ ფორმას.

თუ გაქვთ Excel 2010-2013, მაშინ შეგიძლიათ ჩამოტვირთოთ Power Query ოფიციალური Microsoft-ის ვებსაიტიდან – ინსტალაციის შემდეგ ნახავთ ჩანართს დენის მოთხოვნა. თუ თქვენ გაქვთ Excel 2016 ან უფრო ახალი, მაშინ არ გჭირდებათ არაფრის ჩამოტვირთვა - ყველა ფუნქცია უკვე ჩაშენებულია Excel-ში ნაგულისხმევად და მდებარეობს ჩანართზე თარიღი (თარიღი) ჯგუფში ჩამოტვირთეთ და გადააკეთეთ (მიიღე და გარდაქმნა).

ასე რომ, ჩვენ მივდივართ ან ჩანართზე თარიღი, ან ჩანართზე დენის მოთხოვნა და აირჩიე გუნდი მონაცემების მისაღებად or შექმენით შეკითხვა – ფაილიდან – XML-დან. იმისათვის, რომ არა მხოლოდ XML ფაილები იყოს ხილული, შეცვალეთ ფილტრები ფანჯრის ქვედა მარჯვენა კუთხეში ჩამოსაშლელ სიაში. Ყველა ფაილი (Ყველა ფაილი) და მიუთითეთ ჩვენი MHTML ფაილი:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

გთხოვთ გაითვალისწინოთ, რომ იმპორტი წარმატებით ვერ დასრულდება, რადგან. Power Query მოელის ჩვენგან XML-ს, მაგრამ ჩვენ რეალურად გვაქვს HTML ფორმატი. ამიტომ, მომდევნო ფანჯარაში, რომელიც გამოჩნდება, თქვენ უნდა დააწკაპუნოთ მაუსის მარჯვენა ღილაკით Power Query-სთვის გაუგებარ ფაილზე და მიუთითოთ მისი ფორმატი:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

ამის შემდეგ, ფაილი სწორად იქნება აღიარებული და ჩვენ დავინახავთ ყველა ცხრილის ჩამონათვალს, რომელიც მას შეიცავს:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

ცხრილების შიგთავსის ნახვა შეგიძლიათ მონაცემთა სვეტის უჯრედების თეთრ ფონზე (არა სიტყვა Table!) მაუსის მარცხენა ღილაკზე დაჭერით.

როდესაც სასურველი ცხრილი განისაზღვრება, დააწკაპუნეთ მწვანე სიტყვაზე მაგიდის – და თქვენ „ჩავარდებით“ მის შინაარსში:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

რჩება რამდენიმე მარტივი ნაბიჯის შესრულება მისი შინაარსის "სავარცხლად", კერძოდ:

  1. წაშალეთ არასაჭირო სვეტები (დააწკაპუნეთ მაუსის მარჯვენა ღილაკით სვეტის სათაურზე - ამოღება)
  2. შეცვალეთ წერტილები მძიმეებით (აირჩიეთ სვეტები, დააწკაპუნეთ მარჯვენა ღილაკით – ღირებულებების ჩანაცვლება)
  3. ამოიღეთ თანაბარი ნიშნები სათაურში (აირჩიეთ სვეტები, დააწკაპუნეთ მარჯვენა ღილაკით - ღირებულებების ჩანაცვლება)
  4. ამოიღეთ ზედა ხაზი (მთავარი – ხაზების წაშლა – ზედა ხაზების წაშლა)
  5. ამოიღეთ ცარიელი ხაზები (მთავარი – ხაზების წაშლა – ცარიელი ხაზების წაშლა)
  6. აწიეთ პირველი რიგი ცხრილის სათაურში (მთავარი – გამოიყენეთ პირველი ხაზი სათაურებად)
  7. გაფილტრეთ არასაჭირო მონაცემები ფილტრის გამოყენებით

როდესაც ცხრილი ნორმალურ ფორმაში მიდის, მისი განტვირთვა შესაძლებელია ფურცელზე ბრძანებით დახურეთ და გადმოწერეთ (დახურვა და ჩატვირთვა) on მთავარი ჩანართი. და ჩვენ მივიღებთ ისეთ სილამაზეს, რომლითაც უკვე შეგვიძლია ვიმუშაოთ:

მონაცემთა იმპორტი PDF-დან Excel-ში Power Query-ის საშუალებით

  • სვეტის გადაქცევა ცხრილად Power Query-ით
  • წებოვანი ტექსტის დაყოფა სვეტებად

დატოვე პასუხი