بانک مرکزی و اکثر نهادها در ایران معمولا داده‌ها را به صورت pdf منتشر می‌کنند اما با پکیج tabula در پایتون می‌توانید اون‌ها را به csv تبدیل کنید یا مستقیما در pandas باهاشون کار کنید. با وجود اینکه داده فارسی بود خروجیش خوب بود. pypi.org/project/tabula
---------------------------------

اگر شما تا به حال با چالش اس
تخراج جدول از فایل‌های پی‌دی‌اف مواجه شده‌اید خواندن این مطلب را به شما توصیه می‌کنیم، اگر هم تا به حال با این مشکل روبرو نشده‌اید آن را مطالعه کنید چرا که در این دنیایی که اهمیت داده هر روز بیشتر می‌شود بهتر است درباره روش‌های استخراج داده اطلاعاتی داشته باشید.

روش‌های استخراج داده

تبدیل‌کننده‌های فرمت pdf به word یا excel به شما اجازه می‌دهند که اطلاعات مورد نیاز خود را به فرمتی دیگر تبدیل کنید اما اگر در پی‌دی‌اف شما جدول وجود داشته باشد، نتیجه اغلب به هم ریخته است. چند ابزار رایگان برای این کار وجود دارند از جمله Excel Online.

OCR یا «نویسه‌خوان نوری» که pdf را می‌خواند و محتوای آن را به فرمتی متفاوت و اغلب به صورت متن ساده(simple text) تبدیل می‌کند. موتورهای OCR با یکدیگر تفاوت دارند و اغلب مجوز استفاده از آنها رایگان نیست. شما می‌توانید از نرم‌افزار رایگان و متن‌باز Tessaract OCR استفاده کنید اگر چه برای کار با آن به مقداری دانش برنامه‌نویسی نیاز خواهید داشت.

برنامه‌نویسی با چند کتابخانه موجود برای پایتون(PDFMiner)، جاوا(TIka, PDFBoc) و کامند لاین(pdftotext, pdftohtml).

جمع‌سپاری، که البته به طور ویژه برای این مورد مطرح نیست و در خیلی از امور کاربرد دارد. می‌توانید برای مواقعی که تعداد زیادی سند برای رونویسی در اختیار دارید از این روش استفاده کنید و آنها را در اختیار تعداد زیادی از افراد قرار دهید تا کار شما سریع‌تر انجام شود.

و Tabula، یک نرم‌افزار نسبتا جدید که به طور اختصاصی برای استخراج جدول‌‌هایی با فرمت پی‌دی‌اف طراحی شده است.

روش Tabula 
Tabula  چیست و چگونه کار می‌کند؟ 

tabula یک نرم‌افزار آفلاین تحت پروانه‌ی متن‌باز ام‌آی‌تی است که برای سیستم‌ عامل‌های ویندوز، مک و لینوکس طراحی شده و به شما اجازه می‌دهد یک فایل پی‌دی‌اف را آپلود کنید و ستون‌ها و ردیف‌های انتخابی خودتان را از هر جدولی که در آن قرار دارد استخراج کنید.

دریافت Tabula 

tabula برای سه سیستم عامل اصلی در دسترس است. این نرم‌افزار را می‌توانید برای ویندوز، مک و لینوکس دانلود کنید. چون این برنامه در محیط جاوا اجرا می‌شود، اگر java runtime environment را ندارید باید آن را دانلود و نصب کنید.

اجرای Tabula 

بعد از دانلود و باز کردن فایل فشرده(zip)، برنامه را اجرا کنید. tabula می‌بایست در مرورگر(کروم، فایرفاکس، سفری و …) باز شود. اگر اینطور نشد این آدرس را http://localhost:8080 در مرورگر خود وارد کنید، پس از آن رابط کاربری tabula را مشاهده خواهید کرد.

استخراج جدول 

در این قسمت چگونگی کار با tabula که بسیار ساده هم است در چند مرحله توضیح داده می‌شود:

آپلود(بارگذاری) فایل پی‌دی‌اف: روی دکمه …Browse کلیک کنید و پس از انتخاب فایل مورد نظرتان، آن را submit/import نمایید. در این مرحله فایل آپلود شده روی صفحه کاربری دیده خواهد شد.

بارگذاری فایل پی‌دی‌اف

 

نمایش فایل پی‌دی‌اف برای استخراج جدول: با کلیک بر روی فایل آپلود شده، شما محتوای آن را روی تصویر مشاهده خواهید کرد. همه یا بخشی از جدول را که قصد دارید اطلاعات آن را بیرون بیاورید انتخاب کنید.

نمایش فایل پی‌دی‌اف برای استخراج داده

 

استخراج داده: بلافاصله بعد از انتخاب شما، داده‌ی مورد نظر نمایش داده خواهد شد. می‌توانید اطلاعات را کپی کنید و در هر جا که می‌خواهید از آن استفاده کنید. همچنین می‌توانید فایل CSV از داده‌‌ی خود را دانلود کنید و روی نرم‌افزارهای صفحه گسترده(LibreOffice Calc، Google Spreadsheet، Microsoft Excel و …) از آن استفاده کنید.

استخراج جدول

 

محدودیت‌های Tabula 

اگرچه tabula نرم‌افزار قدرتمندی است اما ضعف‌هایی هم دارد:

  • این نرم‌افزار روی ردیف‌های چند خطه(Multi-lines rows) و سلول‌های ادغام‌ شده(merged cells) نمی‌تواند عملیات استخراج جدول را انجام دهد.
  • tabula نمی‌تواند اطلاعات را از فایل‌های پی‌دی‌اف اسکن شده استخراج کند.

 

منبع: schoolofdata