بانک مرکزی و اکثر نهادها در ایران معمولا دادهها را به صورت pdf منتشر میکنند اما با پکیج tabula در پایتون میتوانید اونها را به csv تبدیل کنید یا مستقیما در pandas باهاشون کار کنید. با وجود اینکه داده فارسی بود خروجیش خوب بود. pypi.org/project/tabula
---------------------------------
اگر شما تا به حال با چالش استخراج جدول از فایلهای پیدیاف مواجه شدهاید خواندن این مطلب را به شما توصیه میکنیم، اگر هم تا به حال با این مشکل روبرو نشدهاید آن را مطالعه کنید چرا که در این دنیایی که اهمیت داده هر روز بیشتر میشود بهتر است درباره روشهای استخراج داده اطلاعاتی داشته باشید.
روشهای استخراج داده
تبدیلکنندههای فرمت pdf به word یا excel به شما اجازه میدهند که اطلاعات مورد نیاز خود را به فرمتی دیگر تبدیل کنید اما اگر در پیدیاف شما جدول وجود داشته باشد، نتیجه اغلب به هم ریخته است. چند ابزار رایگان برای این کار وجود دارند از جمله Excel Online.
OCR یا «نویسهخوان نوری» که pdf را میخواند و محتوای آن را به فرمتی متفاوت و اغلب به صورت متن ساده(simple text) تبدیل میکند. موتورهای OCR با یکدیگر تفاوت دارند و اغلب مجوز استفاده از آنها رایگان نیست. شما میتوانید از نرمافزار رایگان و متنباز Tessaract OCR استفاده کنید اگر چه برای کار با آن به مقداری دانش برنامهنویسی نیاز خواهید داشت.
برنامهنویسی با چند کتابخانه موجود برای پایتون(PDFMiner)، جاوا(TIka, PDFBoc) و کامند لاین(pdftotext, pdftohtml).
جمعسپاری، که البته به طور ویژه برای این مورد مطرح نیست و در خیلی از امور کاربرد دارد. میتوانید برای مواقعی که تعداد زیادی سند برای رونویسی در اختیار دارید از این روش استفاده کنید و آنها را در اختیار تعداد زیادی از افراد قرار دهید تا کار شما سریعتر انجام شود.
و Tabula، یک نرمافزار نسبتا جدید که به طور اختصاصی برای استخراج جدولهایی با فرمت پیدیاف طراحی شده است.
روش Tabula
Tabula چیست و چگونه کار میکند؟
tabula یک نرمافزار آفلاین تحت پروانهی متنباز امآیتی است که برای سیستم عاملهای ویندوز، مک و لینوکس طراحی شده و به شما اجازه میدهد یک فایل پیدیاف را آپلود کنید و ستونها و ردیفهای انتخابی خودتان را از هر جدولی که در آن قرار دارد استخراج کنید.
دریافت Tabula
tabula برای سه سیستم عامل اصلی در دسترس است. این نرمافزار را میتوانید برای ویندوز، مک و لینوکس دانلود کنید. چون این برنامه در محیط جاوا اجرا میشود، اگر java runtime environment را ندارید باید آن را دانلود و نصب کنید.
اجرای Tabula
بعد از دانلود و باز کردن فایل فشرده(zip)، برنامه را اجرا کنید. tabula میبایست در مرورگر(کروم، فایرفاکس، سفری و …) باز شود. اگر اینطور نشد این آدرس را http://localhost:8080 در مرورگر خود وارد کنید، پس از آن رابط کاربری tabula را مشاهده خواهید کرد.
استخراج جدول
در این قسمت چگونگی کار با tabula که بسیار ساده هم است در چند مرحله توضیح داده میشود:
آپلود(بارگذاری) فایل پیدیاف: روی دکمه …Browse کلیک کنید و پس از انتخاب فایل مورد نظرتان، آن را submit/import نمایید. در این مرحله فایل آپلود شده روی صفحه کاربری دیده خواهد شد.
نمایش فایل پیدیاف برای استخراج جدول: با کلیک بر روی فایل آپلود شده، شما محتوای آن را روی تصویر مشاهده خواهید کرد. همه یا بخشی از جدول را که قصد دارید اطلاعات آن را بیرون بیاورید انتخاب کنید.
استخراج داده: بلافاصله بعد از انتخاب شما، دادهی مورد نظر نمایش داده خواهد شد. میتوانید اطلاعات را کپی کنید و در هر جا که میخواهید از آن استفاده کنید. همچنین میتوانید فایل CSV از دادهی خود را دانلود کنید و روی نرمافزارهای صفحه گسترده(LibreOffice Calc، Google Spreadsheet، Microsoft Excel و …) از آن استفاده کنید.
محدودیتهای Tabula
اگرچه tabula نرمافزار قدرتمندی است اما ضعفهایی هم دارد:
- این نرمافزار روی ردیفهای چند خطه(Multi-lines rows) و سلولهای ادغام شده(merged cells) نمیتواند عملیات استخراج جدول را انجام دهد.
- tabula نمیتواند اطلاعات را از فایلهای پیدیاف اسکن شده استخراج کند.
منبع: schoolofdata