روش های استخراج جداول از PDF

در این مقاله راه‌حل‌های مختلفی برای استخراج جداول از فایل‌های PDF و مقایسه مزایا و معایب آن‌ها برای انتخاب بهترین مناسب برای موارد استفاده خاص را بررسی می‌کنیم.

tabula

کتابخانه Tabula-Java، tabula یک نرم افزار منبع باز است که می تواند بر روی رایانه های شخصی مک، لینوکس یا ویندوز بارگیری شود. Tabula که توسط گروهی از روزنامه نگاران ایجاد شده است، به دنبال "آزادسازی جداول داده قفل شده در فایل های PDF" است.

یک فایل PDF را در Tabula آپلود کنید، یک جدول را با کشیدن کادری در اطراف آن انتخاب کنید، انتخاب سطرها و ستون ها را پیش نمایش کنید و جدول تایید شده را صادر کنید. Tabula در قالب های کوچک جدول ساده بهترین کار را دارد.

مزایا

Tabula به طرز شگفت انگیزی روی فایل های PDF که عمدتاً مبتنی بر متن هستند کار می کند.
استفاده از آن آسان است، قوی است و می تواند در نرم افزارهای دیگر تعبیه شود.

منفی

Tabula فقط روی PDF های مبتنی بر متن کار می کند، نه تصاویر یا اسناد اسکن شده.
اغلب توسط سلول‌های چند خطی یا ادغام شده از بین می‌رود.
از پردازش دسته ای پشتیبانی نمی کند. هر بار فقط می توانید روی یک سند کار کنید!
گاهی اوقات کاراکترها یا اعداد به درستی شناسایی نمی شوند.
نمی‌توان الزامات OCR را پشتیبانی کرد.
یک فرآیند خودکار نیست.

Camelot یا Excalibur

کملوت یک کتابخانه پایتون است که استخراج جدول از فایل های PDF را امکان پذیر می کند. همچنین Excalibur، یک رابط وب برای استخراج داده های جدولی از اسناد PDF است.

مزایا

خودکار جداول را تشخیص می دهد.
Camelot روی فایل های PDF مبتنی بر متن بسیار خوب کار می کند.
انعطاف پذیر و قابل تنظیم تا حد زیادی.
جداول را به چندین فرمت مانند CSV، Excel، JSON، HTML و Sqlite صادر می کند.
جداول بد را می توان به طور خودکار بر اساس معیارهایی مانند دقت و فضای خالی کنار گذاشت.
هر جدول را می توان به یک DataFrame پاندا تبدیل کرد که می تواند برای تجزیه و تحلیل یا پردازش بیشتر استفاده شود.

منفی

Camelot فقط روی PDF های مبتنی بر متن کار می کند، نه تصاویر یا اسناد اسکن شده.
نمی توان اسناد پیچیده PDF را با جداول چند خطی و سلول های ادغام شده مدیریت کرد.
هنگام استفاده از Stream، کل صفحه به عنوان یک جدول واحد در نظر گرفته می شود. هنگامی که چندین جدول در یک صفحه وجود دارد، این بر خروجی تأثیر می گذارد.
نمی‌توان الزامات OCR را پشتیبانی کرد.
یک فرآیند خودکار نیست.

PDFTables

PDFTables یک تبدیل امن و مقیاس پذیر PDF به Excel و API استخراج جدول است. این به طور کامل توسط الگوریتم های داخلی هدایت می شود و جایی برای سفارشی سازی یا ترفندها وجود ندارد. به سادگی سند خود را آپلود کنید و خروجی جدول را با فرمت Excel، CSV، XML یا JSON دانلود کنید.

مزایا

در مجموعه داده های کوچک و بزرگ کار می کند.
استخراج خودکار جدول
جداول را به چندین فرمت مانند CSV، Excel، JSON و XML صادر می کند.
رایگان برای حداکثر 25 صفحه.
چندین فایل را به طور همزمان مدیریت می کند.

منفی

نمی توان الگوریتم استخراج جدول را تغییر داد یا سفارشی کرد.
تشخیص نویسه نوری (OCR) را انجام نمی دهد.
اتکای کامل به الگوریتم زیربنایی برای دقت و عملکرد.
هیچ یکپارچه سازی ابری را پشتیبانی نمی کند.

Docparser

Docparser یک برنامه تجزیه و تحلیل قوی مبتنی بر ابر است که می تواند داده ها و جداول را از اسناد، تصاویر یا PDF استخراج کند. مانند Tabula، روی کتابخانه Tabula-Java اجرا می شود اما ویژگی های پیشرفته تری دارد. هنگامی که یک فایل را آپلود می کنید، از شما خواسته می شود که قوانین تجزیه را تنظیم کنید تا به نرم افزار آموزش دهد تا مناطق مورد علاقه (با جداول) را در سند خود شناسایی کند. سپس نرم افزار این قوانین را برای اسناد مشابه در آینده به خاطر می آورد و اعمال می کند. با قابلیت‌های OCR داخلی، Docparser می‌تواند تا حدودی به خودکارسازی گردش‌های کاری تجاری کمک کند.

مزایا

پشتیبانی از پردازش دسته ای اسناد متعدد
OCR داخلی
به قوانین تجزیه سفارشی اجازه می دهد.
جداول را به چندین فرمت مانند CSV، Excel، JSON و XML صادر می کند.
از برخی گزینه های یکپارچه سازی منظم پشتیبانی می کند.

منفی

قوانین تجزیه می تواند برای جداول و اسناد پیچیده پیچیده شود.
شما باید مختصات و مرزهای هر جدول را مشخص کنید.
بر روی یک مدل شناسایی الگو اجرا می شود. بنابراین واقعاً خودکار نیست!
نمی‌توان به‌طور خودکار انواع و قالب‌های سند جدید را کنترل کرد.
ممکن است نیاز به قوانین تجزیه جداگانه برای جداول یا داده هایی داشته باشد که در مناطق مختلف در یک سند آمده اند.
فقط روی اسنادی با قالب بندی منطقه ثابت یا الگوهای شناخته شده به دقت کار می کند.
ممکن است به سطحی از تأیید و دوباره کاری نیاز داشته باشد.

Nanonets

Nanonets یک نرم افزار OCR است که از قابلیت های AI و ML برای استخراج خودکار جداول از اسناد PDF، تصاویر و فایل های اسکن شده استفاده می کند. برخلاف راه‌حل‌های دیگر، نانو شبکه‌ها به قوانین و قالب‌های جداگانه برای هر نوع سند جدید نیاز ندارند. نانوشبکه‌ها با تکیه بر هوش شناختی مبتنی بر هوش مصنوعی، می‌توانند اسناد نیمه‌ساختار یافته و حتی دیده نشده را مدیریت کنند و در طول زمان بهبود پیدا کنند. شما همچنین می توانید خروجی را سفارشی کنید تا فقط جدول یا داده های مورد علاقه خود را استخراج کنید. این سریع، دقیق، آسان برای استفاده است، به کاربران اجازه می دهد تا مدل های OCR سفارشی را از ابتدا بسازند و دارای ادغام Zapier منظمی است. اسناد را دیجیتالی کنید، جداول یا فیلدهای داده را استخراج کنید و با برنامه های روزمره خود از طریق API در یک رابط کاربری ساده و بصری ادغام کنید.

الگوریتم نانو شبکه و مدل های OCR به طور مداوم یاد می گیرند. آنها می توانند چندین بار آموزش یا بازآموزی شوند و بسیار قابل تنظیم هستند. در حالی که یک API و اسناد عالی برای توسعه دهندگان ارائه می دهد، این نرم افزار برای سازمان هایی که تیم توسعه دهندگان داخلی ندارند نیز ایده آل است.

مزایا

داده های شناختی و استخراج جدول با OCR.
دقت بالا حتی در قالب های سند نیمه ساختاریافته یا دیده نشده.
به طور خودکار جداول شامل اطلاعات سطر-ستون ساختار یافته را در پاسخ خود تشخیص می دهد.
یک رابط کاربری مدرن و با مقیاس رعد اسا ارائه می کند که اسناد را تا 10 برابر سریعتر از سایر نرم افزارها پردازش می کند.
آسان برای استفاده و راه اندازی. می توان در چند روز یکپارچه و راه اندازی کرد.
پشتیبانی از پردازش دسته ای اسناد متعدد
جداول را به چندین فرمت مانند CSV، Excel و JSON صادر می کند.
ادغام دو طرفه بدون درز با چندین نرم افزار حسابداری
تقریباً نیازی به پس پردازش نیست
با غیر انگلیسی یا چند زبان کار می کند
انتخاب گسترده ای از گزینه های ادغام

منفی

نمی تواند اداره کند بسیار بالا افزایش حجم
فقط 100 سند/اعتبار رایگان در ماه ارائه می دهد.

آرشیو