در این مقاله راهحلهای مختلفی برای استخراج جداول از فایلهای PDF و مقایسه مزایا و معایب آنها برای انتخاب بهترین مناسب برای موارد استفاده خاص را بررسی میکنیم.
tabula
کتابخانه Tabula-Java، tabula یک نرم افزار منبع باز است که می تواند بر روی رایانه های شخصی مک، لینوکس یا ویندوز بارگیری شود. Tabula که توسط گروهی از روزنامه نگاران ایجاد شده است، به دنبال "آزادسازی جداول داده قفل شده در فایل های PDF" است.
یک فایل PDF را در Tabula آپلود کنید، یک جدول را با کشیدن کادری در اطراف آن انتخاب کنید، انتخاب سطرها و ستون ها را پیش نمایش کنید و جدول تایید شده را صادر کنید. Tabula در قالب های کوچک جدول ساده بهترین کار را دارد.
مزایا
- Tabula به طرز شگفت انگیزی روی فایل های PDF که عمدتاً مبتنی بر متن هستند کار می کند.
- استفاده از آن آسان است، قوی است و می تواند در نرم افزارهای دیگر تعبیه شود.
منفی
- Tabula فقط روی PDF های مبتنی بر متن کار می کند، نه تصاویر یا اسناد اسکن شده.
- اغلب توسط سلولهای چند خطی یا ادغام شده از بین میرود.
- از پردازش دسته ای پشتیبانی نمی کند. هر بار فقط می توانید روی یک سند کار کنید!
- گاهی اوقات کاراکترها یا اعداد به درستی شناسایی نمی شوند.
- نمیتوان الزامات OCR را پشتیبانی کرد.
- یک فرآیند خودکار نیست.
Camelot یا Excalibur
کملوت یک کتابخانه پایتون است که استخراج جدول از فایل های PDF را امکان پذیر می کند. همچنین Excalibur، یک رابط وب برای استخراج داده های جدولی از اسناد PDF است.
مزایا
- خودکار جداول را تشخیص می دهد.
- Camelot روی فایل های PDF مبتنی بر متن بسیار خوب کار می کند.
- انعطاف پذیر و قابل تنظیم تا حد زیادی.
- جداول را به چندین فرمت مانند CSV، Excel، JSON، HTML و Sqlite صادر می کند.
- جداول بد را می توان به طور خودکار بر اساس معیارهایی مانند دقت و فضای خالی کنار گذاشت.
- هر جدول را می توان به یک DataFrame پاندا تبدیل کرد که می تواند برای تجزیه و تحلیل یا پردازش بیشتر استفاده شود.
منفی
- Camelot فقط روی PDF های مبتنی بر متن کار می کند، نه تصاویر یا اسناد اسکن شده.
- نمی توان اسناد پیچیده PDF را با جداول چند خطی و سلول های ادغام شده مدیریت کرد.
- هنگام استفاده از Stream، کل صفحه به عنوان یک جدول واحد در نظر گرفته می شود. هنگامی که چندین جدول در یک صفحه وجود دارد، این بر خروجی تأثیر می گذارد.
- نمیتوان الزامات OCR را پشتیبانی کرد.
- یک فرآیند خودکار نیست.
PDFTables
PDFTables یک تبدیل امن و مقیاس پذیر PDF به Excel و API استخراج جدول است. این به طور کامل توسط الگوریتم های داخلی هدایت می شود و جایی برای سفارشی سازی یا ترفندها وجود ندارد. به سادگی سند خود را آپلود کنید و خروجی جدول را با فرمت Excel، CSV، XML یا JSON دانلود کنید.
مزایا
- در مجموعه داده های کوچک و بزرگ کار می کند.
- استخراج خودکار جدول
- جداول را به چندین فرمت مانند CSV، Excel، JSON و XML صادر می کند.
- رایگان برای حداکثر 25 صفحه.
- چندین فایل را به طور همزمان مدیریت می کند.
منفی
- نمی توان الگوریتم استخراج جدول را تغییر داد یا سفارشی کرد.
- تشخیص نویسه نوری (OCR) را انجام نمی دهد.
- اتکای کامل به الگوریتم زیربنایی برای دقت و عملکرد.
- هیچ یکپارچه سازی ابری را پشتیبانی نمی کند.
Docparser
Docparser یک برنامه تجزیه و تحلیل قوی مبتنی بر ابر است که می تواند داده ها و جداول را از اسناد، تصاویر یا PDF استخراج کند. مانند Tabula، روی کتابخانه Tabula-Java اجرا می شود اما ویژگی های پیشرفته تری دارد. هنگامی که یک فایل را آپلود می کنید، از شما خواسته می شود که قوانین تجزیه را تنظیم کنید تا به نرم افزار آموزش دهد تا مناطق مورد علاقه (با جداول) را در سند خود شناسایی کند. سپس نرم افزار این قوانین را برای اسناد مشابه در آینده به خاطر می آورد و اعمال می کند. با قابلیتهای OCR داخلی، Docparser میتواند تا حدودی به خودکارسازی گردشهای کاری تجاری کمک کند.
مزایا
- پشتیبانی از پردازش دسته ای اسناد متعدد
- OCR داخلی
- به قوانین تجزیه سفارشی اجازه می دهد.
- جداول را به چندین فرمت مانند CSV، Excel، JSON و XML صادر می کند.
- از برخی گزینه های یکپارچه سازی منظم پشتیبانی می کند.
منفی
- قوانین تجزیه می تواند برای جداول و اسناد پیچیده پیچیده شود.
- شما باید مختصات و مرزهای هر جدول را مشخص کنید.
- بر روی یک مدل شناسایی الگو اجرا می شود. بنابراین واقعاً خودکار نیست!
- نمیتوان بهطور خودکار انواع و قالبهای سند جدید را کنترل کرد.
- ممکن است نیاز به قوانین تجزیه جداگانه برای جداول یا داده هایی داشته باشد که در مناطق مختلف در یک سند آمده اند.
- فقط روی اسنادی با قالب بندی منطقه ثابت یا الگوهای شناخته شده به دقت کار می کند.
- ممکن است به سطحی از تأیید و دوباره کاری نیاز داشته باشد.
Nanonets
Nanonets یک نرم افزار OCR است که از قابلیت های AI و ML برای استخراج خودکار جداول از اسناد PDF، تصاویر و فایل های اسکن شده استفاده می کند. برخلاف راهحلهای دیگر، نانو شبکهها به قوانین و قالبهای جداگانه برای هر نوع سند جدید نیاز ندارند. نانوشبکهها با تکیه بر هوش شناختی مبتنی بر هوش مصنوعی، میتوانند اسناد نیمهساختار یافته و حتی دیده نشده را مدیریت کنند و در طول زمان بهبود پیدا کنند. شما همچنین می توانید خروجی را سفارشی کنید تا فقط جدول یا داده های مورد علاقه خود را استخراج کنید. این سریع، دقیق، آسان برای استفاده است، به کاربران اجازه می دهد تا مدل های OCR سفارشی را از ابتدا بسازند و دارای ادغام Zapier منظمی است. اسناد را دیجیتالی کنید، جداول یا فیلدهای داده را استخراج کنید و با برنامه های روزمره خود از طریق API در یک رابط کاربری ساده و بصری ادغام کنید.
الگوریتم نانو شبکه و مدل های OCR به طور مداوم یاد می گیرند. آنها می توانند چندین بار آموزش یا بازآموزی شوند و بسیار قابل تنظیم هستند. در حالی که یک API و اسناد عالی برای توسعه دهندگان ارائه می دهد، این نرم افزار برای سازمان هایی که تیم توسعه دهندگان داخلی ندارند نیز ایده آل است.
مزایا
- داده های شناختی و استخراج جدول با OCR.
- دقت بالا حتی در قالب های سند نیمه ساختاریافته یا دیده نشده.
- به طور خودکار جداول شامل اطلاعات سطر-ستون ساختار یافته را در پاسخ خود تشخیص می دهد.
- یک رابط کاربری مدرن و با مقیاس رعد اسا ارائه می کند که اسناد را تا 10 برابر سریعتر از سایر نرم افزارها پردازش می کند.
- آسان برای استفاده و راه اندازی. می توان در چند روز یکپارچه و راه اندازی کرد.
- پشتیبانی از پردازش دسته ای اسناد متعدد
- جداول را به چندین فرمت مانند CSV، Excel و JSON صادر می کند.
- ادغام دو طرفه بدون درز با چندین نرم افزار حسابداری
- تقریباً نیازی به پس پردازش نیست
- با غیر انگلیسی یا چند زبان کار می کند
- انتخاب گسترده ای از گزینه های ادغام
منفی
- نمی تواند اداره کند بسیار بالا افزایش حجم
- فقط 100 سند/اعتبار رایگان در ماه ارائه می دهد.