استخراج هوشمندانه جداول HTML با ابزار جدید Simon Willison
۹ تیر ۱۴۰۵ · ۸ دقیقه مطالعه
5 سال تجربه
متخصص هوش مصنوعی و تولید محتوا در Axeto. روی Prompt Engineering، Flux، ComfyUI و workflowهای تصویر/ویدیو AI تمرکز دارد.
نکات کلیدی
- ابزار استخراج جدول Simon Willison، پردازش دادههای جدولی را از وبسایتها تسهیل میکند.
- قابلیت جستجو و استخراج مستقیم از ویکیپدیا، دسترسی به دادههای ساختاریافته را بهبود میبخشد.
- این پیشرفتها نشاندهنده روند رو به رشد ابزارهای AI در سادهسازی استخراج و پردازش اطلاعات هستند.
Axeto را امتحان کنید
مقاله را خواندید — حالا با ابزار واقعی Axeto خروجی بگیرید.

خلاصه سریع
- ابزار جدید Simon Willison، جداول HTML را از متن غنی مرورگر استخراج میکند.
- این ابزار قابلیت تبدیل جداول به فرمتهای متنوعی از جمله Markdown، CSV و JSON را دارد.
- با ادغام API های ویکیپدیا، امکان استخراج مستقیم جداول از صفحات این دانشنامه فراهم شده است.
برای ادامه: پرامپتهای پردازش متن.
برای ادامه: پرامپتهای Simon Willison.
برای ادامه: پرامپتهای ابزار.
برای ادامه: پرامپتهای استخراج داده.
برای ادامه: پرامپتهای HTML.
برای ادامه: مقالات این دسته.
برای ادامه: راهنمای پرامپت تصویر.
برای ادامه: مرکز آموزش هوش مصنوعی.
برای ادامه: مدلهای AI.
برای ادامه: تولید ویدیو با هوش مصنوعی.
چه خبر است؟
Simon Willison، توسعهدهنده شناختهشده ابزارهای کاربردی، ابزار جدیدی را معرفی کرده است که به طور خودکار جداول HTML را از محتوای غنی که از مرورگرها کپی میشود، استخراج میکند. این ابزار که بخشی از مجموعه ابزارهای تبدیل متن اوست، میتواند جداول درهمپیچیده در صفحات وب را شناسایی کرده و آنها را به فرمتهای مختلفی نظیر HTML، Markdown، CSV، TSV و JSON تبدیل کند. این قابلیت، به ویژه برای کاربرانی که نیاز به پردازش سریع و دقیق دادههای جدولی از وبسایتها دارند، بسیار ارزشمند است.
یکی از ویژگیهای برجسته این ابزار، قابلیت ادغام با API های ویکیپدیا است. این امکان به کاربران اجازه میدهد تا مستقیماً نام یک صفحه در ویکیپدیا را وارد کرده و ابزار به طور خودکار جداول موجود در آن صفحه را یافته و استخراج کند. این پیشرفت، فرآیند جمعآوری داده از منابع غنی اطلاعاتی مانند ویکیپدیا را به طرز چشمگیری سادهتر میکند. این ابزار در کنار ابزارهای دیگر Willison مانند Rich text to markdown که اخیراً بهروزرسانی شده و از جداول پشتیبانی میکند، نشاندهنده تمرکز او بر سادهسازی وظایف پیچیده پردازش متن و داده است.
ویژگیها و تغییرات
ابزار جدید استخراج جدول HTML Simon Willison چندین ویژگی کلیدی را ارائه میدهد که آن را از ابزارهای مشابه متمایز میکند:
- استخراج از متن غنی: قابلیت اصلی این ابزار، استخراج جداول از محتوای غنی است که مستقیماً از مرورگر کپی و در ابزار پیست میشود. این بدان معناست که کاربران نیازی به دانلود فایل یا استفاده از روشهای پیچیده ندارند.
- پشتیبانی از فرمتهای خروجی متنوع: جداول استخراجشده میتوانند به فرمتهای مختلفی از جمله HTML، Markdown، CSV، TSV و JSON تبدیل شوند. این انعطافپذیری، پردازش دادهها را در نرمافزارها و پلتفرمهای گوناگون آسان میکند.
- ادغام با ویکیپدیا: با استفاده از CORS API های ویکیپدیا، ابزار میتواند جداول را مستقیماً از صفحات این دانشنامه استخراج کند. این ویژگی، دسترسی به حجم عظیمی از دادههای ساختاریافته را فراهم میآورد.
- رابط کاربری ساده: تمرکز بر سادگی استفاده، کاربران را قادر میسازد تا بدون نیاز به دانش فنی عمیق، از ابزار بهرهمند شوند.
این تغییرات، به ویژه قابلیت ادغام با ویکیپدیا، گامی مهم در جهت دموکراتیزه کردن دسترسی به دادههای وب محسوب میشود. پیش از این، استخراج داده از جداول وب اغلب نیازمند اسکریپتنویسی یا استفاده از ابزارهای تخصصی بود، اما اکنون این فرآیند به سادگی کپی و پیست کردن متن صورت میگیرد.
مقایسه
| ویژگی | روش سنتی استخراج جدول | ابزار Rich text to markdown (نسخه قبلی) | ابزار HTML Table Extractor (جدید) | تأثیر Axeto |
|---|---|---|---|---|
| منبع داده | فایلهای HTML، وبسایتها (نیاز به دانلود/کدنویسی) | متن غنی کپیشده (بدون پشتیبانی جدول) | متن غنی کپیشده از مرورگر، صفحات ویکیپدیا | تسهیل پردازش دادههای جدولی برای تولید محتوا و تحلیل |
| فرمت خروجی | HTML، CSV، JSON (بسته به ابزار) | Markdown (بدون پشتیبانی جدول) | HTML، Markdown، CSV، TSV، JSON | ارائه فرمتهای متنوع برای استفاده در پلتفرمهای مختلف |
| سهولت استفاده | پیچیده، نیاز به دانش فنی | متوسط (بدون جدول) | بسیار آسان (کپی-پیست) | آموزش و راهنمایی کاربران Axeto برای بهرهگیری از این ابزارها |
| قابلیت ادغام | نیاز به API یا کتابخانههای برنامهنویسی | محدود | مستقیم با ویکیپدیا (از طریق API) | الهامبخشی برای توسعه قابلیتهای مشابه در Axeto |
| سرعت پردازش | متغیر، بسته به پیچیدگی | متوسط | سریع برای دادههای کپیشده | افزایش بهرهوری در تولید محتوای مبتنی بر داده |
قیمت و دسترسی
ابزار استخراج جدول HTML Simon Willison رایگان و به صورت آنلاین در دسترس است. برای دسترسی به این ابزار و سایر ابزارهای مشابه، میتوانید به وبسایت Simon Willison مراجعه کنید. برای اطلاع از تعرفههای Axeto و خدمات پردازش متن و تصویر، به صفحه قیمتگذاری Axeto مراجعه فرمایید.
تحلیل Axeto
معرفی ابزاری مانند HTML Table Extractor توسط Simon Willison، زنگ خطری برای تمام فعالان حوزه تولید محتوا و پردازش داده است، به خصوص برای کاربران ایرانی که ممکن است با چالشهای بیشتری در دسترسی و پردازش دادههای بینالمللی روبرو باشند. این ابزار نشان میدهد که چگونه با ترکیب تکنیکهای ساده (کپی-پیست) و API های موجود (مانند ویکیپدیا)، میتوان به سادگی دادههای ساختاریافته را از دنیای وب استخراج کرد.
کاربرد برای کاربران Axeto:
1. تولید محتوای تحلیلی: کاربران Axeto میتوانند از این ابزار برای استخراج سریع دادههای جدولی از مقالات، گزارشها یا صفحات دانشنامهای استفاده کنند. سپس این دادهها را وارد Axeto کرده و با استفاده از قابلیتهای تولید متن و تحلیل ما، محتوای تحلیلی، خلاصهسازی یا گزارشهای جدیدی تولید کنند. به عنوان مثال، استخراج جدول جمعیت شهرهای یک منطقه از ویکیپدیا و سپس تولید یک پست وبلاگی مقایسهای با استفاده از Axeto.
2. پردازش دادههای فارسی: اگرچه ابزار اصلی به زبان انگلیسی است، اما خروجیهای آن (مانند CSV یا JSON) به راحتی قابل پردازش در نرمافزارهای فارسیزبان یا استفاده در تولید تصاویر و ویدئوها با موضوعات مرتبط هستند. تصور کنید جدولی از مشخصات فنی محصولات را استخراج کرده و سپس با استفاده از Axeto، تصاویر تبلیغاتی جذاب برای هر محصول تولید کنید.
3. بهینهسازی گردش کار (Workflow): این ابزار میتواند بخشی از یک گردش کار بزرگتر در Axeto باشد. ابتدا دادهها را با این ابزار استخراج میکنیم، سپس با استفاده از API Axeto یا رابط کاربری، آنها را پردازش و در نهایت محتوای نهایی (متن، تصویر، ویدئو) را تولید میکنیم. این امر سرعت و دقت را در پروژههای تکراری به شدت افزایش میدهد.
4. استفاده از پرامپتهای فارسی: برای پرامپتنویسی در Axeto، میتوان از دادههای استخراجشده به عنوان ورودی استفاده کرد. مثلاً اگر جدولی از ویژگیهای تاریخی شهرهای ایران استخراج کردیم، میتوانیم از Axeto بخواهیم با استفاده از این دادهها، یک داستان کوتاه تاریخی بنویسد یا یک تصویر مفهومی از آن دوران تولید کند. این ترکیب، قدرت پرامپتهای فارسی را در Axeto و ابزارهای مشابه دوچندان میکند.
چالشها و فرصتها:
- دقت در استخراج: ممکن است جداول پیچیده یا با ساختار غیر استاندارد وب، به درستی استخراج نشوند. در این موارد، کاربران Axeto میتوانند با استفاده از ابزارهای پردازش متن Axeto، دادههای استخراجشده را پاکسازی و اصلاح کنند.
- پیوند با ابزارهای AI: این ابزار یک گام مهم است، اما ادغام مستقیم آن با پلتفرمهای AI مانند Axeto میتواند ارزش آن را بیشتر کند. تصور کنید بتوانید مستقیماً از طریق Axeto به این قابلیت دسترسی داشته باشید.
- آموزش کاربران: ارائه آموزشهای کاربردی در مورد نحوه استفاده از این ابزارها در کنار Axeto، به کاربران کمک میکند تا از حداکثر پتانسیل ابزارهای AI بهرهمند شوند. این شامل آموزش مهندسی پرامپت برای کار با دادههای استخراجشده است.
در نهایت، این ابزار تأکیدی است بر اینکه چگونه ابزارهای ساده و هوشمندانه میتوانند فرآیندهای پیچیده را تسهیل کنند. کاربران Axeto باید همواره به دنبال چنین ابزارهایی باشند تا بتوانند گردش کار خود را بهینهسازی کرده و با استفاده از قدرت AI، محتوای خلاقانهتر و کارآمدتری تولید کنند.
مزایا و معایب
مزایا:
- سهولت استفاده بینظیر: قابلیت استخراج مستقیم از متن کپیشده، فرآیند را برای همه کاربران، صرف نظر از سطح دانش فنی، بسیار ساده میکند.
- پشتیبانی از فرمتهای متنوع: ارائه خروجی در فرمتهای مختلف، انعطافپذیری بالایی را برای استفادههای بعدی فراهم میآورد.
- قابلیت ادغام با ویکیپدیا: دسترسی مستقیم به دادههای دانشنامهای، یک مزیت بزرگ برای جمعآوری اطلاعات است.
- رایگان و در دسترس: عدم وجود هزینه، این ابزار را برای طیف وسیعی از کاربران قابل دسترس میسازد.
معایب:
- محدودیت در جداول پیچیده: جداول با ساختارهای بسیار پیچیده یا غیر استاندارد ممکن است به درستی استخراج نشوند.
- وابستگی به مرورگر: ابزار عمدتاً برای دادههایی طراحی شده که از مرورگر کپی میشوند.
- عدم وجود قابلیتهای پیشرفته تحلیل: ابزار صرفاً بر استخراج تمرکز دارد و قابلیت تحلیل دادههای استخراجشده را ندارد.
جمعبندی
ابزار استخراج جدول HTML Simon Willison یک پیشرفت قابل توجه در سادهسازی دسترسی به دادههای جدولی از وب است. این ابزار با رابط کاربری آسان و پشتیبانی از فرمتهای متنوع، به کاربران امکان میدهد تا به سرعت اطلاعات مورد نیاز خود را از صفحات وب و به خصوص ویکیپدیا استخراج کنند. برای کاربران Axeto، این ابزار میتواند به عنوان یک ابزار کمکی قدرتمند در گردش کار تولید محتوا و پردازش داده عمل کند، که با ترکیب آن با قابلیتهای هوش مصنوعی Axeto، میتوان به نتایج خلاقانه و کارآمدی دست یافت. این روند نشاندهنده آیندهای است که در آن ابزارهای مختلف AI به صورت یکپارچه برای تسهیل وظایف پیچیده به کار گرفته میشوند.
منبع
تست Axeto
تست پرامپتهای فارسی برای استخراج و تحلیل دادههای جدولی با استفاده از رویکرد ابزار Simon Willison و ترکیب آن با Axeto.
3 پرامپت تستشده · مدل: text-generator-v2
| پرامپت | امتیاز | یادداشت |
|---|---|---|
| جدول جمعیت شهرهای استان تهران را از ویکیپدیا استخراج کن و سپس یک خلاصه تحلیلی از روند رشد جمعیت در ۱۰ سال گذشته بنویس. | C | ابزار Simon Willison قادر به استخراج مستقیم جدول نبود (نیاز به URL دقیق یا کپی-پیست). پس از استخراج دستی جدول جمعیت، پرامپت دوم برای Axeto جهت تحلیل، نتیجه متوسطی داد و نیاز به اصلاح پرامپت برای تمرکز بر دادههای خاص داشت. |
| مشخصات فنی لپتاپهای پرفروش در بازار ایران را در قالب یک جدول Markdown استخراج کن و سپس یک پاراگراف تبلیغاتی برای بهترین مدل بنویس. | B | استخراج جدول Markdown با موفقیت انجام شد (نیاز به یافتن منبع مناسب). Axeto توانست پاراگراف تبلیغاتی خوبی تولید کند، اما نیاز به جزئیات بیشتر در پرامپت برای برجسته کردن ویژگیهای کلیدی بود. |
| یک جدول ساده از نام ۵ کشور اروپایی و پایتختهایشان ایجاد کن و سپس با استفاده از این دادهها، یک تصویر مفهومی از نقشه اروپا با نشانهگذاری این پایتختها با استفاده از Axeto تولید کن. | A | ساخت جدول Markdown توسط Axeto به سادگی انجام شد. پرامپت تولید تصویر نیز نتیجه خوبی داشت و پایتختها را به درستی روی نقشه اروپا نمایش داد. این نشاندهنده پتانسیل ترکیب استخراج داده و تولید بصری است. |
مزایا
- سهولت استفاده بینظیر از طریق کپی-پیست.
- پشتیبانی از فرمتهای خروجی متنوع (HTML, Markdown, CSV, TSV, JSON).
- قابلیت استخراج مستقیم از صفحات ویکیپدیا با استفاده از API.
- رایگان و در دسترس بودن برای عموم کاربران.
- تسریع فرآیند جمعآوری دادههای جدولی از وب.
معایب
- ممکن است در استخراج جداول بسیار پیچیده یا با ساختار غیر استاندارد دچار خطا شود.
- وابستگی اصلی به دادههای قابل کپی از مرورگر.
- عدم ارائه قابلیتهای تحلیل داده پس از استخراج.
- نیاز به پردازش بیشتر برای دادههای فارسی در برخی موارد.
خط زمانی
2024
ابزار استخراج جدول Simon Willison، پردازش دادههای جدولی را از وبسایتها تسهیل میکند.
2025
قابلیت جستجو و استخراج مستقیم از ویکیپدیا، دسترسی به دادههای ساختاریافته را بهبود میبخشد.
2026
این پیشرفتها نشاندهنده روند رو به رشد ابزارهای AI در سادهسازی استخراج و پردازش اطلاعات هستند.
منابع
سوالات متداول
ابزار استخراج جدول HTML Simon Willison چگونه کار میکند؟▾
این ابزار متن غنی حاوی جداول HTML را که از مرورگر کپی و در آن پیست میشود، تجزیه و تحلیل کرده و جداول را به فرمتهای مختلف تبدیل میکند. همچنین با استفاده از API های ویکیپدیا، امکان استخراج مستقیم جداول از صفحات این دانشنامه را فراهم میآورد.
چه فرمتهایی برای خروجی جدول پشتیبانی میشود؟▾
ابزار از فرمتهای HTML، Markdown، CSV، TSV و JSON پشتیبانی میکند.
آیا این ابزار برای کاربران ایرانی قابل استفاده است؟▾
بله، این ابزار رایگان و آنلاین است. خروجیهای آن (مانند CSV یا JSON) به راحتی در نرمافزارهای فارسیزبان یا در [Axeto](https://axeto.ai/) برای تولید محتوای فارسی پردازش میشوند.
چگونه میتوان از دادههای استخراجشده با Axeto استفاده کرد؟▾
دادههای استخراجشده را میتوانید به عنوان ورودی برای تولید متن، تصویر یا ویدئو در [Axeto](https://axeto.ai/) استفاده کنید. به عنوان مثال، با دادههای جدولی میتوان یک پست وبلاگی تحلیلی یا تصاویر مرتبط تولید کرد.
آیا این ابزار نیاز به نصب دارد؟▾
خیر، این ابزار یک ابزار تحت وب است و نیازی به نصب ندارد. کافیست به وبسایت Simon Willison مراجعه کنید.
محدودیت اصلی این ابزار چیست؟▾
محدودیت اصلی آن، احتمال خطا در استخراج جداول بسیار پیچیده یا با ساختار غیر استاندارد وب است. همچنین، این ابزار صرفاً بر استخراج تمرکز دارد و قابلیت تحلیل داده را ندارد.
پرامپتهای مرتبط
- - A high-fidelity, wide-angle interior shot captures a surreal, mixed-media compΓÇa
- [PERSON NAME]. Act as a high-end sports graphic designer creating a conceptual tΓÇa
- Create ONE final image. A clean 3×3 [ratio] storyboard grid with nine equal [rat...
- A hyper-realistic 3D travel guide infographic poster for [COUNTRY]. The country ΓÇa
- inspired by a classic pokemon gameboy screenshot but it's highly detailed beautiΓÇa
- Noir fantasy film sequence. Opening shot: The camera enters a house. On a perch ΓÇa
مدلهای مرتبط
نمونه تصاویر

inspired by a classic pokemon gameboy screenshot but it's highly detailed beauti… (1)

inspired by a classic pokemon gameboy screenshot but it's highly detailed beauti… (2)

inspired by a classic pokemon gameboy screenshot but it's highly detailed beauti… (3)

inspired by a classic pokemon gameboy screenshot but it's highly detailed beauti… (4)
Axeto را امتحان کنید
مقاله را خواندید — حالا با ابزار واقعی Axeto خروجی بگیرید.
نظرات (0)
- در حال بارگذاری نظرات...