Skip to content

توسعه سامانه ارزیابی مدل های زبانی بزرگ (LLM) و تولید تقویت شده با بازیابی (RAG) توسط گروه هوش مصنوعی فرزان (FAIT)

گروه هوش مصنوعی فرزان (FAIT) یک پلتفورم اختصاصی برای ارزیابی خروجی مدل های زبانی بزرگ (LLMs) و تولید تقویت‌شده با بازیابی (RAG) و مقایسه نتایج ورژن های مختلف آنها، توسعه داده است. پس از هر نوبت آموزش و بهینه سازی مدل یا هر گونه تغییر در آنها، پاسخ های آنها به سوالات استاندارد و رفتار مدل، بررسی می شود. این پلتفورم، کار ارزیابی نتایج و خروجی مدل ها را به میزان زیادی تسهیل و تسریع می کند و دقت آنرا افزایش می دهد.

مدل های زبانی بزرگ با سرعت چشمگیری در حال توسعه هستند. این مدل ها کارکردهای متنوعی از جمله در حوزه سلامت دارند. موسسه فرزان هم اکنون در حال کار روی توسعه مدل های زبانی و تولید تقویت شده با بازیابی (RAG) بصورت تخصصی در حوزه سلامت و به زبان فارسی است. تمرکز ما هم اکنون روی سلامت روان است.

ارزیابی نتایج مدل های زبانی و کیفیت خروجی های آنها، کاری فنی است و نیازمند زمان و دقت زیاد توسط متخصصین و کارشناسان است. خصوصا اینکه پاسخ های مدل باید هم به لحاظ تخصصی پزشکی و هم از جنبه زبان و ادبیات و آیین نگارش، مورد بررسی و سنجش قرار گیرد.

به این منظور، و برای پیشبرد بهتر توسعه مدل های زبانی، موسسه فرزان، پلتفورمی اختصاصی جهت ارزیابی خروجی مدل های زبانی بزرگ (LLMs) و تولید تقویت ‌شده با بازیابی (RAG) و مقایسه نتایج ورژن های مختلف آنها توسعه داده است.

این پلتفورم، گزارش هایی را برای مقایسه نتایج ورژن های مختلف (قبل و پس از اصلاحات جهت بهینه سازی) ارائه می کند. این گزارش ها دارای چند بخش به شرح زیر می باشد:

  • متادیتا شامل ….. مورد

شاخصهای تحلیلی (مبتنی بر مقیاس های آماری Min و Max و Mean و Median و SD)

الف) درستی و دقت پاسخ ها

  • Accuracy
  • Precision
  • Recall
  • F1 Score
  • Specificity

ب) شباهت متن

  • Similarity Scores
  • Semantic Textual Similarity
  • Cosine Similarity
  • Rouge Scores
  • Length Distribution
  • جداول و چارت های تحلیلی
  • Token Length Distribution
  • Confusion Matrix
  • Answer Choices Distribution
  • Zipf_law
  • جدول مقایسه پاسخ مدل ها به سوالات چندگزینه ای
  • پاسخ های تشریحی

گزارش ارزیابی مدل، در هر نوبت، ممکن است بالغ بر صدها صفحه باشد که هم به لحاظ شاخصهای فوق و هم به صورت تشریحی، نتایج آموزش و بهینه سازی مدل ها را مورد تحلیل قرار می دهد.

تحلیل های تشریحی توسط پرشکان و کارشناسان سلامت بررسی می شود. در این بخش، پاسخ ها از بابت درستی آنها، جامع و مانع بودن و انطباق آنها با کتب مرجع مورد نظر، مورد تحلیل و ارزیابی قرار می گیرد.

این پلتفورم قابلیت تعیین میزان پاسخ های صحیح در سوالات دو و چندگزینه ای و مقایسه نتایج عملکرد مدل های مختلف شامل پاسخ های مدل زبانی بزرگ (LLM) و RAG را به شکلی کاربرپسند و با استفاده از رنگ، دارد.

این پلتفورم، پس از تکمیل ارزیابی های اولیه و مرحله پایلوت، جهت استفاده عموم متخصصان و پژوهشگران حوزه مدل های زبانی بدون محدودیت و رایگان در دسترس قرار خواهد گرفت.

 

نگاهی به ویژگی های اصلی پلتفورم ارزیابی مدل های زبانی توسعه داده شده توسط گروه هوش مصنوعی فرزان

  • ارزیابی خروجی‌های مدل ها و مشاهده تغییرات به صورت آماری
  • تهیه و مقایسه آماره‌های مختلف برای سوالات تشریحی و دو و چند گزینه‌ای
  • ارائه خروجی از پاسخ‌های مدل‌ها در قالبی منظم و خوانا برای ارزیابی کارشناسی و مطالعه آن خروجی
  • ارائه گزارش در مورد نحوه ارزیابی و اطلاعات مربوط به آن
  • گزارش معیارهای دقت پاسخ گویی هر مدل
  • رسم confusion matrix و pi chart برای پاسخ ها
  • جدول مقایسه آماره‌های هر مدل
  • جدول مقایسه‌ای پاسخ های درست و غلط به صورت رنگی
  • ارزیابی آماری و مفهومی شباهت پاسخ های تشریحی نسبت به پاسخ مبنا
  • محاسبه شباهت مفهومی با استفاده از Semantic Text Similarity و مدل‌های مشابهت متن
  • محاسبه شباهت لغوی با پاسخ مبنا با استفاده از Rouge
  • قرار دادن پاسخ مدل ها به صورت منظم در کنار هم جهت تسهیل بررسی کارشناسی
  • گرفتن خروجی در قالب فایل داکیومنت ورد و اکسل با یک کلیک

 

گفتنی است تمامی خروجی‌ها تحت این پلتفرم توسط تیم کارشناسی، بررسی و تحلیل می شوند.

 

معرفی گروه هوش مصنوعی فرزان (FAIT)

گروه هوش مصنوعی در سلامت فرزان (FHAIT) مجموعه ای متشکل از کارشناسان و پژوهشگران مجرب و جوان هوش مصنوعی و متخصصان پزشکی است که زیر نظر موسسه توسعه دانش، پژوهش و فن آوری فرزان فعالیت می‌کند. این گروه، کار خود را در مهر ماه ۱۴۰۱ آغاز کرده است و تمرکز آن بر استفاده از فناوری های هوش مصنوعی در نظام سلامت و علوم پزشکی است.

این گروه هم اکنون، ۱۸ مطالعه، در دست اجرا دارد که برخی از آنها پایان یافته و ۲ مقاله پژوهشی مبتنی بر نتایج این مطالعات، در مجلات معتبر بین المللی منتشر کرده است.

گروه هوش مصنوعی فرزان از همکاری با مراکز مختلف از جمله دانشگاه ها و مراکز بهداشتی – درمانی، مراکز تحقیقاتی و سازمان های ارائه دهنده خدمات در نظام سلامت، استقبال می کند. این همکاری ها می تواند در زمینه برگزاری دوره های آموزشی، اجرای طرح های تحقیقاتی و پروژه های مشترک، برنامه نویسی پایتون و استفاده از سرور و امکانات سخت افزاری گروه باشد.

خبرهای تصویری

جدیدترین خبرها