UiPath Document Understanding with NER

ในโลกปัจจุบัน องค์กรต่างๆ การใช้งานเอกสารต่างๆ มากมายทุกวัน การประมวลผลเอกสารได้รับความสนใจอย่างมากในโลกของระบบอัตโนมัติ เนื่องจากเป็นงานที่ซ้ำซากจำเจซึ่งต้องใช้เวลาและความพยายามอย่างมาก เอกสารมีรูปแบบต่างกัน : แบบที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง การใช้เทมเพลตเพื่อดึงข้อมูลจากเอกสารที่มีโครงสร้างนั้นทำได้ง่าย เนื่องจากเป็นไปตามโครงสร้างเดียวกันในเอกสารทั้งหมด เทคโนโลยีในปัจจุบันช่วยให้เราใช้โมเดลการเรียนรู้ของเครื่องต่างๆ เพื่อดึงข้อมูลจากเอกสารกึ่งโครงสร้าง เช่น ใบแจ้งหนี้ ใบสั่งซื้อ ฯลฯ อย่างไรก็ตาม การดึงข้อมูลจากเอกสารที่ไม่มีโครงสร้างอาจทำได้ยากเล็กน้อยเนื่องจากเอกสารไม่เป็นไปตามรูปแบบ ในบทความนี้ คุณจะค้นพบวิธีที่ UiPath ตั้งชื่อโมเดลการรับรู้เอนทิตีทำให้ผู้ใช้สามารถดึงข้อมูลเอนทิตีจากเอกสารที่ไม่มีโครงสร้างได้ สิ่งที่ต้องเตรียม ความเข้าใจ UiPath Document Understanding Framework เข้าใจภาพรวมของ UiPath AI Center™ และการใช้งาน เตรียมระบบพร้อมใช้งาน (การทดลองใช้แพลตฟอร์มคลาวด์ที่สร้างขึ้นใหม่ หรือ แพลตฟอร์ของมองค์กร) การจำลองสถานการณ์ ลองพิจารณาสถานการณ์ง่ายๆ ที่เราจำเป็นต้องดึงข้อมูลบางอย่างจากสัญญาทางกฎหมาย ดังที่เราทราบ สัญญาทางกฎหมายนั้นไม่มีโครงสร้างและไม่เป็นไปตามรูปแบบใดรูปแบบหนึ่ง ดังนั้น ข้อมูลที่มีอยู่ในเอกสารทางกฎหมายฉบับหนึ่งอาจไม่อยู่ในเอกสารทางกฎหมายอื่น หรืออาจมีอยู่ในรูปแบบอื่น ในสถานการณ์สมมติของเราที่นี่ เราจะดูที่ข้อมูลเป็นหลัก เช่น ชื่อบริษัท ชื่อพนักงาน ชื่อผู้ขาย และวันที่มีผลในเอกสาร ต่อไปนี้คือตัวอย่างเอกสารทางกฎหมายบางส่วนที่เราวางแผนจะใช้สำหรับกรณีการใช้งานนี้ การจับข้อมูลชื่อนิติบุคคล การรู้จำชื่อเอนทิตีเป็นกระบวนการในการระบุและแยกหน่วยข้อมูล เช่น ชื่อ ของบุคคล องค์กร ค่าตัวเลข ข้อมูลวันที่และเวลา ตำแหน่งทางภูมิศาสตร์ เป็นต้น แบบจำลองที่ใช้สำหรับ NER สามารถระบุข้อมูลดังกล่าวจากสตริงที่กำหนดและจัดหมวดหมู่ตาม ประเภทของมัน UiPath