Semalt: การแยก URL ออกจากหน้าเว็บด้วยซุปที่สวยงาม

Beautiful Soup เป็นแพ็คเกจ Python ระดับสูงที่ใช้สำหรับการแยกวิเคราะห์เอกสาร XML และ HTML ไลบรารี Soup Python ที่สวยงามสร้างแผนผังการแยกวิเคราะห์ที่ใช้เพื่อดึงข้อมูลที่เป็นประโยชน์จาก HyperText Markup Language (HTML) ไลบรารี่นี้มีให้สำหรับทั้ง Python 2 และ Python 3

ในกรณีส่วนใหญ่คุณจะพบว่าข้อมูลเป้าหมายของคุณสามารถเข้าถึงและใช้เป็นส่วนหนึ่งของหน้าเว็บได้เท่านั้น ในกรณีเช่นนี้คุณต้องใช้เทคนิคการ ขูดเว็บ ที่สามารถดึงข้อมูลในรูปแบบที่สามารถวิเคราะห์ได้ นี่คือที่มาของห้องสมุดซุปที่สวยงาม

ความต้องการ

คุณต้องการโมดูลที่เหมาะสมเพื่อใช้ห้องสมุด Beautiful Soup ในการเริ่มต้นคุณต้องติดตั้งภาษาการเขียนโปรแกรม Python 2.7 บนเครื่องของคุณ ในโพสต์นี้คุณจะได้เรียนรู้ วิธีการขูดเว็บไซต์ และแยก URL ทั้งหมดโดยใช้ Request และ Beautiful Soup 4 การแยกวิเคราะห์ HTML เป็นงานที่ต้องทำด้วยตัวเองโดยเฉพาะอย่างยิ่งด้วยความช่วยเหลือด้านเทคนิคของ Beautiful Soup

ทำไมต้องใช้ซุปที่สวยงาม?

Beautiful Soup เป็นแพ็คเกจ Python ที่ติดอันดับยอดนิยมที่ใช้ในการขูดเว็บไซต์และแยกแท็ก HTML ตั้งแต่ปี 2004 เมื่อเร็ว ๆ นี้ Beautiful Soup 4 ได้มาแทนที่ Beautiful Soup 3 ในอุตสาหกรรม โปรดทราบว่า BS4 ทำงานได้ทั้งบน Python ทั้งสองรุ่นในขณะที่ BS3 ใช้งานได้กับ Python 2.7 เท่านั้น ไลบรารีประกอบด้วยคุณลักษณะ inbuilt ต่อไปนี้:

  • ความสามารถในการเข้ารหัส - คุณไม่ต้องตื่นตระหนกเกี่ยวกับการเข้ารหัสเมื่อคุณติดตั้งโมดูลซุปที่สวยงามบนเครื่องของคุณ ไลบรารีเป็นแบบอัตโนมัติเพื่อแปลงอินพุตเป็น Unicode และส่งออกเป็น UTF-8
  • ความสามารถในการนำทาง - Beautiful Soup มีวิธีการใช้งานที่ง่ายสำหรับการค้นหาการนำทางและการปรับแต่งแผนผังการแยก

วิธีการใช้ห้องสมุดซุปที่สวยงาม?

หลังจากติดตั้ง Beautiful Soup บนเครื่องของคุณคุณสามารถเริ่มใช้ห้องสมุด ในการเริ่มต้นใช้งานให้นำเข้าไลบรารี bs4 ที่จุดเริ่มต้นของรหัส Python ของคุณ ส่งเนื้อหาหรือ URL ไปที่ Beautiful Soup เพื่อสร้างวัตถุ Soup อย่างไรก็ตามห้องสมุดไม่สามารถดึงเว็บเพจเป้าหมายเองได้ ที่นี่คุณต้องทำงานให้เสร็จด้วยตนเอง นอกจากนี้คุณยังสามารถดึงหน้าเว็บที่ต้องการโดยใช้การผสมผสานระหว่าง Python และ Beautiful Soup

บทบาทของห้องสมุดขอ

หากต้องการขูดหน้าคุณต้องดาวน์โหลดก่อน คุณสามารถดาวน์โหลดเว็บเพจโดยใช้ไลบรารีคำขอ ไลบรารีคำขอทำงานได้โดยการร้องขอ "GET" ไปยังเว็บเซิร์ฟเวอร์ซึ่งจะดาวน์โหลดเนื้อหา HTML ของหน้าเว็บที่ต้องการ

แยก URL ออกจากหน้าเว็บ

ตอนนี้คุณมีข้อมูลรายละเอียดเกี่ยวกับห้องสมุดซุปสวย การรวมกันของห้องสมุด BS4 และ Python จะช่วยให้คุณดึงหน้าเว็บได้อย่างรวดเร็ว หากต้องการดึง URL ทั้งหมดออกจากหน้าเว็บเป้าหมายของคุณให้ใช้วิธี "ค้นหาทั้งหมด" วิธีนี้จะทำให้คุณสามารถรวบรวมองค์ประกอบที่มีแท็ก จาก bs4 นำเข้าทั้ง Beautiful Soup และคำขอ เรียกใช้รหัสของคุณและป้อนเว็บไซต์หรือหน้าเว็บเพื่อดึง URL จาก

mass gmail