Скрипти сайтҳо бо Python and BeautifulSoup - маслиҳати Semalt

Дар интернет маълумоти кофӣ дар бораи чӣ гуна дуруст тоза кардани сайтҳо ва блогҳо мавҷуд аст. Он чизе ки ба мо лозим аст, танҳо дастрасӣ ба ин маълумот нест, балки роҳҳои миқёспазир барои ҷамъоварӣ, таҳлил ва ташкили он. Python ва BeautifulSoup ду василаи аҷибе барои тозакунии вебсайтҳо ва гирифтани маълумот. Ҳангоми скрапинги веб, маълумотро ба осонӣ ба даст овардан мумкин аст ва дар формати лозимӣ пешниҳод карда мешавад. Агар шумо як сармоягузори ҷасур бошед, ки вақт ва пулашро қадр мекунад, шумо бешубҳа бояд раванди скрепингро суръат бахшед ва онро ба қадри имкон беҳтар кунед.

Сар кардани кор

Мо ҳам Python ва ҳам BeautifulSoupро ҳамчун забони асосии скрабин истифода мебарем.

  • 1. Барои истифодабарандагони Mac, Python дар OS X қаблан насб карда шудааст. Онҳо бояд Терминалро кушоянд ва дар python - табдил диҳанд . Бо ин роҳ, онҳо версияи Python 2.7 -ро дида метавонанд.
  • 2. Барои корбарони Windows тавсия медиҳем, ки Python-ро тавассути сайти расмии худ насб кунем.
  • 3. Минбаъд, шумо бояд бо ёрии pip ба китобхонаи BeautifulSoup дастрасӣ пайдо кунед. Ин василаи идоракунии бастаҳо, махсусан барои Python сохта шудааст.

Дар терминал шумо бояд рамзи зеринро ворид кунед:

pip_install осон

насб кардани BeautifulSoup4

Қоидаҳои скриншотҳо:

Қоидаҳои асосии харошидан, ки шумо бояд эҳтиёт шавед, инҳоянд:

  • 1. Пеш аз оғози коркарди он шумо бояд Қоидаҳо ва қоидаҳои сайтро санҷед. Пас, хеле эҳтиёт шавед!
  • 2. Шумо набояд аз сайтҳо маълумотро аз ҳад зиёд талаб кунед. Боварӣ ҳосил кунед, асбоби истифодашуда оқилона рафтор мекунад. Дар акси ҳол, шумо метавонед сайтро вайрон кунед.
  • 3. Як дархост дар як сония таҷрибаи дуруст аст.
  • 4. Тартиби блог ё сайтро ҳар вақт тағйир додан мумкин аст ва шумо бояд он сайтро аз назар гузаронед ва дар вақти лозима рамзи худро аз нав нависед.

Саҳифаро тафтиш кунед

Нишоннамои худро дар сафҳаи нархҳо кобед, то фаҳмед, ки чӣ бояд кард. Матнеро, ки ба HTML ва Python марбутанд, хонед ва аз натиҷаҳо, шумо нархҳоро дар барчасби HTML хоҳед дид.

Содирот ба Excel CSV

Пас аз он, ки шумо маълумотро ҷамъ кардед, қадами навбатӣ ин дар офлайнӣ нигоҳ доштани он аст. Формати ҷудошудаи Excel Comma интихоби беҳтаринест дар ин робита, ва шумо метавонед онро дар варақи Excel ба осонӣ кушоед. Аммо дар аввал, шумо бояд модулҳои Python CSV ва модулҳои санаи воридшавандаро сабт кунед, то додаҳои худро дуруст сабт кунед. Дар қисмати воридот рамзи зерин гузошта мешавад:

воридоти csv

аз вуруди додаҳо ба datetime

Усулҳои пешрафтаи скрапчат

BeautifulSoup яке аз воситаҳои соддатарин ва ҳамаҷонибаи скрепинги веб мебошад. Аммо, агар ба шумо лозим аст, ки миқдори зиёди маълумотро ҷамъ кунед, алтернативаҳои дигарро баррасӣ кунед:

  • 1. Скраппинг чаҳорчӯбаи скреперҳои пурқудрат ва аҷиб аст.
  • 2. Шумо инчунин метавонед рамзро бо як APIи умумӣ якҷоя кунед. Самаранокии маълумотҳои шумо муҳим хоҳад буд. Масалан, шумо метавонед Facebook Graph API-ро бисанҷед, ки маълумотро пинҳон мекунад ва онро дар сафҳаҳои Facebook намоиш намедиҳад.
  • 3. Ғайр аз он, шумо метавонед барномаҳои пушти сарро ба монанди MySQL истифода баред ва маълумотро ба миқдори калон бо дақиқии бузург нигоҳ доред.
  • 4. DRY ба "Худ такрор накун" маъно дорад ва шумо метавонед кӯшиш кунед, ки бо истифодаи ин усул вазифаҳои оддиро автоматӣ кунед.

mass gmail