ਸੇਮਲਟ - ਵੈਬ ਪੇਜਾਂ ਨੂੰ ਕਿਵੇਂ ਸਕ੍ਰੈਪ ਕਰਨਾ ਹੈ?

ਖੂਬਸੂਰਤ ਸੂਪ ਇਕ ਪਾਈਥਨ ਲਾਇਬ੍ਰੇਰੀ ਹੈ ਜੋ XML ਅਤੇ HTML ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ ਪਾਰਸ ਟ੍ਰੀ ਬਣਾ ਕੇ ਵੈਬ ਪੇਜਾਂ ਨੂੰ ਖੁਰਚਣ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਹੈ. ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ, ਵੈਬਸਾਈਟਾਂ ਅਤੇ ਪੰਨਿਆਂ ਤੋਂ ਡਾਟਾ ਕੱractਣ ਦੀ ਇੱਕ ਤਕਨੀਕ, ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਪ੍ਰਬੰਧਨ ਦੇ ਖੇਤਰਾਂ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ ਤੇ ਵਰਤੀ ਜਾਂਦੀ ਹੈ. ਜ਼ਿਆਦਾਤਰ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਪਾਈਥਨ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾ ਡੇਟਾ ਸਾਇੰਸ ਵਿੱਚ ਇੱਕ ਸ਼ਰਤ ਹੈ.

ਪਾਈਥਨ 3 ਵਿੱਚ ਸਕ੍ਰੈਪਿੰਗ ਟੂਲਸ ਅਤੇ ਮੋਡੀ .ਲ ਹਨ ਜੋ ਤੁਸੀਂ ਆਪਣੇ ਡੇਟਾ ਮੈਨੇਜਮੈਂਟ ਪ੍ਰੋਜੈਕਟ ਲਈ ਅਪਲਾਈ ਕਰ ਸਕਦੇ ਹੋ. ਵਰਤਮਾਨ ਵਿੱਚ ਖੂਬਸੂਰਤ ਸੂਪ 4 ਦੇ ਰੂਪ ਵਿੱਚ ਚੱਲ ਰਿਹਾ ਹੈ, ਇਹ ਮੋਡੀ Pyਲ ਪਾਈਥਨ 3 ਅਤੇ ਪਾਈਥਨ 2.7 ਦੋਵਾਂ ਨਾਲ ਅਨੁਕੂਲ ਹੈ. ਖੂਬਸੂਰਤ ਸੂਪ 4 ਮੈਡਿ .ਲ ਗੈਰ-ਬੰਦ ਟੈਗ ਸੂਪ ਲਈ ਪਾਰਸ ਦੇ ਰੁੱਖ ਬਣਾਉਣ ਲਈ ਵੀ ਸਮਰੱਥ ਹੈ. ਇਸ ਟਿutorialਟੋਰਿਅਲ ਵਿੱਚ, ਤੁਸੀਂ ਪੇਜ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰਨ ਅਤੇ ਸਕ੍ਰੈਪਡ ਡੇਟਾ ਨੂੰ ਇੱਕ ਸੀਐਸਵੀ ਫਾਈਲ ਵਿੱਚ ਲਿਖਣਾ ਸਿਖੋਗੇ.

ਸ਼ੁਰੂ ਕਰਨਾ

ਅਰੰਭ ਕਰਨ ਲਈ, ਆਪਣੇ ਕੰਪਿ onਟਰ ਤੇ ਸਰਵਰ ਜਾਂ ਸਥਾਨਕ ਅਧਾਰਤ ਪਾਈਥਨ ਕੋਡਿੰਗ ਵਾਤਾਵਰਣ ਸਥਾਪਤ ਕਰੋ. ਤੁਹਾਨੂੰ ਆਪਣੀ ਮਸ਼ੀਨ ਤੇ ਖੂਬਸੂਰਤ ਸੂਪ ਅਤੇ ਬੇਨਤੀ ਮਾਡਿ .ਲ ਵੀ ਸਥਾਪਿਤ ਕਰਨੇ ਚਾਹੀਦੇ ਹਨ. ਦੋਵਾਂ ਮੈਡਿ .ਲਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਦਾ ਗਿਆਨ ਵੀ ਇਕ ਜ਼ਰੂਰੀ ਜ਼ਰੂਰੀ ਹੈ. HTML ਟੈਗਿੰਗ ਅਤੇ structureਾਂਚੇ ਨਾਲ ਜਾਣੂ ਹੋਣਾ ਵੀ ਇੱਕ ਵਾਧੂ ਫਾਇਦਾ ਹੈ.

ਤੁਹਾਡੇ ਡਾਟੇ ਨੂੰ ਸਮਝਣਾ

ਇਸ ਪ੍ਰਸੰਗ ਵਿੱਚ, ਕਲਾ ਦੇ ਰਾਸ਼ਟਰੀ ਗੈਲਰੀ ਤੋਂ ਅਸਲ ਅੰਕੜੇ ਦੀ ਵਰਤੋਂ ਤੁਹਾਨੂੰ ਸੁੰਦਰ ਸੂਪ 4. ਦੀ ਵਰਤੋਂ ਕਰਨ ਬਾਰੇ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਲਈ ਕੀਤੀ ਜਾਏਗੀ. ਨੈਸ਼ਨਲ ਗੈਲਰੀ ਆਫ਼ ਆਰਟ ਵਿੱਚ 120,000 ਟੁਕੜੇ ਸ਼ਾਮਲ ਹਨ ਜੋ ਲਗਭਗ 13,000 ਕਲਾਕਾਰਾਂ ਦੁਆਰਾ ਕੀਤੇ ਗਏ ਹਨ. ਕਲਾ ਵਾਸ਼ਿੰਗਟਨ ਡੀਸੀ, ਯੂਨਾਈਟਿਡ ਸਟੇਟ ਵਿੱਚ ਅਧਾਰਤ ਹੈ.

ਸੁੰਦਰ ਸੂਪ ਨਾਲ ਵੈਬ ਡੇਟਾ ਕੱ Webਣਾ ਇੰਨਾ ਗੁੰਝਲਦਾਰ ਨਹੀਂ ਹੈ. ਉਦਾਹਰਣ ਦੇ ਲਈ, ਜੇ ਤੁਸੀਂ ਜ਼ੈਟਰ ਜ਼ੈੱਡ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਦੇ ਹੋ, ਤਾਂ ਸੂਚੀ ਵਿਚਲਾ ਪਹਿਲਾ ਨਾਮ ਮਾਰਕ ਕਰੋ ਅਤੇ ਨੋਟ ਕਰੋ. ਇਸ ਕੇਸ ਵਿੱਚ, ਪਹਿਲਾ ਨਾਮ ਜਬਾਗਲੀਆ, ਨਿਕਕੋਲਾ ਹੈ. ਇਕਸਾਰਤਾ ਲਈ, ਪੰਨੇ ਦੀ ਗਿਣਤੀ ਅਤੇ ਉਸ ਪੰਨੇ 'ਤੇ ਆਖਰੀ ਕਲਾਕਾਰ ਦਾ ਨਾਮ ਦੱਸੋ.

ਬੇਨਤੀਆਂ ਅਤੇ ਸੁੰਦਰ ਸੂਪ ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਕਿਵੇਂ ਆਯਾਤ ਕਰਨਾ ਹੈ

ਲਾਇਬ੍ਰੇਰੀਆਂ ਨੂੰ ਆਯਾਤ ਕਰਨ ਲਈ, ਆਪਣੇ ਪਾਈਥਨ 3 ਪ੍ਰੋਗਰਾਮਿੰਗ ਵਾਤਾਵਰਣ ਨੂੰ ਸਰਗਰਮ ਕਰੋ. ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਜਾਂਚ ਕਰੋ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਵਾਤਾਵਰਣ ਦੇ ਨਾਲ ਉਸੇ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਹੋ. ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਚਲਾਓ. ਮੇਰੀ_ਨੈਵ / ਬਿਨ / ਐਕਟਿਵ.

ਇੱਕ ਨਵੀਂ ਫਾਈਲ ਬਣਾਓ ਅਤੇ ਸੁੰਦਰ ਸੂਪ ਅਤੇ ਬੇਨਤੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਨੂੰ ਆਯਾਤ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰੋ. ਬੇਨਤੀਆਂ ਦੀ ਲਾਇਬ੍ਰੇਰੀ ਤੁਹਾਨੂੰ ਆਪਣੇ ਪਾਇਥਨ ਪ੍ਰੋਗਰਾਮਾਂ ਵਿਚ ਐਚਟੀਟੀਪੀ ਨੂੰ ਪੜ੍ਹਨਯੋਗ ਫਾਰਮੈਟ ਵਿਚ ਵਰਤਣ ਦੀ ਆਗਿਆ ਦੇਵੇਗੀ. ਖੂਬਸੂਰਤ ਸੂਪ, ਦੂਜੇ ਪਾਸੇ, ਪੇਜਾਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਖੁਰਚਣ ਦਾ ਕੰਮ ਕਰਦਾ ਹੈ. ਸੁੰਦਰ ਸੂਪ ਨੂੰ ਆਯਾਤ ਕਰਨ ਲਈ ਬੀ ਐਸ 4 ਦੀ ਵਰਤੋਂ ਕਰੋ.

ਵੈਬ ਪੇਜ ਨੂੰ ਕਿਵੇਂ ਇਕੱਤਰ ਕਰਨਾ ਅਤੇ ਪਾਰਸ ਕਰਨਾ ਹੈ

ਬੇਨਤੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਹਾਡੇ ਪਹਿਲੇ ਪੇਜ ਦਾ ਯੂਆਰਏਲ ਇਕੱਤਰ ਕਰੋ. ਪਹਿਲੇ ਪੰਨੇ ਦਾ URL ਵੇਰੀਏਬਲ ਪੇਜ ਨੂੰ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾਵੇਗਾ. ਬੇਨਤੀਆਂ ਤੋਂ ਇੱਕ ਖੂਬਸੂਰਤ ਸੂਪ ਆਬਜੈਕਟ ਬਣਾਓ ਅਤੇ ਪਾਈਥਨ ਦੇ ਪਾਰਸਰ ਤੋਂ ਆਬਜੈਕਟ ਪਾਰਸ ਕਰੋ.

ਇਸ ਟਿutorialਟੋਰਿਅਲ ਵਿੱਚ, ਉਦੇਸ਼ ਲਿੰਕਸ ਅਤੇ ਕਲਾਕਾਰਾਂ ਦੇ ਨਾਮ ਇਕੱਤਰ ਕਰਨਾ ਹੈ. ਉਦਾਹਰਣ ਦੇ ਲਈ, ਤੁਸੀਂ ਕਲਾਕਾਰਾਂ ਦੀਆਂ ਤਰੀਕਾਂ ਅਤੇ ਰਾਸ਼ਟਰੀਅਤਾਂ ਨੂੰ ਇਕੱਤਰ ਕਰ ਸਕਦੇ ਹੋ. ਵਿੰਡੋਜ਼ ਉਪਭੋਗਤਾਵਾਂ ਲਈ, ਕਲਾਕਾਰ ਦੇ ਪਹਿਲੇ ਨਾਮ ਤੇ ਸੱਜਾ ਕਲਿੱਕ ਕਰੋ. ਇਸ ਸਥਿਤੀ ਵਿੱਚ, ਜਬਾਗਲੀਆ, ਨਿਕਕੋਲਾ ਦੀ ਵਰਤੋਂ ਕਰੋ. ਮੈਕ ਓਐਸ ਉਪਭੋਗਤਾਵਾਂ ਲਈ, "ਸੀਟੀਆਰਐਲ" ਨੂੰ ਟੈਪ ਕਰੋ ਅਤੇ ਨਾਮ ਤੇ ਕਲਿਕ ਕਰੋ. ਵੈਬ ਡਿਵੈਲਪਰਾਂ ਦੇ ਟੂਲਸ ਤਕ ਪਹੁੰਚਣ ਲਈ ਤੁਹਾਡੀ ਸਕ੍ਰੀਨ ਤੇ ਪੌਪ-ਅਪਸ ਜੋ "ਐਲੀਮੈਂਟ ਇੰਸਪੈਕਟ" ਮੀਨੂ ਤੇ ਕਲਿਕ ਕਰੋ. ਖੂਬਸੂਰਤ ਸੂਪ ਨੂੰ ਇੱਕ ਰੁੱਖ ਦੀ ਛੇਤੀ ਪਾਰਸ ਕਰਨ ਲਈ ਕਲਾਕਾਰ ਦੇ ਨਾਮ ਛਾਪੋ.

ਹੇਠਲੇ ਲਿੰਕ ਹਟਾਏ ਜਾ ਰਹੇ ਹਨ

ਆਪਣੇ ਵੈਬ ਪੇਜ ਤੇ ਹੇਠਲੇ ਲਿੰਕ ਨੂੰ ਹਟਾਉਣ ਲਈ, ਐਲੀਮੈਂਟ ਨੂੰ ਸੱਜਾ ਕਲਿੱਕ ਕਰਕੇ DOM ਦੀ ਜਾਂਚ ਕਰੋ. ਤੁਸੀਂ ਪਛਾਣੋਗੇ ਕਿ ਲਿੰਕ ਇੱਕ HTML ਟੇਬਲ ਦੇ ਹੇਠਾਂ ਹਨ. ਖੂਬਸੂਰਤ ਸੂਪ ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ, ਪਾਰਸ ਦੇ ਰੁੱਖ ਤੋਂ ਟੈਗਾਂ ਨੂੰ ਹਟਾਉਣ ਲਈ "ਕੰਪੋਜ਼ਿੰਗ ਵਿਧੀ" ਦੀ ਵਰਤੋਂ ਕਰੋ.

ਟੈਗ ਤੋਂ ਸਮੱਗਰੀ ਨੂੰ ਕਿਵੇਂ ਖਿੱਚਣਾ ਹੈ

ਤੁਹਾਨੂੰ ਪੂਰੇ ਲਿੰਕ ਟੈਗ ਨੂੰ ਪ੍ਰਿੰਟ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ ਹੈ, ਟੈਗ ਤੋਂ ਸਮਗਰੀ ਨੂੰ ਹਟਾਉਣ ਲਈ ਸੁੰਦਰ ਸੂਪ ਦੀ ਵਰਤੋਂ ਕਰੋ. ਤੁਸੀਂ ਸੁੰਦਰ ਸੂਪ 4 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਲਾਕਾਰਾਂ ਨਾਲ ਜੁੜੇ ਯੂਆਰਐਲ ਨੂੰ ਵੀ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹੋ.

ਇੱਕ CSV ਫਾਈਲ ਤੇ ਸਕ੍ਰੈਪਡ ਡੇਟਾ ਕੈਪਚਰ ਕਰਨਾ

ਸੀਐਸਵੀ ਫਾਈਲ ਤੁਹਾਨੂੰ ਸਧਾਰਣ ਟੈਕਸਟ ਵਿਚ structਾਂਚਾਗਤ ਡਾਟਾ ਸਟੋਰ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਵੇਗੀ, ਇਕ ਫਾਰਮੈਟ ਜੋ ਕਿ ਜ਼ਿਆਦਾਤਰ ਡੈਟਾਸੀਟ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ. ਪਾਈਥਨ ਵਿਚ ਪਲੇਨ ਟੈਕਸਟ ਫਾਈਲਾਂ ਨੂੰ ਸੰਭਾਲਣ ਬਾਰੇ ਗਿਆਨ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ.

ਵੈੱਬ ਡੇਟਾ ਕੱractionਣ ਦੀ ਵਰਤੋਂ ਪੇਜਾਂ ਨੂੰ ਖੁਰਚਣ ਅਤੇ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਉਹਨਾਂ ਵੈਬਸਾਈਟਾਂ ਬਾਰੇ ਸੋਚੋ ਜਿਨ੍ਹਾਂ ਤੋਂ ਤੁਸੀਂ ਜਾਣਕਾਰੀ ਕੱ ext ਰਹੇ ਹੋ. ਕੁਝ ਗਤੀਸ਼ੀਲ ਵੈਬਸਾਈਟਾਂ ਆਪਣੀਆਂ ਸਾਈਟਾਂ ਤੇ ਵੈਬ ਡੇਟਾ ਕੱractionਣ ਤੇ ਪਾਬੰਦੀ ਲਗਾਉਂਦੀਆਂ ਹਨ. ਖੂਬਸੂਰਤ ਸੂਪ ਅਤੇ ਪਾਈਥਨ 3 ਨਾਲ ਪੰਨੇ ਨੂੰ ਖੁਰਚਣਾ ਇਹ ਬਹੁਤ ਸੌਖਾ ਹੈ.