|
小麦多组学网站geneHub页面需要加一个外链,但外链地址与基因id有关。所以要首先拿到外链地址与基因id的对应关系。因此,需要写一个爬虫来获得这个信息。
因为小麦有12万以上的基因,所以如果一个一个顺序爬取,会耗费一定的时间。正好前几天在公众号上看到使用python httpx的内容,所以就想着用httpx构造一个异步的爬虫。
相比看httpx的文档,直接看网上的实现例子似乎更快。本文参考如何使用 asyncio 限制协程的并发数。
具体的实现如下:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 05:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社